模型介绍

Intern-S1-mini基于一个8B密集语言模型(Qwen3)和一个0.3B视觉编码器(InternViT),Intern-S1-mini 在5万亿个标记的多模态数据上进行了进一步预训练,其中包括超过2.5万亿个科学领域的标记。这使得该模型在保持强大的通用能力的同时,在诸如解释化学结构、理解蛋白质序列和规划化合物合成路线等专业科学领域表现出色,使Intern-S1-mini 成为适用于实际科学应用的研究助手。

模型加载

from modelscope import AutoProcessor, AutoModelForCausalLM
import torchmodel_name = "Shanghai_AI_Laboratory/Intern-S1-mini"
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto", trust_remote_code=True)
Downloading Model from https://www.modelscope.cn to directory: /home/six/.cache/modelscope/hub/models/Shanghai_AI_Laboratory/Intern-S1-miniIf tokenization with SMILES formula is of necessity, please 'pip install RDKit' for better tokenization quality.Downloading Model from https://www.modelscope.cn to directory: /home/six/.cache/modelscope/hub/models/Shanghai_AI_Laboratory/Intern-S1-miniLoading checkpoint shards: 100%|██████████| 4/4 [00:01<00:00,  2.48it/s]

模型结构

model
InternS1ForConditionalGeneration((model): InternS1Model((vision_tower): InternS1VisionModel((embeddings): InternS1VisionEmbeddings((patch_embeddings): InternS1VisionPatchEmbeddings((projection): Conv2d(3, 1024, kernel_size=(14, 14), stride=(14, 14)))(dropout): Dropout(p=0.0, inplace=False))(encoder): InternS1VisionEncoder((layer): ModuleList((0-23): 24 x InternS1VisionLayer((attention): InternS1VisionAttention((q_proj): Linear(in_features=1024, out_features=1024, bias=True)(k_proj): Linear(in_features=1024, out_features=1024, bias=True)(v_proj): Linear(in_features=1024, out_features=1024, bias=True)(projection_layer): Linear(in_features=1024, out_features=1024, bias=True)(projection_dropout): Identity()(q_norm): Identity()(k_norm): Identity())(mlp): InternS1VisionMLP((activation_fn): GELUActivation()(fc1): Linear(in_features=1024, out_features=4096, bias=True)(fc2): Linear(in_features=4096, out_features=1024, bias=True))(layernorm_before): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)(layernorm_after): LayerNorm((1024,), eps=1e-06, elementwise_affine=True)(dropout): Dropout(p=0.0, inplace=False)(drop_path1): Identity()(drop_path2): Identity())))(layernorm): Identity())(multi_modal_projector): InternS1MultiModalProjector((layer_norm): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)(linear_1): Linear(in_features=4096, out_features=4096, bias=True)(act): GELUActivation()(linear_2): Linear(in_features=4096, out_features=4096, bias=True))(language_model): Qwen3Model((embed_tokens): Embedding(153216, 4096)(layers): ModuleList((0-35): 36 x Qwen3DecoderLayer((self_attn): Qwen3Attention((q_proj): Linear(in_features=4096, out_features=4096, bias=False)(k_proj): Linear(in_features=4096, out_features=1024, bias=False)(v_proj): Linear(in_features=4096, out_features=1024, bias=False)(o_proj): Linear(in_features=4096, out_features=4096, bias=False)(q_norm): Qwen3RMSNorm((128,), eps=1e-06)(k_norm): Qwen3RMSNorm((128,), eps=1e-06))(mlp): Qwen3MLP((gate_proj): Linear(in_features=4096, out_features=12288, bias=False)(up_proj): Linear(in_features=4096, out_features=12288, bias=False)(down_proj): Linear(in_features=12288, out_features=4096, bias=False)(act_fn): SiLU())(input_layernorm): Qwen3RMSNorm((4096,), eps=1e-06)(post_attention_layernorm): Qwen3RMSNorm((4096,), eps=1e-06)))(norm): Qwen3RMSNorm((4096,), eps=1e-06)(rotary_emb): Qwen3RotaryEmbedding()))(lm_head): Linear(in_features=4096, out_features=153216, bias=False)
)

在这里插入图片描述

模型测试

messages = [{"role": "user","content": [{"type": "text", "text": "请用中文介绍一下你自己。"},],}
]inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device, dtype=torch.bfloat16)generate_ids = model.generate(**inputs, max_new_tokens=32768)
decoded_output = processor.decode(generate_ids[0, inputs["input_ids"].shape[1] :], skip_special_tokens=True)
print(decoded_output)
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.好的,用户让我用中文介绍一下自己。首先,我需要确定用户的需求是什么。可能他们想了解我的功能,或者测试我的中文能力,或者只是出于好奇。接下来,我要考虑如何组织回答。应该包括我的身份、功能、特点,以及如何帮助用户。用户可能希望得到一个简洁明了的回答,所以需要避免冗长。同时,要突出我的优势,比如多语言支持、知识广度、实时信息获取等。还要注意用词亲切,让用户感觉友好。另外,用户可能没有明确说明,但潜在需求可能是想确认我是否可靠,或者能否处理复杂任务。因此,在回答中需要强调准确性和安全性,比如提到遵守道德准则,保护隐私。还要考虑用户可能的后续问题,比如如何使用我,或者我的局限性。所以在介绍中可以适当提到这些方面,但不需要展开,保持回答的针对性。最后,检查语言是否自然流畅,避免技术术语,让不同背景的用户都能理解。确保回答结构清晰,分点说明,但不要用列表形式,而是用连贯的段落。
</think>你好!我是一个名叫Intern-S1的人工智能助手,由上海人工智能实验室开发。我擅长处理各种语言任务,比如回答问题、提供定义和解释、将文本从一种语言翻译成另一种语言、总结文本、生成文本、编写故事、分析情感、提供推荐、开发算法、编写代码等等。我致力于通过执行常见的基于语言的任务和提供建议来帮助人类。如果你有任何需要帮助的地方,欢迎随时向我提问!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/920401.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/920401.shtml
英文地址,请注明出处:http://en.pswp.cn/news/920401.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux 100个问答(持续更新)

1.常用命令 2.rsync常用命令rsync 是⼀个强⼤的⽂件同步和复制⼯具&#xff0c;⽤于在本地和远程系统之间同步⽂件和目录。以下是⼀些常用的 rsync 命令和选项&#xff1a;1. 基本的 rsync rsync 命令格式&#xff1a; bashCopy code rsync [options] source destination● sou…

零基础玩转STM32:深入理解ARM Cortex-M内核与寄存器编程

1. 什么是 STM32 STM32 是 ST&#xff08;意法半导体&#xff0c;STMicroelectronics&#xff09;公司推出的 32 位微控制器。 其内核基于 ARM Cortex-M 系列&#xff08;如 M0、M3、M4、M7&#xff09;&#xff0c;性能强大、功耗低、外设丰富。凭借高性价比和完善的生态&…

CentOS 修改密码

在 CentOS&#xff08;以及大多数 Linux 系统&#xff09;下&#xff0c;你可以用以下命令打印当前用户&#xff1a; whoami或者&#xff1a; echo $USER方法1&#xff1a;直接用 passwd 命令 直接用 passwd 命令修改&#xff1a; # 修改当前用户密码 passwd# 修改指定用户密码…

.NetCore 接入 Nacos,实现配置中心和服务注册

因历史项目&#xff08;.Netcore3.1&#xff09;需要&#xff0c;需要使用Nacos作为配置中心和服务发现&#xff0c;本文作为记录使用Nacos的笔记。 文章目录一、相关资料二、Nacos后台增加配置三、代码接入1、在appsettings.json中加入配置2、Program调整3、Startup调整4、启动…

自学嵌入式第三十天:Linux系统编程-线程的控制

一、线程控制&#xff1a;互斥和同步对于线程的共享资源的竞争的处理&#xff1b;进程也能用&#xff0c;对进程竞争的系统资源的分配&#xff1b;二、互斥1.互斥&#xff1a;在多线程中对临界资源的排他性&#xff08;独占&#xff09;访问&#xff1b;2.互斥机制&#xff08;…

EtherNet/IP 转 Modbus 协议网关(三格电子)

一、产品概述 1.1 产品用途 SG-EIP-MOD-210 网关可以实现将 Modbus 接口设备连接到 EtherNet/IP 网 络中。用户不需要了解具体的 Modbus 和 EtherNet/IP 协议即可实现将 Modbus 设 备挂载到 EtherNet/IP 接口的 PLC 上&#xff0c;并和 Modbus 设备进行数据交互。拓扑结 构如…

MVCC的作用是什么

问题MVCC的作用是什么我的回答MVCC&#xff0c;全称是Multi-Version Concurrency Control&#xff0c;多版本并发控制。这是数据库管理系统中一种常用的并发控制机制&#xff0c;主要用于提高数据库的并发性能。简单来说&#xff0c;MVCC的核心思想是&#xff0c;当有人读取数据…

A股大盘数据-20250828 分析

&#x1f4ca; 一、大盘数据深度分析&#x1f4b0; 量能分析&#xff08;核心指标&#xff09;总成交额&#xff1a;30013.32亿元。这是一个天量级别&#xff0c;确认了增量资金大幅入场&#xff0c;行情基础非常扎实&#xff0c;市场活跃度极高。市场分化&#xff1a;上涨2868…

安卓闪黑工具:aosp16版本Winscope之搜索功能剖析

背景&#xff1a; 在aosp16的Winscope体验时候发现多了数据的搜索功能&#xff0c;也体验了一下&#xff0c;这个新功能本身Winscope也自带了很多指导提示&#xff0c;主要是用来解决Winscope有时候寻找某个数据&#xff0c;某个layer时候的不便&#xff0c;本文来详细介绍一下…

使用 mcp-use 构建极简 Web 自动化测试智能体「喂饭教程」

使用 mcp-use 构建极简 Web 自动化测试智能体「喂饭教程」 引言 一、项目概述 二、技术架构 1. MCP协议简介 2. 基于mcp-use库的核心组件 2.1 MCPAgent使用 2.2 MCPClient配置 三、环境搭建 1. 依赖安装 2. 环境配置 3. MCP服务器配置 4. 验证MCP服务器连接 5.创建测试脚本 四、…

密码管理中

第一部分&#xff1a;弱加密算法的危害使用弱加密算法&#xff08;如 MD5, SHA-1&#xff0c;甚至不加盐的简单哈希&#xff09;来保护密码是极其危险的&#xff0c;主要危害体现在以下几个方面&#xff1a;1. 极易被破解&#xff08;彩虹表攻击&#xff09;原理&#xff1a;弱…

【mysql】解决Python连接MySQL报错:缺少cryptography库

解决Python连接MySQL报错&#xff1a;缺少cryptography库 在使用 Python 连接 MySQL 数据库时&#xff0c;有时可能会遇到这样的错误&#xff1a; RuntimeError: cryptography package is required for sha256_password or caching_sha2_password auth methods这篇文章将带你快…

告别Java依赖!GISBox三维场景编辑+服务发布一站式工具横评

在地理信息系统&#xff08;GIS&#xff09;技术快速发展的今天&#xff0c;选择一款合适的工具对于提升工作效率和实现项目目标至关重要。GISBox与GeoServer作为两款各具特色的GIS解决方案&#xff0c;分别面向不同的用户需求和应用场景。本文将从界面阅读感、安装复杂度、服务…

智能客服多智能体(知识库问答+情绪感知+工单路由)

一、概述 —— 目标与高层需求 目标:构建一个生产级的智能客服流水线,用多智能体(agent)分工协作完成用户问答、情绪识别并在必要时自动生成/路由工单(ticket)。系统应满足: 高答复准确率:通过 RAG(检索增强生成)把回复基于公司知识库(SOP、FAQ、产品文档)。([Gra…

消息队列核心问题解决方案:从丢失到重复消费的全方位保障

在分布式系统中,消息队列作为解耦、削峰、异步通信的核心组件,其可靠性直接决定了整个系统的稳定性。然而,“消息丢失”“重复消费”“消息积压”等问题却如同隐雷,稍有不慎便会引发数据不一致、业务异常等严重后果。本文将围绕“如何保证消息不丢失、不重复消费”这一核心…

API协作云:API→MCP极速构建MCP服务

一、背景与行业趋势数字化时代&#xff0c;API 是企业互联核心&#xff0c;API 协作云则实现连接能力跃升&#xff1a;高效管理 API 全生命周期&#xff0c;突破传统接口管理局限&#xff0c;通过标准化设计、自动化测试和可视化监控&#xff0c;让团队高效协作&#xff0c;轻松…

重塑可观测性成本:解析Coralogix的智能成本优化之道

在云原生与微服务架构成为主流的今天&#xff0c;可观测性&#xff08;Observability&#xff09;已成为企业确保系统稳定、快速排障的必需品。然而&#xff0c;随着数据量的爆炸式增长&#xff0c;传统的可观测性平台所带来的成本也在急剧攀升。企业常常陷入两难境地&#xff…

实测阿里图像编辑模型Qwen-Image-Edit:汉字也能无痕修改(附实测案例)

现在越来越多的人都开始用 AI 来生成图片了&#xff0c;比如用 AI 生成节日海报、电商图、游戏角色设计、封面图、文章配图等等。效率是真的快&#xff0c;而且往往生成得还都不赖。但有时一个「瑕疵」&#xff0c;会坏了整张图片。使用图像编辑&#xff0c;可能抽半天都抽不到…

为什么软解码依然重要?深入理解视频播放与开发应用(视频解码)

为什么软解码依然重要&#xff1f;深入理解视频播放与开发应用 摘要&#xff1a; 软解码&#xff08;Software Decoding&#xff09;是视频解码中最灵活的一种方式&#xff0c;完全依赖 CPU 来执行压缩算法的逆过程。本文从原理、优势与劣势、典型应用、跨平台实现到未来趋势&a…

大模型微调 Prompt Tuning与P-Tuning 的区别?

Prompt Tuning 和 P-Tuning 都属于 参数高效微调方法&#xff08;PEFT, Parameter-Efficient Fine-Tuning&#xff09;&#xff0c;主要是为了避免对大模型全部参数进行训练&#xff0c;而是通过小规模参数&#xff08;prompt embedding&#xff09;来适配下游任务。但两者的实…