1. 模型简介

Kimi K2 是一款尖端专家混合(MoE)语言模型,激活参数量达320亿,总参数量突破1万亿。该模型采用Muon优化器训练,在前沿知识、推理和编程任务中展现出卓越性能,同时针对智能体能力进行了精细化优化。

核心特性

  • 超大规模训练:基于15.5万亿token预训练1万亿参数MoE模型,全程保持训练稳定性
  • MuonClip优化器:将Muon优化器应用于前所未有的规模,开发新型优化技术解决扩展过程中的稳定性问题
  • 智能体能力:专为工具调用、逻辑推理和自主问题解决设计

模型变体

  • Kimi-K2-Base:基础模型,为希望完全掌控微调和定制解决方案的研究者与开发者提供坚实的起点。
  • Kimi-K2-Instruct:经过后训练的模型,最适合即插即用的通用聊天及代理体验。它属于无需长思考的反射级模型。

2. 模型概述

架构专家混合模型 (MoE)
总参数量1万亿
激活参数量320亿
层数 (含全连接层)61
全连接层数量1
注意力隐藏层维度7168
MoE隐藏层维度 (单专家)2048
注意力头数量64
专家总数384
单token选用专家数8
共享专家数量1
词表大小16万
上下文长度12万8千
注意力机制多层注意力
激活函数SwiGLU

3. 评估结果

指令模型评估结果
BenchmarkMetricKimi K2 InstructDeepSeek-V3-0324Qwen3-235B-A22B
(non-thinking)
Claude Sonnet 4
(w/o extended thinking)
Claude Opus 4
(w/o extended thinking)
GPT-4.1Gemini 2.5 Flash
Preview (05-20)
Coding Tasks
LiveCodeBench v6
(Aug 24 - May 25)
Pass@153.746.937.048.547.444.744.7
OJBenchPass@127.124.011.315.319.619.519.5
MultiPL-EPass@185.783.178.288.689.686.785.6
SWE-bench Verified
(Agentless Coding)
Single Patch51.836.639.450.253.040.832.6
SWE-bench Verified
(Agentic Coding)
Single Attempt (Acc)65.838.834.472.7*72.5*54.6
Multiple Attempts (Acc)71.680.279.4*
SWE-bench Multilingual
(Agentic Coding)
Single Attempt (Acc)47.3 25.820.951.031.5
TerminalBenchInhouse Framework (Acc)30.035.543.28.3
Acc25.0 16.36.630.316.8
Aider-PolyglotAcc60.055.161.856.470.752.444.0
Tool Use Tasks
Tau2 retailAvg@470.669.157.075.081.874.864.3
Tau2 airlineAvg@456.539.026.555.560.054.542.5
Tau2 telecomAvg@465.832.522.145.257.038.616.9
AceBenchAcc76.572.770.576.275.680.174.5
Math & STEM Tasks
AIME 2024Avg@6469.659.4*40.1*43.448.246.561.3
AIME 2025Avg@6449.546.724.7*33.1*33.9*37.046.6
MATH-500Acc97.494.0*91.2*94.094.492.495.4
HMMT 2025Avg@3238.827.511.915.915.919.434.7
CNMO 2024Avg@1674.374.748.660.457.656.675.0
PolyMath-enAvg@465.159.551.952.849.854.049.9
ZebraLogicAcc89.084.037.7*73.759.358.557.9
AutoLogiAcc89.588.983.389.886.188.284.1
GPQA-DiamondAvg@875.168.4*62.9*70.0*74.9*66.368.2
SuperGPQAAcc57.253.750.255.756.550.849.6
Humanity's Last Exam
(Text Only)
-4.75.25.75.87.13.75.6
General Tasks
MMLUEM89.589.487.091.592.990.490.1
MMLU-ReduxEM92.790.589.293.694.292.490.6
MMLU-ProEM81.181.2*77.383.786.681.879.4
IFEvalPrompt Strict89.881.183.2*87.687.488.084.3
Multi-ChallengeAcc54.131.434.046.849.036.439.5
SimpleQACorrect31.027.713.215.922.842.323.3
LivebenchPass@176.472.467.674.874.669.867.8
• 加粗表示全球最佳,下划线表示开源最佳。
• 标记有 * 的数据点直接取自模型的技术报告或博客。
• 除SWE-bench Verified (Agentless)外,所有指标均在8k输出标记长度下进行评估。SWE-bench Verified (Agentless)则限制在16k输出标记长度。
• Kimi K2在SWE-bench Verified测试中的单次尝试补丁(无需测试时计算)通过率达到了65.8%(使用bash/编辑器工具)。在相同条件下,其在SWE-bench Multilingual测试中的单次通过率为47.3%。此外,我们报告了利用并行测试时计算的SWE-bench Verified测试结果(71.6%),即通过采样多个序列并通过内部评分模型选择最佳方案。
•为确保评估的稳定性,我们在AIME、HMMT、CNMO、PolyMath-en、GPQA-Diamond、EvalPlus、Tau2上采用了avg@k方法。
• 由于评估成本过高,部分数据点已被省略。
基础模型评估结果
BenchmarkMetricShotKimi K2 BaseDeepseek-V3-BaseQwen2.5-72BLlama 4 Maverick
General Tasks
MMLUEM5-shot87.887.186.184.9
MMLU-proEM5-shot69.260.662.863.5
MMLU-redux-2.0EM5-shot90.289.587.888.2
SimpleQACorrect5-shot35.326.510.323.7
TriviaQAEM5-shot85.184.176.079.3
GPQA-DiamondAvg@85-shot48.150.540.849.4
SuperGPQAEM5-shot44.739.234.238.8
Code Tasks
LiveCodeBench v6Pass@11-shot26.322.921.125.1
EvalPlusPass@1-80.365.666.065.5
Mathematics Tasks
MATHEM4-shot70.260.161.063.0
GSM8kEM8-shot92.191.790.486.3
Chinese Tasks
C-EvalEM5-shot92.590.090.980.9
CSimpleQACorrect5-shot77.672.150.553.5
• 在本研究中,我们仅评估开源预训练模型。由于Qwen3-235B-A22B的基准检查点在我们研究时尚未开源,因此我们报告了Qwen2.5-72B的结果。
• 所有模型均采用相同的评估协议进行测试。

4. 部署说明

[!注意]
您可以通过 https://platform.moonshot.ai 访问Kimi K2的API服务,我们提供了兼容OpenAI/Anthropic规范的API接口。

其中Anthropic兼容API的温度参数映射关系为real_temperature = request_temperature * 0.6,以更好地适配现有应用程序。

我们的模型检查点采用block-fp8格式存储,您可以在Huggingface平台获取。

当前推荐在以下推理引擎上运行Kimi-K2模型:

  • vLLM
  • SGLang
  • KTransformers
  • TensorRT-LLM

关于vLLM和SGLang的部署示例,请参阅模型部署指南。


5. 模型使用

聊天补全

本地推理服务启动后,您可以通过聊天端点与之交互:

def simple_chat(client: OpenAI, model_name: str):messages = [{"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},{"role": "user", "content": [{"type": "text", "text": "Please give a brief self-introduction."}]},]response = client.chat.completions.create(model=model_name,messages=messages,stream=False,temperature=0.6,max_tokens=256)print(response.choices[0].message.content)

[!注意]
Kimi-K2-Instruct 的推荐温度为 temperature = 0.6
如无特殊要求,上述系统提示是良好的默认设置。


工具调用

Kimi-K2-Instruct 具备强大的工具调用能力。
启用功能需在每次请求中传入可用工具列表,模型将自主决定调用时机与方式。

以下示例展示了端到端的天气工具调用流程:

# Your tool implementation
def get_weather(city: str) -> dict:return {"weather": "Sunny"}# Tool schema definition
tools = [{"type": "function","function": {"name": "get_weather","description": "Retrieve current weather information. Call this when the user asks about the weather.","parameters": {"type": "object","required": ["city"],"properties": {"city": {"type": "string","description": "Name of the city"}}}}
}]# Map tool names to their implementations
tool_map = {"get_weather": get_weather
}def tool_call_with_client(client: OpenAI, model_name: str):messages = [{"role": "system", "content": "You are Kimi, an AI assistant created by Moonshot AI."},{"role": "user", "content": "What's the weather like in Beijing today? Use the tool to check."}]finish_reason = Nonewhile finish_reason is None or finish_reason == "tool_calls":completion = client.chat.completions.create(model=model_name,messages=messages,temperature=0.6,tools=tools,          # tool list defined abovetool_choice="auto")choice = completion.choices[0]finish_reason = choice.finish_reasonif finish_reason == "tool_calls":messages.append(choice.message)for tool_call in choice.message.tool_calls:tool_call_name = tool_call.function.nametool_call_arguments = json.loads(tool_call.function.arguments)tool_function = tool_map[tool_call_name]tool_result = tool_function(**tool_call_arguments)print("tool_result:", tool_result)messages.append({"role": "tool","tool_call_id": tool_call.id,"name": tool_call_name,"content": json.dumps(tool_result)})print("-" * 100)print(choice.message.content)

tool_call_with_client函数实现了从用户查询到工具执行的完整流程。
该流程要求推理引擎支持Kimi-K2的原生工具解析逻辑。
如需了解流式输出和手动工具解析方法,请参阅工具调用指南。


6. 许可协议

代码仓库和模型权重均采用修订版MIT许可证发布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88513.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88513.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88513.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Grok-4 发布会图文总结

文章目录00:00 - Grok-4:以“全球最智能 AI”之名突破性登场06:41 - 推理能力的大幅飞跃:100 倍训练量铸就的“博士级”大脑13:25 - 工具使用能力的革新:从“原始”到深度整合20:06 - 直面强化学习的挑战与 AI 的终极测试26:45 - 应用演示&am…

AI产品经理面试宝典第1天:机器学习核心算法全景解析

面试官:请解释什么是监督学习?能否用生活案例说明其运作逻辑? 监督学习如同教孩子识字的过程。父母指着"苹果"图片反复说"这是苹果"(带标签的训练数据),孩子逐渐建立"红色圆形水果=苹果"的认知模型(算法生成)。当孩子看到新图片时,模型…

前端开发技术栈概览

前端开发技术栈概览 前端开发是创建Web页面或app等前端界面给用户的过程,从简单的静态页面到复杂的单页应用(SPA),前端技术栈经历了快速的演进。以下是前端开发所需掌握的核心技术分类及相关知识点: 1. 基础层:HTML、CSS、JavaScr…

详解Kafka通过幂等性实现分区消息不重复的机制

一、核心机制:PID与序列号1. Producer ID (PID)唯一标识:每个生产者实例启动时,由Kafka Broker分配一个全局唯一的PID,用于标识消息来源。持久化存储:PID由Broker持久化保存,确保生产者重启后仍能追踪历史状…

压缩包方式在centos7版本上安装mysql8.0

使用tar命令解压 tar -zxvf mysql-8.0.32-el7-x86_64.tar.gz -C /usr/local/到/usr/local/修改解压后的文件名为mysql 创建mysql用户组和用户,自己在mysql下面创建data目录存储信息,把权限交给mysql这个用户 groupadd mysql useradd -r -g mysql mysql c…

使用ansible给被管理节点安装docker

在跳板机上安装ansible,再通过ansible的playbook,给被管理节点安装docker。 跳板机配置 实验环境 华为云上按需开两台2核2G的Ubuntu的ECS;2台公网IP为5Mbit/s,按需按流量;2台服务器在一个子网内;跳板机和被管理节点主机分别挂不通的安全组 在…

《Java EE与中间件》实验三 基于Spring Boot框架的购物车

目 录 一、实验目的和要求 二、实验实现思路及步骤 1、实验思路 2、实验步骤 3、实验方案 三、主要开发工具 四、实验效果及实现代码 1、购物车数据库构建实现 (1)建立javaee-project数据库 (2)建立t_cart数据表 &…

DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 论文精读

题目:DAS3D: Dual-modality Anomaly Synthesis for 3D Anomaly Detection 题目:DAS3D:用于三维异常检测的双模态异常合成 论文地址:ECCVW 2024 2410 Dual-modality 双模态 Anomaly Synthesis 异常合成 for 3D Anomaly Detection…

EasyCVR视频汇聚平台国标接入设备TCP主动播放失败排查指南

部分客户现场的下级平台通过国标级联接入安防监控系统EasyCVR后,只能通过TCP主动的播放方式进行播放(并不是所有下级平台都支持tcp主动播放,模式需下级平台支持),但是有些平台刚接入的时候发现不能播放。核心原因分析&…

linux打包指令和移动指令

在Linux中,常用的文件夹打包命令是 tar,它可以将文件夹压缩打包成 .tar、.tar.gz、.tar.bz2 等格式的文件。以下是具体用法: 1. 基础打包(不压缩,生成 .tar 文件) 将文件夹 folder 打包为 folder.tar&#…

神经符号AI:结合深度学习和符号逻辑的下一代AI

神经符号AI:结合深度学习和符号逻辑的下一代AI当AI医生解释诊断时,它不仅能指出医学影像中的异常像素模式,还能引用临床指南中的第三条第二款,推演病理发展的逻辑链条——这正是神经符号AI赋予机器的“理性之光”。2025年初&#…

SpringBoot JWT

jsonwebtoken 引依赖 <dependency><groupId>io.jsonwebtoken</groupId><artifactId>jjwt</artifactId><version>0.12.3</version></dependency> 测试一下&#xff0c;jwt是2个带逗号的3段字符串 官网参考&#xff1a;JSON …

读取QPS 10万,写入QPS 1000,如何设计系统架构?

你是否也曾深陷在臃肿的领域模型&#xff08;Domain Model&#xff09;的泥潭&#xff0c;一个 User 或 Order 实体类&#xff0c;既要处理复杂的业务逻辑和数据校验&#xff0c;又要承载各种为前端展示而生的DTO转换&#xff0c;导致模型越来越胖&#xff0c;读写性能相互掣肘…

UE5 Rotate 3 Axis In One Material

首先没有用旋转矩阵&#xff0c;我用过旋转矩阵&#xff0c;传进去的角度旋转的角度和欧拉角传进去角度旋转出来的不一样&#xff0c;就没有用最后用的RotateAboutAxis&#xff0c;这个玩意儿研究老半天&#xff0c;只能转一个轴&#xff0c;角度和欧拉角的一样的最后研究出Rot…

计算机网络实验——访问H3C网络设备

一、实验目的1. 熟悉H3C路由器的开机界面&#xff1b;2. 通过Console端口实现对上电的H3C路由器的第一次本地访问&#xff1b;3. 掌握H3C设备命名等几个常用指令&#xff1b;4. 掌握如何将H3C设备配置为Telnet服务器&#xff1b;5. 掌握如何将H3C设备配置为Telnet客户端并实现访…

【C语言】学习过程教训与经验杂谈:思想准备、知识回顾(四)

&#x1f525;个人主页&#xff1a;艾莉丝努力练剑 ❄专栏传送门&#xff1a;《C语言》、《数据结构与算法》、C语言刷题12天IO强训、LeetCode代码强化刷题 &#x1f349;学习方向&#xff1a;C/C方向 ⭐️人生格言&#xff1a;为天地立心&#xff0c;为生民立命&#xff0c;为…

Vim 指令

Vim 是一款功能强大但学习曲线陡峭的文本编辑器&#xff0c;核心在于其模式化操作。掌握常用指令能极大提升效率。以下是指令分类整理&#xff1a;一、核心模式切换 (必须掌握&#xff01;)i&#xff1a;在光标前进入 插入模式 (Insert Mode)a&#xff1a;在光标后进入 插入模式…

vue2中使用xgplayer播放流视频

1、官网 2、安装后无法播放时&#xff0c;经测试&#xff0c;需要降低版本 "xgplayer-hls": "2.2.2","xgplayer": "2.31.6"改为以上版本可以正常播放 3、完整使用 &#xff08;1&#xff09;引入 import xgplayer import hlsjsPlayer…

Jmeter进阶篇(35)完美解决Jmeter转换HTML报告报错“Begin size 0 is not equal to fixed size 5”

今天博主在使用Jmeter运行完压测,使用生成的csv文件,运行以下命令: C:\apache-jmeter-5.2.1\bin>jmeter -g C:\res.csv -o C:\report生成HTML报告时,发现报错“Begin size 0 is not equal to fixed size 5”。 问题原因 原因是我:本地用的是JDK17,但Jmeter5.2.1仅支…

linux中tcpdump抓包中有组播数据,应用程序收不到数据问题

问题描述服务器运行正常&#xff0c;维保需要&#xff0c;重启服务器后应用程序无法收到组播的媒体数据。百思不得其解。原因分析最终的定位原因是 linux系统的自我保护机制导致的。rp_filter&#xff08;反向路径过滤&#xff09;是Linux内核的一个安全特性&#xff0c;用于防…