note

  • Kimi K2 的预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率。MuonClip Optimizer优化器,解决随着scaling up时的不稳定性。
  • Kimi-K2 与 DeepSeek-R1 架构对比,相比较下 Kimi-k2 增加了专家数量,减少了注意力头的数量。这么设计的好处是,专家数量多无疑知识多,能记住更多东西,在知识广度上表现很好。而减少注意力头则能显著减少显存开销,另外过多的注意力头有时会学习到冗余或过于相似的注意力模式。通过减少头的数量,模型可能被迫让每个头学习到更独特、更关键的特征,这可能有助于防止过拟合,提升模型的泛化能力。
  • Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。
  • Kimi K2 增强的智能体能力主要来源于两个重要方面——大规模智能体数据合成 和 通用强化学习。

文章目录

  • note
  • 一、Kimi-K2模型
    • 1、Kimi-K2模型效果
    • 2、Kimi-K2模型架构
    • 3、MuonClip 优化器:
    • 4、智能体能力(Agentic Capabilities)
    • 5、 通用强化学习
  • 二、其他模型架构比较
  • Reference

一、Kimi-K2模型

大模型开源进展,kimi-k2量化版本发布,Unsloth 量化的 Kimi-K2 放出了,包括从 1.8bit 的 UD_IQ1UD-Q5_K_XL等版本:https://github.com/unslothai/llama.cpp,
量化模型地址:https://huggingface.co/unsloth/Kimi-K2-Instruct-GGUF/tree/main

1、Kimi-K2模型效果

在这里插入图片描述

2、Kimi-K2模型架构

  • Kimi-K2 与 DeepSeek-R1 架构对比,相比较下 Kimi-k2 增加了专家数量,减少了注意力头的数量。这么设计的好处是,专家数量多无疑知识多,能记住更多东西,在知识广度上表现很好。而减少注意力头则能显著减少显存开销,另外过多的注意力头有时会学习到冗余或过于相似的注意力模式。通过减少头的数量,模型可能被迫让每个头学习到更独特、更关键的特征,这可能有助于防止过拟合,提升模型的泛化能力。
  • Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。Kimi K2 的预训练阶段使用 MuonClip 优化器实现万亿参数模型的稳定高效训练,在人类高质量数据成为瓶颈的背景下,有效提高 Token 利用效率
    在这里插入图片描述

3、MuonClip 优化器:

(1)之前的工作 Moonlight 已经证明,Muon 优化器在 LLM 训练中显著优于广泛使用的 AdamW 优化器。Kimi K2 的设计目标是在 Moonlight 的基础上进一步扩展模型规模,其架构类似于 DeepSeek-V3。基于扩展定律(scaling law)的分析,我们减少了注意力头(head)数量以提升长上下文效率,并提高了混合专家(MoE)的稀疏性以增强 token 效率。在模型扩展过程中,我们遇到了一个持续性的挑战:由于注意力 logits 爆炸导致的训练不稳定问题。在我们的实验中,这一问题在使用 Muon 优化器时比使用 AdamW 更为频繁。现有的解决方案,如 logits 软限制(logit soft-capping)和查询-键归一化(query-key normalization),被证明效果有限。为了解决这一问题,我们提出了 MuonClip 优化器,在 Muon 的基础上引入了我们设计的 qk-clip 技术。具体来说,qk-clip 通过在 Muon 更新之后直接对查询(query)和键(key)投影的权重矩阵进行重新缩放,从而从源头上控制注意力 logits 的规模,达到稳定训练的目的。

(2)MuonClip 能有效防止 logit 爆炸,同时保持下游任务的性能。在实际应用中,Kimi K2 使用 MuonClip 在 15.5T token 的数据上完成了预训练,整个训练过程未出现任何训练尖峰(training spike),证明了 MuonClip 是一种适用于稳定、大规模 LLM 训练的鲁棒性解决方案。

在这里插入图片描述

具体细节可以看苏神博客:QK-Clip:让Muon在Scaleup之路上更进一步

4、智能体能力(Agentic Capabilities)

面向工具使用学习的大规模智能体数据合成: 为了教会模型复杂的工具使用能力,我们开发了一套受 ACEBench 启发的综合性数据生成流程,能够大规模模拟现实世界中的工具使用场景。我们的方法系统性地演化出包含数百个领域、数千种工具(包括真实 MCP(Model Context Protocol)工具和合成工具)的环境,并生成拥有不同工具集的数百个智能体。
在这里插入图片描述

所有任务都基于评分标准(rubric-based)设计,从而实现一致的评估。智能体与模拟环境及用户代理进行交互,构建出真实的多轮工具使用场景。随后,一个大语言模型作为“评审员”根据任务评分标准评估模拟结果,并筛选出高质量的训练数据。这一可扩展的数据生成流程能够生成多样化且高质量的数据,为大规模拒绝采样(rejection sampling)和强化学习奠定了基础。

5、 通用强化学习

关键挑战在于如何将强化学习(RL)应用于具有可验证奖励(verifiable rewards)和不可验证奖励(non-verifiable rewards)的任务。典型的可验证任务包括数学问题求解和竞赛编程,而撰写研究报告通常被视为不可验证任务。

我们的通用强化学习系统不仅限于可验证奖励,还引入了一种自我评判机制(self-judging mechanism),其中模型自身充当评判者(critic),为不可验证任务提供可扩展的、基于评分标准(rubric-based)的反馈。

同时,我们使用在策略(on-policy) rollout 技术处理具有可验证奖励的任务,并利用这些结果持续更新评判者,使其不断提升对最新策略的评估准确性。这种方法可以被看作是利用可验证奖励来改进对不可验证奖励的估计。

二、其他模型架构比较

翻译:从 DeepSeek-V3 到 Kimi K2:八种现代大语言模型架构设计
原文:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

Reference

[1] https://moonshotai.github.io/Kimi-K2/
[2] https://github.com/MoonshotAI/Kimi-K2
[3] 关于kimi-k2的一个回顾帖子,里面提到的一些细节信息可看看:1)模型 Agent 能力的开发还在早期,有不少数据在预训练阶段是缺失的(比如那些难以言语描述的经验/体验),下一代预训练模型仍然大有可为,也就是数据合成。2)关于“写前端”的初衷,关乎产品逻辑。可看看:https://bigeagle.me/2025/07/kimi-k2/,此外,对于一些技术点,可看其中关于技术部分,技术架构等的选择,差异性问题,可看看,https://www.zhihu.com/question/1927140506573435010/answer/1927892108636849910
[4] Kimi K2 发布并开源,擅长代码与 Agentic 任务
[5] 从 DeepSeek-V3 到 Kimi K2:八种现代大语言模型架构设计
英文原版博客:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/91402.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/91402.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/91402.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue基础(25)_组件与Vue的内置关系(原型链)

了解组件与Vue的内置关系前,我们需要回顾js原型链基础知识:1、构造函数构造函数是一种特殊的方法,用于创建和初始化一个新的对象。它们是使用 new 关键字和函数调用来创建对象的。构造函数实际上只是一个普通的函数,通常以大写字母…

kafka中生产者的数据分发策略

在 Kafka 中,生产者的数据分发策略决定了消息如何分配到主题的不同分区。在 Python 中,我们通常使用 kafka-python 库来操作 Kafka,下面详细讲解其数据分发策略及实现代码。一、Kafka 生产者数据分发核心概念分区(Partition&#…

【动态规划算法】斐波那契数列模型

一. (1137.)第N个泰波那契数(力扣)1.1动态规划的算法流程 对于初学者来讲学术上的概念晦涩难懂,将用通俗易懂的方式带来感性的理解. 1.状态表示dp表(一维或二维数组)里面的值所表示的含义 从哪获取? 1.题目要求,如本题 2.题目没有明确说明的情况下做题经验的累积 3.分析问题的…

Odoo 18 PWA 全面掌握:从架构、实现到高级定制

本文旨在对 Odoo 18 中的渐进式网络应用(Progressive Web App, PWA)技术进行一次全面而深入的剖析。本文的目标读者为 Odoo 技术顾问、高级开发人员及解决方案架构师,旨在提供一份权威的技术参考,以指导 PWA 相关的实施项目与战略…

Binary Classifier Optimization for Large Language Model Alignment

2025.acl-long.93.pdfhttps://aclanthology.org/2025.acl-long.93.pdf 1. 概述 在生产环境中部署大型语言模型(LLMs)时,对齐LLMs一直是一个关键因素,因为预训练的LLMs容易产生不良输出。Ouyang等人(2022)引入了基于人类反馈的强化学习(RLHF),该方法涉及基于单个提示的…

在CentOS上以源码编译的方式安装PostgreSQL

下载目录:PostgreSQL: File Browser,我使用的PostgreSQLv17.5。Linux系统:CentOS Linux release 7.9.2009 (Core) 安装依赖包和工具链(必须且重要!) yum groupinstall "Development Tools" -y yu…

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现沙滩小人检测识别(C#代码UI界面版)

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现沙滩小人检测识别(C#代码UI界面版)工业相机使用YoloV8模型实现沙滩小人检测识别工业相机通过YoloV8模型实现沙滩小人检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换…

Ubuntu服务器安装与运维手册——操作纯享版

本手册汇总了从硬件预配置、Ubuntu 安装、网络与服务配置,到 Windows/macOS 访问共享、MySQL 初始化的完整流程,便于今后运维参考。 目录 环境与硬件概览BIOS/UEFI 设置制作与启动安装介质Ubuntu 24.04 LTS 安装流程静态 IP 配置(netplan&am…

【Nginx】Nginx进阶指南:解锁代理与负载均衡的多样玩法

在Web服务的世界里,Nginx就像是一位多面手,它不仅能作为高性能的Web服务器,还能轻松胜任代理服务器、负载均衡器等多种角色。今天,我们就来深入探索Nginx的几个常见应用场景,通过实际案例和关键配置解析,带…

原创-锐能微82xx系列电能计量芯片软件驱动开发与精度校准流程完全指南

引言 电能计量芯片的软件驱动开发是整个计量系统的核心,它直接决定了计量精度、系统稳定性和功能完整性。锐能微82xx系列电能计量芯片凭借其强大的数字信号处理能力和丰富的功能特性,为开发者提供了灵活的软件开发平台。本文将详细介绍82xx系列芯片的软…

如何使用 Apache Ignite 作为 Spring 框架的缓存(Spring Cache)后端

这份文档是关于 如何使用 Apache Ignite 作为 Spring 框架的缓存(Spring Cache)后端,实现方法级别的缓存功能。 这和前面我们讲的 Spring Data Ignite 是两个不同的概念。我们先明确区别,再深入理解。🔁 一、核心区别…

Android 超大图片、长图分割加载

在Android开发中,处理大图片的加载是一个常见且重要的问题,尤其是在需要显示高分辨率图片时。大图片如果不正确处理,可能会导致内存溢出或应用性能下降。下面是一些常用的策略和技术来优化大图片的加载:1. 使用图片压缩库a. Glide…

Linux:理解操作系统

文章目录数据流动操作系统数据流动 软件运行,必须先加载到内存,本质要把磁盘上的文件 加载到内存。 我们写的算法是处理存储器里面的数据,数据就是文件,我们自己写的可执行文件。 图中QQ就是软件,加载内存后进行下一步…

【每日一错】PostgreSQL的WAL默认段大小

文章目录题目扩展学习WAL工作原理流程图题目 扩展学习 WAL(Write Ahead Log)预写日志: WAL是PostgreSQL先写日志、后写数据的机制,用来防止数据丢失、提升数据恢复能力。 流程: 事务先写日志文件(WAL&…

Visual Studio Code 使用指南 (2025年版)

Visual Studio Code (VS Code) 是一款由微软开发的免费、开源、跨平台的现代化轻量级代码编辑器,凭借其强大的核心功能、丰富的扩展生态系统以及高度可定制性,已成为全球数百万开发者的首选工具。本指南旨在帮助您快速上手 VS Code,掌握其核心…

【Java】JVM虚拟机(java内存模型、GC垃圾回收)

一、Java内存模型(JMM)JMM(Java Memory Model,Java 内存模型)是 Java 虚拟机规范中定义的一种抽象概念,用于规范 Java 程序中多线程对共享内存的访问规则,解决可见性、原子性和有序性问题&#…

二叉树算法之【二叉树的层序遍历】

目录 LeetCode-102题 LeetCode-102题 给定二叉树的根节点root&#xff0c;返回其节点值的层序遍历&#xff08;即逐层地&#xff0c;从左到右访问所有节点&#xff09;。 class Solution {public List<List<Integer>> levelOrder(TreeNode root) {// checkif (r…

uniapp+vue3——通知栏标题纵向滚动切换

介绍 取巧&#xff0c;使用纵向轮播实现 <!-- 通知栏 --> <view class"noticeBox" v-if"notice.length>0"><image src"/static/images/index/noticeIcon.png" mode"aspectFill"></image><swiper class&…

BilldDesk 开源、免费、吊打收费软件!白嫖党最爱!远程控制神器,没有任何连接次数和画质限制,同时显示多屏、屏幕墙等高级功能

远程控制软件哪个好用&#xff1f;TeamViewer收费太贵&#xff0c;向日葵限制太多&#xff0c;QQ远程又不稳定……别担心&#xff01;今天给大家推荐一款完全免费、开源的远程控制神器——BilldDesk&#xff01;它不仅功能强大&#xff0c;而且支持Windows、macOS、Linux、Andr…

ios UIAppearance 协议

一、前言 iOS 上提供了一个比较强大的工具UIAppearance&#xff0c;我们通过UIAppearance设置一些UI的全局效果&#xff0c;这样就可以很方便的实现UI的自定义效果又能最简单的实现统一界面风格。 (id)appearance ; 这个是这个协议里最重要的方法了 . 这个方法是统一全部改&am…