1. 引入

2025年5月,qwen推出了旗舰模型(flagship model)Qwen3-235B-A22B。并以Apache 2.0版权发布(可自由商业使用,修改代码和商用要包含原始版权)。本文对其技术报告中提到的数据处理技术与模型结构进行综述。

2. 关键成果

(1)将think模式与non-think模式集成到同一个模型
(2)think budget机制,推理时优化、节约资源
(3)预训练数据:36T tokens

3. 训练数据

用多模型来生成训练数据:
(1)多模态模型从pdf中提取文本
(2)math模型生成数学内容
(3)coder模型生成代码相关的内容

4. 训练

预训练分3步:
(1)30T token
的通用数据
(2)STEM和代码数据
(3)长上下文数据32k

后训练分4步:
(1)长CoT推理能力:有/无推理过程的数据都训练
(2)领域强化学习;对小模型做蒸馏

评估:
(1)base预训练模型达到SOTA
(2)后训练的think和no-think模型也都不错

5. 架构

Qwen3的dense模型架构与Qwen2.5类似:
(1)GQA

将 query 头分为 G 组,每组共享一个 key 和 value 头。GQA - 1 相当于 MQA,只有一个组和一个 key、value 头;GQA - H 组数等于 query 头数,相当于 MHA。GQA 介于 MHA 和 MQA 之间,其 kv 分组让模型质量比 MQA 高、速度比 MHA 快,是一种有利的权衡。对于大模型,GQA 在模型规模增大时能保持相同比例的带宽和容量缩减,提供更好的权衡。

(2)SwiGLU
SwigLU(Swish-Gated Linear Unit)是一种融合了门控机制和激活函数的神经网络结构,其核心思想是通过门控机制动态调节非线性变换的强度。将非线性激活函数与门控机制结合,设计一种更灵活的结构,增强模型的表达能力

(3)RoPE
RoPE(Rotary Position Embedding,旋转位置编码)是一种用于改进 Transformer 模型位置编码的机制。其核心思想是通过旋转向量的正交变换来引入位置信息,使模型能够更高效地捕捉序列中的相对位置关系,尤其在长序列场景下表现更优。

(4)RMSNorm
RMSNorm(Root Mean Square Layer Normalization,均方根层归一化)是一种改进的层归一化(Layer Normalization, LN)方法,核心思想是通过简化归一化计算过程并保留尺度信息,提升模型训练的稳定性和效率。

Qwen3的moe模型架构与Qwen2.5类似:
(1)fin-grained专家segmentation
不一样的是
(2)不再使用共享专家

参考

  1. qwen3技术文档,https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88067.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88067.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88067.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[特殊字符] Excel 读取收件人 + Outlook 批量发送带附件邮件 —— Python 自动化实战

许多公司定期需要将不同部门或客户的报告发送给指定人员。手动操作容易出错、耗时且繁琐。今天这篇文章教你如何利用 Python 实现: 🧩 从 Excel 中读取“收件人 抄送人 附件文件路径”; 📤 使用 win32com.client 调用 Outlook …

多模态大语言模型arxiv论文略读(152)

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos? ➡️ 论文标题:VidComposition: Can MLLMs Analyze Compositions in Compiled Videos? ➡️ 论文作者:Yunlong Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinya…

基于AR和SLAM技术的商场智能导视系统技术原理详解

本文面对室内定位算法工程师、智慧商场系统开发者、对VR/AR应用开发感兴趣的技术人员,解决如何通过SLAMAR技术破解大型商场室内导航的空间认知壁垒,实现沉浸式导览,本文提供完整技术方案与代码实现。 如需获取商场智能导视系统解决方案请前往…

Debezium日常分享系列之:认识Debezium Operator

Debezium日常分享系列之:认识Debezium Operator什么是Debezium OperatorDebezium Operator 的工作原理Debezium Operator 的优点Debezium Operator 使用场景Debezium Operator 的关键组件部署Debezium OperatorDebezium Operator 的使用什么是Debezium Operator De…

POSIX信号量,环形队列

是一种进程间或线程间同步机制,用于控制多个线程/进程对共享资源的访问,避免并发冲突。可以看作是一个计数器,通过对计数器的操作(PV操作)实现同步P操作(原子性):--,将信…

Python Day6

浙大疏锦行 Python Day6 内容: 描述性统计(可视化分析)单特征可视化(连续、离散)特征与标签可视化特征与特征可视化 代码: # TODO: 描述性统计 import pandas as pd import numpy as np import seaborn…

ESP32与树莓派C++、Rust开发实战

C++语言在ESP32、树莓派实例 以下是关于C++语言在ESP32、树莓派等硬件设备上的开发实例汇总,涵盖常见应用场景和代码示例。 ESP32开发实例 LED控制(GPIO操作) 使用ESP32的GPIO控制LED灯,示例代码基于Arduino框架: #include <Arduino.h> const int ledPin = 2; …

Jedis 原生之道:Redis 命令 Java 实现指南(一)

Hi~&#xff01;这里是奋斗的明志&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f331;&#x1f331;个人主页&#xff1a;奋斗的明志 &#x1f331;&#x1f331;所属专栏&#xff1a;Redis &#x1f4da;本系列文章为个人学习笔…

飞算 JavaAI 开发助手:深度学习驱动下的 Java 全链路智能开发新范式

飞算 JavaAI 开发助手&#xff1a;深度学习驱动下的 Java 全链路智能开发新范式 文章目录飞算 JavaAI 开发助手&#xff1a;深度学习驱动下的 Java 全链路智能开发新范式前言飞算 JavaAI IDEA插件下载、注册、使用智能引导操作流程Java Chat智能工作流程操作流程智能问答操作流…

Spring Boot 核心特性与版本演进解析

深度解读自动配置原理、版本差异与 3.x 的颠覆性变革 一、Spring Boot 的核心理念与迭代主线 Spring Boot 用两大核心武器重构了 Java 开发范式&#xff1a; 嵌入式容器&#xff1a;终结了 “war 包 Tomcat 配置地狱”&#xff0c;让 java -jar 成为生产级部署的标准姿势自动…

React Tailwind css 大前端考试、问卷响应式模板

功能概述 基于 React 和 Tailwind CSS 开发的在线大前端知识考试系统。页面设计简洁美观&#xff0c;交互流畅&#xff0c;适合前端开发者、学习者进行自我测试和知识巩固。系统内置多道涵盖 React、CSS、JavaScript、HTTP 等前端核心知识点的题目&#xff0c;支持单选与多选题…

【前端】手写代码汇总

近期更新完&#xff0c;后面不定期更新&#xff0c;建议关注收藏点赞。 目录快排手写防抖节流数组扁平化&#xff08;要求使用 reduce 方法&#xff09;数组filter实现手写一个加载图片的函数 loadImage手写Promise then手写 Promise.All手写 Promise.race手写allsettled手写us…

基于MATLAB 的心电信号去噪

基于Matlab的心电信号去噪 generate.m , 3450 genR.m , 953 genU.m , 891 get_obs.m , 957 CHANGELOG , 11185 find_localobs.m , 2312 fmain.m , 2272

git branch -a 还有一些已经删除了的分支

如何处理已经删除的远程跟踪分支1、删除远程跟踪分支如果你确定某个远程跟踪分支不再需要&#xff0c;你可以使用 git branch -d -r 命令来删除它。例如&#xff0c;要删除名为 origin/test 的远程跟踪分支&#xff0c;你可以使用&#xff1a;git branch -d -r origin/test2、更…

软件反调试(4)- 基于IsDebuggerPresent的检测

反调原理 该检测方式使用 IsDebuggerPresent 或者 CheckRemoteDebuggerPresent 函数&#xff0c;这两个函数都是 kernel32.dll 中实现的 对于 IsDebuggerPresent 函数&#xff0c;如果返回值为 TRUE&#xff0c;那么表示当前进程在调试器上下文中运行 CheckRemoteDebuggerPrese…

翻译《The Old New Thing》- Windows 媒体目录中 onestop.mid 文件的故事

Whats the story of the onestop.mid file in the Media directory? - The Old New Thinghttps://devblogs.microsoft.com/oldnewthing/20130212-00/?p5263 如果你查看你的C:\Windows\Media文件夹&#xff0c;会发现一个名为onestop的MIDI文件。这个奇怪的小MIDI文件背后有什…

【方案】前端UI布局的绝技,响应式布局,多端适配

大家好&#xff0c;欢迎来到停止重构的频道。本期讨论网页UI布局。网页UI布局是前端开发中占比较多的部分&#xff0c;做完网页布局也就差不多完成了一半的工作。本期视频&#xff0c;我们不再讨论基础的UI布局。我们希望满足响应式布局&#xff0c;一份代码适配PC/平板/手机等…

【郑大二年级信安小学期】Day4上午:Bool盲注时间盲注堆叠查询post注入HTTP头部注入ua字段

目录 0 录制文件 1 SQL注入-布尔盲注 1.1 布尔盲注优缺点 1.2 先看一下第八关嗯页面特征 1.3 步骤 1.4 常用函数 1.5 判断是否字符型 1.6 判断闭合 1.7 查询库名 1.8 查询数据表 1.9 获取字段名 1.10 获取数据 1.11 布尔盲注缺陷 2 时间盲注 2.1 基础知识 2.2 判…

如何设计一个“真正可复用”的前端组件?

&#x1f9f1; 如何设计一个“真正可复用”的前端组件&#xff1f;&#x1f527; 一个按钮可以写10次&#xff0c;也可以封装一次复用全场&#xff1b;组件是前端的积木&#xff0c;而设计模式才是组装它们的说明书。你真的在写“可复用”组件吗&#xff1f;&#x1f9e0; 什么…

AlpineLinux安装RabbitMQ及其管理界面

AlpineLinux安装RabbitMQ及其管理界面 本文以 alpine linux 的 3.21版本为例,演示对于 RabbitMQ 在Linux 下的安装,其他发行版本大同小异。主要是包管理软件的命令区别,以及在线仓库提供的 RabbitMQ 版本差异而已。 (一)安装 Erlang 因为 RabbitMQ 是用 Erlang 语言编写…