Google DeepMind 近期发布了关于递归混合(Mixture of Recursion)架构的研究论文,这一新型 Transformers 架构变体在学术界和工业界引起了广泛关注。该架构通过创新的设计理念,能够在保持模型性能的前提下显著降低推理延迟和模型规模。

本文将深入分析递归混合(MoR)与专家混合(MoE)两种架构在大语言模型中的技术特性差异,探讨各自的适用场景和实现机制,并从架构设计、参数效率、推理性能等多个维度进行全面对比。

专家混合(Mixture of Experts)架构原理

专家混合架构将神经网络模型分解为共享基础层和多个专门化的专家模块,其中每个专家模块都是经过特定训练的小型前馈神经网络,负责处理特定类型的输入模式。

在推理过程中,当输入令牌通过模型时,路由机制会从众多专家中选择性激活少数几个(通常为2-4个,总专家数可能达64个或更多)来处理该令牌。这种设计使得不同令牌在模型中遵循不同的计算路径,从而实现了在不增加实际计算量的情况下扩大模型容量的目标。这一机制类似于在复杂任务中仅调用相关专业人员而非整个团队的协作模式。

递归混合(Mixture of Recursion)架构原理

递归混合架构采用了截然不同的设计思路,它使用一个相对较小的共享计算块(通常由几个 Transformer 层组成),通过多次迭代处理来实现深度计算。每个输入令牌根据其复杂程度自主决定所需的处理轮数。

在这种架构中,语义简单的令牌会在较少的迭代后提前退出处理流程,而复杂令牌则需要经过更多轮次的递归处理。与 MoE 通过增加模型宽度来提升容量不同,MoR 通过动态调整计算深度来优化性能。此外,该架构通过智能缓存机制仅保留迭代过程中的必要信息,显著降低了内存占用。整个系统中不存在多个专家模块,而是通过单一计算块的智能重用来实现高效计算。

基于以上架构原理,我们将从多个技术维度深入分析两种架构的具体差异:

架构设计对比分析

专家混合架构采用分布式专家系统的设计理念,整个模型可以视为一个大型智能交换网络。模型内部包含大量小型多层感知机专家模块,但在处理任何单一令牌时,仅有少数专家(通常2-4个)处于激活状态。路由器负责决策激活哪些专家,而其余专家保持空闲状态。每个令牌在网络中沿着独特的路径传播,激活不同的专家组合。这种设计实现了大规模稀疏激活模型——虽然总体规模庞大,但实际计算量保持高效。

递归混合架构则采用了相反的设计策略,整个模型仅包含一个小型 Transformer 计算块,所有令牌共享同一计算资源。令牌不是在不同专家间分流,而是在同一计算块中进行多轮迭代处理。迭代次数完全由令牌特性决定:简单令牌快速退出,复杂令牌进行深度处理。因此,模型呈现窄而深的特征,具备令牌特定的动态深度调整能力。

从系统架构角度来看,MoE 类似于配备多个专科医生的大型综合医院,患者根据病情被路由到相应的专科部门;而 MoR 则像一位经验丰富的全科医生,根据患者病情复杂程度进行相应次数的深入诊查——简单感冒一次诊断即可,复杂心脏疾病则需要多轮深度检查。

模型规模与参数效率分析

专家混合架构在运行时表现出轻量化特征,但其背后隐藏着巨大的参数规模。一个在推理时表现如同1.3B参数模型的MoE系统,实际上可能在所有专家模块中总计包含超过100B个参数。虽然单次推理仅激活其中一小部分,但所有专家模块都需要完整的存储、加载和训练支持。

这种设计带来了计算稀疏性与内存密集性并存的特点。在训练过程中,所有专家模块都需要接收梯度更新,包括那些很少被激活的专家。如何在众多专家间实现负载均衡成为了比预期更加复杂的工程挑战。

相比之下,递归混合架构展现出极高的参数效率。通过在多个处理步骤中重复使用单一计算块,该架构避免了参数数量的爆炸性增长,也无需管理复杂的专家模块集合。实验数据表明,一个118M参数的MoR模型在少样本学习任务中的性能可以超越300M参数的标准Transformer模型,这种优势并非来自更大的模型规模,而是源于更智能的计算资源利用策略。

当内存容量、存储空间或部署成本成为关键考虑因素时,MoR架构相比MoE具有显著优势。

推理延迟性能评估

在实际部署环境中,推理延迟性能成为衡量架构实用性的关键指标。

专家混合架构虽然在理论分析中表现出良好的计算效率,但在实际实现中往往面临性能瓶颈。每个令牌仅激活少数专家的策略虽然减少了计算量,但同时引入了内存访问模式分散、计算负载不均衡以及跨设备通信开销等问题。

对于基础设施水平未达到Google或Microsoft等科技巨头标准的部署环境,延迟、网络拥塞和系统复杂性往往会抵消稀疏计算带来的性能收益。MoE架构并非即插即用的解决方案,需要针对特定硬件环境进行深度优化。

递归混合架构有效避免了上述复杂性问题。由于不存在专家路由机制和跨设备通信需求,每个令牌在同一小型计算块中进行迭代处理,并自主决定退出时机。这种设计确保了内存访问的可预测性、支持早期退出机制,并在各种硬件环境下保持稳定的运行时性能,即使在中等性能的GPU上也能良好运行。部署MoR架构无需超算集群支持。

从推理延迟角度分析,MoR架构明显优于MoE架构。

训练稳定性与收敛特性

专家混合架构在训练过程中容易出现专家崩溃现象,这是该架构面临的主要技术挑战之一。在训练进程中,模型可能过度依赖少数几个专家模块,而忽视其他专家的能力发展。部分专家模块可能无法接收到足够的梯度信号,导致学习停滞,最终拖累整体模型性能。

解决专家崩溃问题需要引入额外的损失函数项、熵正则化机制以及精心设计的负载均衡策略。虽然这些技术手段可以缓解问题,但增加了训练流程的复杂性和脆弱性。

递归混合架构从根本上避免了专家不均衡问题。由于不存在多个专家模块,所有令牌共享相同的权重参数,通过干净的重用机制实现高效训练,显著提升了训练过程的稳定性。

然而,MoR架构也有其特定的调优挑战:如何确定每个令牌的最优迭代次数。迭代次数过少会导致处理深度不足,过多则造成计算资源浪费。MoR通过专家选择路由和令牌选择路由两种策略来平衡这一问题,且无需额外的损失函数技巧。

路由机制技术实现

专家混合架构采用基于学习的路由机制,路由器通过分析令牌嵌入向量来预测应该激活哪些专家模块。这种路由决策与整个模型一同进行端到端训练。系统需要确保没有专家模块被过度使用,同时防止路由器陷入固定的激活模式。

在大规模MoE模型中,特别是涉及跨设备路由时,路由机制往往成为系统性能的瓶颈。

递归混合架构的路由机制更加本地化且计算开销更低。该架构支持两种路由模式:专家选择路由模式下,路由在每个递归步骤中决定令牌是否继续处理或退出流程;令牌选择路由模式下,每个令牌在处理开始时根据其初始特征被分配固定的递归深度。

MoR中的路由重点不在于选择处理单元,而在于确定在同一计算块中的停留时间。由于无需令牌间或设备间的通信协调,整个计算图保持了更好的简洁性和优化空间。

硬件适配与部署考量

专家混合架构主要面向大规模计算环境设计。要充分发挥其效率优势,需要GPU间高速互连、跨加速器智能分片以及硬件级稀疏张量运算支持。该架构并非即插即用解决方案,大多数开源深度学习框架无法提供开箱即用的大规模MoE支持。对于拥有顶级基础设施的科技公司,MoE架构展现出良好的性能表现。

然而,对于在个人工作站或边缘设备上进行推理的场景,MoE架构的部署难度极高。

递归混合架构在部署方面表现出更好的灵活性。该架构基于标准Transformer结构,仅在核心计算块外增加迭代控制逻辑。开发者可以使用标准的PyTorch或JAX原语进行实现。由于采用共享权重和简单的令牌级控制流,MoR架构能够以最小的修改集成到现有的模型服务管道中。

应用场景与技术选型

专家混合架构适用于从零开始训练大规模模型、处理多任务数据集,以及在不进行全密集计算的前提下追求高模型容量的场景。该架构在大规模预训练任务中表现出色,但除非具备充足的计算和工程资源,否则将在系统复杂性、内存需求和延迟优化方面面临显著挑战。

递归混合架构更适合对推理速度、计算效率和部署成本敏感的中小规模应用场景。该架构在模型微调、少样本学习以及边缘计算或消费级硬件部署方面具有明显优势。此外,MoR架构具备良好的缩放特性,这是MoE架构的薄弱环节。

总结

从技术发展趋势来看,专家混合架构通过部署大量专家模块来解决复杂问题,但在每次推理中仅激活其中一小部分;而递归混合架构则通过单一计算单元的反复迭代,在每次处理中都变得更加智能。

对于致力于构建大规模商业化语言模型平台的组织,专家混合架构的复杂性投入可能是值得的。而对于需要在实际设备上快速部署高效模型的应用场景,递归混合架构能够以更低的技术债务实现目标。

两种架构代表了大语言模型发展的不同技术路径,各自在特定场景下展现出独特的技术优势。选择哪种架构应基于具体的应用需求、资源约束和技术能力进行综合考量。

https://avoid.overfit.cn/post/c95f03d8ad3049ada1c41e71094e2fd5

作者:Mehul Gupta

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91611.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91611.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/91611.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp开发实现【中间放大两边缩小的轮播图】

一、效果展示 二、代码实现 <template><view><!-- 轮播图 --><view class=<

机器学习没有最好的模型,只有最合适的选择(模型选择)

机器学习领域存在"没有免费午餐"定理&#xff0c;没有任何一种模型在所有问题上都表现最优。不同模型有各自的优势和适用场景。同一数据集上&#xff0c;不同模型的预测性能可能有巨大差异。例如&#xff0c;线性关系明显的数据上线性模型可能表现优异&#xff0c;而…

关于人工智能AI>ML>DL>transformer及NLP的关系

一、AI、ML、DL、NLP的极简概念1、人工智能&#xff08;AI&#xff09;有不同的定义&#xff0c;但其中一个定义或多或少已成为共识&#xff0c;即AI是一个计算机系统&#xff0c;它能够执行通常需要人类智能才能完成的任务。根据这个定义&#xff0c;许多算法可以归纳为AI算法…

小迪23-28~31-js简单回顾

前端-js开发 课堂完结后欲复习巩固也方便后续-重游-故写此篇 从实现功能过渡到涉及的相关知识点 知识点 1、 JS 是前端语言&#xff0c;是可以被浏览器“看到”的&#xff0c;当然也可以被修改啊&#xff0c;被浏览器禁用网页的 JS 功能啊之类的。所以一般都是前后端分离开发&…

vue项目预览pdf隐藏工具栏和侧边栏

1.在预览PDF时&#xff0c;PDF查看器通常会显示工具栏、侧边栏等控件。如果想隐藏这些控件&#xff0c;可以通过在PDF文件的URL中添加参数来实现。可以使用#toolbar0和#navpanes0等参数来隐藏工具栏和侧边栏。解释&#xff1a; #toolbar0&#xff1a;隐藏工具栏。#navpanes0&am…

ERP、CRM、OA整合工具哪家好?2025年最新推荐

当前&#xff0c;大多数中大型企业已部署了ERP&#xff08;企业资源计划&#xff09;、CRM&#xff08;客户关系管理&#xff09;、OA&#xff08;办公自动化&#xff09;等核心业务系统。这些系统在各自职能领域内发挥着关键作用&#xff1a;ERP管理财务、供应链与生产&#x…

设计模式:命令模式 Command

目录前言问题解决方案结构代码前言 命令是一种行为设计模式&#xff0c;它可将请求转换为一个包含与请求相关的所有信息的独立对象。该转换让你能根据不同的请求将方法参数化、延迟请求执行或将其放入队列中&#xff0c;且能实现可撤销操作。 问题 假如你正在开发一款新的文字…

4-verilog简单状态机

verilog简单状态机 1. always (posedge clk or negedge rst_n) beginif (!rst_n)cnt_1ms < 20b0;else if (cnt_1ms_en)cnt_1ms < cnt_1ms 1b1;elsecnt_1ms < 20d0; endalways (posedge clk or negedge rst_n) beginif(!rst_n)cur_state < s1_power_init;else i…

ICCV2025 | 对抗样本智能安全方向论文汇总 | 持续更新中~

汇总结果来源&#xff1a;ICCV 2025 Accepted Papers 若文中出现的 论文链接 和 GitHub链接 点不开&#xff0c;则说明还未公布&#xff0c;在公布后笔者会及时添加. 若笔者未及时添加&#xff0c;欢迎读者告知. 文章根据题目关键词搜索&#xff0c;可能会有遗漏. 若笔者出现…

SPI通信中CS片选的两种实现方案:硬件片选与软件片选

一. 简介本文简单熟悉一下SPI通信中的片选信号&#xff08;CS&#xff09;的两种实现方案&#xff1a;硬件片选和软件片选&#xff0c;以及两种方案的区别&#xff0c;如何选择。在SPI&#xff08;Serial Peripheral Interface&#xff09;通信中&#xff0c;片选信号&#xff…

IBM 报告称除美国外,全球数据泄露成本下降

IBM 发布的一份针对 113,620 起数据泄露事件的年度全球分析报告发现&#xff0c;平均数据泄露成本同比下降了 9%&#xff0c;这主要归功于更快的发现和遏制速度。 该报告与波耐蒙研究所 (Ponemon Institute) 合作完成&#xff0c;发现全球平均数据泄露成本从 2024 年的 488 万美…

Docker Compose 部署 Dify + Ollama 全栈指南:从裸奔到安全可观测的 AI 应用实战

&#x1f4cc; 摘要 本文以中国开发者视角出发&#xff0c;手把手教你用 Docker Compose 在本地或轻量云主机上部署 Dify Ollama 组合栈&#xff0c;实现“安全、可观测、可扩展”的私有化 AI 应用平台。全文约 8 000 字&#xff0c;包含&#xff1a; 架构图、流程图、甘特图…

「源力觉醒 创作者计划」_全方面实测文心ERNIE-4.5-VL-28B-A3B开源大模型

「源力觉醒 创作者计划」_全方面实测文心ERNIE-4.5-VL-28B-A3B开源大模型1. 文心大模型4.5-28B概述2. 部署ERNIE-4.5-VL-28B-A3B文心大模型2.1. 创建GPU云主机2.2. ERNIE-4.5-VL-28B-A3B部署2.3. 创建大模型API交互接口3. 文心大模型4.5-28B多方面性能评测3.1. 语言理解方面3.2…

数据库学习------数据库事务的特性

在数据库操作中&#xff0c;事务是保证数据一致性和完整性的核心机制。无论是简单的单表更新&#xff0c;还是复杂的多表关联操作&#xff0c;事务都扮演着至关重要的角色。那么什么是数据库事务&#xff1f;数据库事务是一个不可分割的操作序列&#xff0c;它包含一个或多个数…

18-C语言:第19天笔记

C语言&#xff1a;第19天笔记 内容提要 构造类型 结构体共用体/联合体构造类型 数据类型 基本类型/基础类型/简单类型 整型 短整型&#xff1a;short – 2字节基本整型&#xff1a;int – 4字节长整型&#xff1a;long – 32位系统4字节/ 64位系统8字节长长整型&…

centos下安装anaconda

下载 anaconda 安装包 wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh 2. 授权 chmod x Anaconda3-2022.05-Linux-x86_64.sh 3. 安装 ./Anaconda3-2022.05-Linux-x86_64.sh 此时显示Anaconda的信息&#xff0c;并且会出现More&#xff0c;继续…

MySQL(172)如何进行MySQL的全局变量设置?

MySQL的全局变量是影响整个服务器设置和行为的参数。可以在服务器启动时通过配置文件设置这些变量&#xff0c;也可以在服务器运行时通过SQL命令动态调整。以下是关于如何设置和管理MySQL全局变量的详细说明和示例代码。 一、通过配置文件设置全局变量 在MySQL服务器启动时&…

【最后203篇系列】030 强化学习探索

前言 我发现在csdn写完一篇文章越来越难了&#xff0c;有n篇写了一半没往下写。原来我觉得补完203篇&#xff0c;凑到一千篇是个很简单的事&#xff0c;没想到还挺难的。 我回想了一下&#xff0c;过去一年大模型领域继续发生这很剧烈的变化&#xff0c;这是一种新的模式 &…

fastGEO v1.7.0 大更新,支持PCA、差异分析、火山图、热图、差异箱线图、去批次等分析

前言 之前一篇文章【fastGEO V1.6.1 这个版本强的可怕&#xff0c;GEO数据自动下载、探针注释、Shiny App】介绍了fastGEO用于GEO数据下载和探针注释的核心功能。 虽然是付费50获取安装包&#xff08;刚开始是20&#xff09;&#xff0c;但也深受欢迎&#xff0c;说明这个R包…

LLM 典型模型技术特性及项目落地全流程实践

在大语言模型(LLM)技术快速迭代的当下,开发者面临的核心挑战已从 “是否使用” 转变为 “如何正确选型并高效落地”。本文将系统剖析当前主流 LLM 的技术特性,结合实际项目架构,提供从模型选型、接口集成到性能优化的全流程技术方案,并附关键代码实现,为工业级 LLM 应用…