Google DeepMind 近期发布了关于递归混合（Mixture of Recursion）架构的研究论文，这一新型 Transformers 架构变体在学术界和工业界引起了广泛关注。该架构通过创新的设计理念，能够在保持模型性能的前提下显著降低推理延迟和模型规模。

本文将深入分析递归混合（MoR）与专家混合（MoE）两种架构在大语言模型中的技术特性差异，探讨各自的适用场景和实现机制，并从架构设计、参数效率、推理性能等多个维度进行全面对比。

专家混合（Mixture of Experts）架构原理

专家混合架构将神经网络模型分解为共享基础层和多个专门化的专家模块，其中每个专家模块都是经过特定训练的小型前馈神经网络，负责处理特定类型的输入模式。

在推理过程中，当输入令牌通过模型时，路由机制会从众多专家中选择性激活少数几个（通常为2-4个，总专家数可能达64个或更多）来处理该令牌。这种设计使得不同令牌在模型中遵循不同的计算路径，从而实现了在不增加实际计算量的情况下扩大模型容量的目标。这一机制类似于在复杂任务中仅调用相关专业人员而非整个团队的协作模式。

递归混合（Mixture of Recursion）架构原理

递归混合架构采用了截然不同的设计思路，它使用一个相对较小的共享计算块（通常由几个 Transformer 层组成），通过多次迭代处理来实现深度计算。每个输入令牌根据其复杂程度自主决定所需的处理轮数。

在这种架构中，语义简单的令牌会在较少的迭代后提前退出处理流程，而复杂令牌则需要经过更多轮次的递归处理。与 MoE 通过增加模型宽度来提升容量不同，MoR 通过动态调整计算深度来优化性能。此外，该架构通过智能缓存机制仅保留迭代过程中的必要信息，显著降低了内存占用。整个系统中不存在多个专家模块，而是通过单一计算块的智能重用来实现高效计算。

基于以上架构原理，我们将从多个技术维度深入分析两种架构的具体差异：

架构设计对比分析

专家混合架构采用分布式专家系统的设计理念，整个模型可以视为一个大型智能交换网络。模型内部包含大量小型多层感知机专家模块，但在处理任何单一令牌时，仅有少数专家（通常2-4个）处于激活状态。路由器负责决策激活哪些专家，而其余专家保持空闲状态。每个令牌在网络中沿着独特的路径传播，激活不同的专家组合。这种设计实现了大规模稀疏激活模型——虽然总体规模庞大，但实际计算量保持高效。

递归混合架构则采用了相反的设计策略，整个模型仅包含一个小型 Transformer 计算块，所有令牌共享同一计算资源。令牌不是在不同专家间分流，而是在同一计算块中进行多轮迭代处理。迭代次数完全由令牌特性决定：简单令牌快速退出，复杂令牌进行深度处理。因此，模型呈现窄而深的特征，具备令牌特定的动态深度调整能力。

从系统架构角度来看，MoE 类似于配备多个专科医生的大型综合医院，患者根据病情被路由到相应的专科部门；而 MoR 则像一位经验丰富的全科医生，根据患者病情复杂程度进行相应次数的深入诊查——简单感冒一次诊断即可，复杂心脏疾病则需要多轮深度检查。

模型规模与参数效率分析

专家混合架构在运行时表现出轻量化特征，但其背后隐藏着巨大的参数规模。一个在推理时表现如同1.3B参数模型的MoE系统，实际上可能在所有专家模块中总计包含超过100B个参数。虽然单次推理仅激活其中一小部分，但所有专家模块都需要完整的存储、加载和训练支持。

这种设计带来了计算稀疏性与内存密集性并存的特点。在训练过程中，所有专家模块都需要接收梯度更新，包括那些很少被激活的专家。如何在众多专家间实现负载均衡成为了比预期更加复杂的工程挑战。

相比之下，递归混合架构展现出极高的参数效率。通过在多个处理步骤中重复使用单一计算块，该架构避免了参数数量的爆炸性增长，也无需管理复杂的专家模块集合。实验数据表明，一个118M参数的MoR模型在少样本学习任务中的性能可以超越300M参数的标准Transformer模型，这种优势并非来自更大的模型规模，而是源于更智能的计算资源利用策略。

当内存容量、存储空间或部署成本成为关键考虑因素时，MoR架构相比MoE具有显著优势。

推理延迟性能评估

在实际部署环境中，推理延迟性能成为衡量架构实用性的关键指标。

专家混合架构虽然在理论分析中表现出良好的计算效率，但在实际实现中往往面临性能瓶颈。每个令牌仅激活少数专家的策略虽然减少了计算量，但同时引入了内存访问模式分散、计算负载不均衡以及跨设备通信开销等问题。

对于基础设施水平未达到Google或Microsoft等科技巨头标准的部署环境，延迟、网络拥塞和系统复杂性往往会抵消稀疏计算带来的性能收益。MoE架构并非即插即用的解决方案，需要针对特定硬件环境进行深度优化。

递归混合架构有效避免了上述复杂性问题。由于不存在专家路由机制和跨设备通信需求，每个令牌在同一小型计算块中进行迭代处理，并自主决定退出时机。这种设计确保了内存访问的可预测性、支持早期退出机制，并在各种硬件环境下保持稳定的运行时性能，即使在中等性能的GPU上也能良好运行。部署MoR架构无需超算集群支持。

从推理延迟角度分析，MoR架构明显优于MoE架构。