摘要：扩展测试时的计算量在提升大型语言模型（LLMs）的推理能力方面已展现出显著成效。在本研究中，我们首次系统地探索了将测试时扩展方法应用于语言智能体，并研究了该方法在多大程度上能提高其有效性。具体而言，我们探索了不同的测试时扩展策略，包括：（1）并行采样算法；（2）顺序修订策略；（3）验证器与结果合并方法；（4）多样化推演策略。我们仔细分析并消融了不同设计策略对语言智能体应用测试时扩展的影响，并得出以下发现：1. 扩展测试时的计算量能够提升智能体的性能。2. 知道何时进行反思对智能体而言至关重要。3. 在不同的验证和结果合并方法中，列表式方法表现最佳。4. 增加多样化的推演对智能体的任务表现有积极影响。Huggingface链接：Paper page，论文链接：2506.12928。

研究背景和目的

研究背景

随着大型语言模型（LLMs）在自然语言处理领域的快速发展，它们在各种任务中展现出了惊人的能力，如文本生成、问答系统、情感分析等。然而，尽管这些模型在基准测试中取得了显著成绩，但在实际应用中，尤其是在需要复杂推理和长时间思考的任务中，它们的性能仍然有限。这主要是因为当前的LLMs在推理过程中往往缺乏足够的计算资源和时间来进行深入的思考和探索。

在智能体（Agents）领域，这一挑战尤为明显。智能体通常需要分解复杂问题为多个步骤，并依次调用多个模型或工具来解决问题。这种多步骤的推理过程不仅增加了出错的概率，还使得模型在每一步都可能因为计算资源不足而无法达到最佳性能。因此，如何在测试时为智能体提供更多的计算资源，以提升其推理能力和任务完成效果，成为了一个亟待解决的问题。

此外，现有的测试时扩展方法（Test-Time Scaling, TTS）主要针对LLMs设计，直接应用于智能体框架时面临诸多挑战。智能体的多步骤推理过程与LLMs的端到端问题解决方式存在本质差异，传统的TTS方法（如Best-of-N, Beam Search等）在智能体框架中可能无法充分发挥作用。因此，需要探索适合智能体框架的测试时扩展策略，以充分利用计算资源，提升智能体的整体性能。

研究目的

本研究的主要目的是系统地探索测试时扩展方法在智能体框架中的应用，并评估其对智能体性能的提升效果。具体而言，本研究旨在：

探索并行采样算法在智能体测试时扩展中的应用：通过比较不同并行采样算法（如Best-of-N, Beam Search, Tree Search等）在智能体框架中的性能，找出最适合智能体推理过程的采样策略。

研究顺序修订策略对智能体性能的影响：通过引入反思模型，使智能体能够在推理过程中进行自我反思和修订，探索不同反思频率和时机对智能体性能的影响，找出最优的反思策略。

评估验证器和结果合并方法的有效性：通过比较不同的验证器和结果合并方法（如投票、评分、列表式等），找出最适合智能体框架的验证和合并策略，以提升智能体的推理准确性和稳定性。

探索多样化推演策略对智能体性能的提升：通过引入多智能体协作采样策略，增加智能体推理过程的多样性，评估多样化推演对智能体任务完成效果的影响。

研究方法

并行采样算法

本研究选择了多种主流的并行采样算法进行评估，包括Best-of-N (BoN), Step-wise Best-of-N (BoN-wise), Beam Search, 和 Diverse Verifier Tree Search (DVTS)。这些算法在智能体框架中的实现方式如下：

Best-of-N (BoN)：在每个问题或任务上独立采样N个响应，然后选择最佳响应。
Step-wise Best-of-N (BoN-wise)：在每个推理步骤上独立采样N个响应，然后选择最佳响应作为下一步的输入。
Beam Search：在每个步骤上维护一个固定大小的候选集，选择最有可能的K个响应进行扩展。
Diverse Verifier Tree Search (DVTS)：将任务分解为多个子树，每个子树独立进行Beam Search，以增加搜索的多样性。

顺序修订策略

本研究引入了反思模型（RefM），使智能体能够在推理过程中进行自我反思和修订。反思模型通过总结当前步骤和最近的动作/观察，生成总结信息（Sum_t），并在模型动作得分低于预设阈值时，将总结信息加入到LLM中，生成新的响应。

验证器和结果合并方法

本研究比较了三种主流的结果合并方法：投票（Voting）、评分（Scoring）和列表式（List-wise）。

投票（Voting）：直接从所有候选响应中选择多数。
评分（Scoring）：使用验证模型对每个候选响应进行评分，选择得分最高的响应。
列表式（List-wise）：将所有候选响应提供给LLM，由LLM直接选择最优响应。

多样化推演策略

本研究通过引入多智能体协作采样策略，增加智能体推理过程的多样性。具体而言，我们使用了不同的LLMs作为推演模型，每个LLMs在推理过程中展现出不同的能力特征。通过组合不同的LLMs，我们能够最大化推演的多样性，从而提升智能体的任务完成效果。

研究结果

并行采样算法的效果

实验结果表明，并行采样算法能够显著提升智能体的性能。其中，Best-of-N (BoN)算法表现最佳，与基准模型相比，在简单和中等难度任务上实现了显著的性能提升。BoN-wise算法在复杂任务上表现最佳，超过了基准模型和BoN算法。相比之下，Beam Search和DVTS算法在基准模型上没有显示出显著的性能提升。