LLM协作新突破:用多智能体强化学习实现高效协同——解析MAGRPO算法

论文:LLM Collaboration With Multi-Agent Reinforcement Learning

arXiv:2508.04652 (cross-list from cs.AI)
LLM Collaboration With Multi-Agent Reinforcement Learning
Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato
Subjects: Artificial Intelligence (cs.AI); Software Engineering (cs.SE)

一段话总结:

本文将LLM协作建模为合作式多智能体强化学习(MARL) 问题,并形式化为Dec-POMDP,以解决现有LLM微调框架依赖个体奖励导致协作困难的问题。为此,提出MAGRPO算法,通过集中式群体相对优势进行联合优化,同时保留去中心化执行以保证效率。实验表明,在写作(TLDR summarization、arXiv expansion)和编码(HumanEval、CoopHumanEval)协作任务中,MAGRPO能使LLM agents通过有效协作生成高质量响应,且效率优于单agent和其他多agent基线方法。该研究为MARL方法应用于LLM协作开辟了道路,并指出了相关挑战。

研究背景

想象一个场景:你让两个AI助手合作写一篇科普文章,一个负责介绍背景,一个负责讲解原理。结果呢?可能一个写得太简略,一个又过于冗长,风格完全不搭,甚至出现内容重复——这就是当前大型语言模型(LLM)协作时的常见问题。

近年来,LLM在各个领域大放异彩,但当需要多个LLM协同完成复杂任务(如联合写作、协作编码)时,却面临诸多挑战:

  • 现有方法要么让LLM在推理时通过提示词互动(比如“你补充一下我的观点”),但模型固定不变,很容易答非所问或传播错误信息;
  • 要么针对每个LLM单独微调,设计复杂的个体奖励(比如“这个LLM写得好就加分”),但奖励设计难度大,且多个LLM各自为战,缺乏全局协作意识。

而在机器人、游戏等领域,多智能体系统(MAS)早已通过强化学习实现了高效协作(比如多个机器人协同搬运物体)。受此启发,研究者们开始思考:能否将LLM协作也打造成一个“协作型团队”,通过多智能体强化学习(MARL)让它们学会协同工作?这正是本文要解决的核心问题。

主要作者及单位信息

  • 作者:Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato*
  • 单位:Khoury College of Computer Sciences, Northeastern University(美国东北大学Khoury计算机学院)

创新点

本文的独特之处在于跳出了“个体优化”的思维,为LLM协作提供了全新框架:

  1. 问题建模革新:首次将LLM协作明确建模为合作式多智能体强化学习问题,并通过Dec-POMDP(去中心化部分可观测马尔可夫决策过程) 形式化,让协作目标更清晰。
  2. 算法创新:提出MAGRPO(Multi-Agent Group Relative Policy Optimization)算法,结合“集中式训练、去中心化执行”模式——训练时用全局信息优化协作策略,执行时每个LLM独立决策,兼顾效率与协作性。
  3. 奖励设计简化:摒弃复杂的个体奖励,采用联合奖励(比如“两篇摘要是否结构合理、风格一致”),让LLM自然学会分工协作,无需手动设计角色规则。
    在这里插入图片描述

研究方法和思路

核心思路:把LLM协作变成“团队游戏”

  1. 问题形式化:用Dec-POMDP定义协作规则

    • 每个LLM是一个“智能体”,接收自然语言提示(观测),生成文本或代码(动作)。
    • 环境根据所有LLM的联合输出更新状态(比如任务进度、用户反馈)。
    • 系统根据联合输出的质量给出联合奖励(比如写作任务中奖励“结构合理+风格一致”,编码任务中奖励“代码可运行+功能互补”)。
    • 目标是让所有LLM共同优化策略,最大化累计奖励(即“团队总分”)。
  2. MAGRPO算法:让LLM学会“团队配合”

    • 步骤1:多轮交互:每个回合中,LLM们根据各自的历史(之前的提示和输出)同步生成响应。
    • 步骤2:群体采样:为了稳定训练,每个LLM生成多个候选响应(比如每个生成3个版本),形成“响应群体”。
    • 步骤3:计算奖励:系统根据联合响应的质量(如结构、一致性、正确性)给出联合奖励。
    • 步骤4:优化策略:通过“群体相对优势”(对比不同响应的奖励差异)更新每个LLM的策略,让它们逐渐学会“哪些输出能让团队得分更高”。
    • 特点:训练时用全局信息(所有LLM的输出和奖励)优化,执行时每个LLM仅根据自己的观测独立决策,既保证协作又不牺牲效率。

实验方法:在写作和编码任务中“实战测试”

  1. 写作协作任务

    • TLDR摘要生成:2个LLM分工,一个写精简摘要,一个写详细摘要,要求结构合理、风格一致。
    • arXiv论文扩展:2个LLM从论文摘要扩展引言,一个写背景,一个写方法,要求内容连贯。
    • 对比基线:单LLM、并行生成(无协作)、顺序生成(单向参考)、一轮讨论(双向参考)。
  2. 编码协作任务

    • HumanEval/CoopHumanEval:2个LLM分工写Python函数,一个写辅助函数,一个写主函数,要求代码可运行、功能互补。
    • 对比基线:单LLM、朴素拼接(无协作)、顺序生成(主函数参考辅助函数)、一轮讨论(互相参考)。
  3. 评估指标

    • 写作:结构(长度比)、风格一致性(词汇相似度)、逻辑连贯性(过渡词使用)。
    • 编码:结构完整性(函数定义正确)、语法正确性、测试通过率、协作质量(主函数是否有效调用辅助函数)。

主要贡献

  1. 理论层面:为LLM协作提供了坚实的数学框架(Dec-POMDP),证明了用MARL解决协作问题的可行性。
  2. 方法层面:MAGRPO算法无需复杂的个体奖励设计,仅通过联合奖励就能让LLM自主学会分工协作,降低了工程落地难度。
  3. 实践层面:实验表明,MAGRPO在写作和编码任务中全面超越现有方法:
    • 写作任务:速度是单LLM的3倍,结构合理性和风格一致性得分超95%(基线最高71.5%)。
    • 编码任务:多轮MAGRPO的测试通过率达74.6%,协作质量达86.2%(单LLM分别为63.4%和无协作指标)。
  4. 领域价值:打开了MARL与LLM结合的新方向,为未来更复杂的多LLM协作(如大型软件开发、多步骤决策)奠定了基础。

思维导图:

在这里插入图片描述


详细总结:

1. 研究背景与动机
  • LLM与MAS的潜力:LLM在多领域表现优异,但协作能力未被充分优化;MAS在协作任务(如游戏、机器人)中已展现潜力,可用于提升LLM协作。
  • 现有方法的局限
    • 提示级交互(如辩论、角色分配):依赖固定模型,易产生冲突信息,提示设计困难。
    • 个体奖励微调:需为每个agent设计复杂奖励,且缺乏收敛保证。
2. 核心方法
  • 问题形式化:将LLM协作定义为Dec-POMDP,包含状态(全局状态含可访问部分和用户状态)、观测(自然语言提示)、动作(自然语言响应)、联合奖励(基于可访问状态和联合动作)等要素。
  • MAGRPO算法
    • 核心思路:借鉴GRPO和MAPPO,通过群体蒙特卡洛样本估计期望回报,计算群体相对优势以稳定训练。
    • 流程:每个episode中,agents同步生成响应,基于联合奖励更新历史,最终通过随机梯度下降优化策略。
3. 实验设计与结果
任务类型数据集/任务评估指标关键结果(MAGRPO vs 基线)
写作协作TLDR summarization结构(长度比)、风格一致性(Jaccard相似度)、逻辑连贯性(过渡词)速度是单模型3倍,结构和连贯性得分更高(98.7% vs 单模型6.6%)
写作协作arXiv expansion同上总回报显著高于并行生成、顺序生成等基线(93.1% vs 并行59.6%)
编码协作HumanEval结构完整性、语法正确性、测试通过率、协作质量多轮MAGRPO测试通过率74.6%,协作质量86.2%,优于单模型(63.4%)和朴素拼接(40.1%)
编码协作CoopHumanEval同上单轮/多轮MAGRPO总回报(83.7%/88.1%)高于所有基线,且方差更低
4. 贡献与局限
  • 贡献
    1. 将LLM协作建模为合作式MARL问题;
    2. 提出MAGRPO算法优化协作;
    3. 验证其在写作和编码任务中的有效性;
    4. 分析现有方法局限和开放挑战。
  • 局限与未来方向
    • 局限:使用同质agent、数据集和模型规模有限、奖励模型简单;
    • 未来:探索异质agent协作、扩大项目规模、设计更精细的奖励模型。

关键问题:

  1. MAGRPO算法与现有多agent LLM协作方法的核心区别是什么?
    现有方法多依赖提示级交互(无微调)或个体/角色条件奖励微调,存在协作低效、奖励设计复杂、缺乏收敛保证等问题;而MAGRPO将LLM协作建模为合作式MARL问题,通过集中式群体相对优势进行联合优化,同时保留去中心化执行,无需复杂个体奖励设计,且有更好的协作效果和收敛性。

  2. 在写作协作实验中,评估LLM生成内容质量的具体指标有哪些?
    包括三类指标:(1)结构:两段摘要的长度比和独特词比;(2)风格一致性:基于独特词(或n-grams)的归一化Jaccard相似度;(3)逻辑连贯性:过渡词使用的类别数量(奖励随类别数对数增长)。总奖励为这些指标的加权和。

  3. 该研究指出的LLM协作领域开放挑战有哪些?
    主要包括:(1)LLM基于自然语言的表示形式对MARL建模的挑战(如动作/观测空间大);(2)训练范式选择(CTDE vs DTE)的权衡;(3)奖励模型的设计需更精细以对齐人类偏好;(4)需探索异质agent协作及更大规模项目中的协作模式。

总结

本文通过将LLM协作建模为合作式多智能体强化学习问题,提出了MAGRPO算法,成功解决了现有方法中“协作低效”和“奖励设计复杂”的痛点。实验证明,经过MAGRPO训练的LLM团队,在写作和编码任务中能生成更高质量的结果,且效率显著提升。

解决的主要问题

  • 现有LLM协作依赖提示词或个体奖励,协作性差、设计复杂。
  • LLM在多轮交互中难以保持风格一致、功能互补。

主要成果

  • 提出MAGRPO算法,实现LLM的高效协同训练。
  • 在写作和编码任务中验证了方法的优越性,为MARL在LLM领域的应用提供了范例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92701.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92701.shtml
英文地址,请注明出处:http://en.pswp.cn/web/92701.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用OAK相机实现智能物料检测与ABB机械臂抓取

大家好!今天我们很高兴能与大家分享来自OAK的国外用户——Vention 的这段精彩视频,展示了他们的AI操作系统在现实中的应用——在演示中,进行实时的自动物料拣选。 OAK相机实时自动AI物料拣选视频中明显可以看到我们的OAK-D Pro PoE 3D边缘AI相…

html5和vue区别

HTML5 是网页开发的核心标准,而 Vue 是构建用户界面的JavaScript框架,两者在功能定位和开发模式上有显著差异: 核心定位 HTML5是 HTML标准 的第五次重大更新(2014年发布),主要提供网页结构定义、多媒体嵌入…

【前端八股文面试题】【JavaScript篇3】DOM常⻅的操作有哪些?

文章目录🧭 一、查询/获取元素 (Selecting Elements)✏️ 二、修改元素内容与属性 (Modifying Content & Attributes)🧬 三、创建与插入元素 (Creating & Inserting Elements)🗑️ 四、删除与替换元素 (Removing & Replacing)&am…

内存杀手机器:TensorFlow Lite + Spring Boot移动端模型服务深度优化方案

内存杀手机器:TensorFlow Lite Spring Boot移动端模型服务深度优化方案一、系统架构设计1.1 端云协同架构1.2 组件职责矩阵二、TensorFlow Lite深度优化2.1 模型量化策略2.2 模型裁剪技术2.3 模型分片加载三、Spring Boot内存优化3.1 零拷贝内存管理3.2 堆外内存模…

安全生产基础知识(一)

本文档围绕安全生产基础知识展开: 一、安全用电相关知识 用电安全要点 禁止用湿手触摸灯头、开关、插头插座及用电器具。发现有人触电,切勿用手拉扯,应立即拉开电源开关或用干燥木棍、竹竿挑开电线。电器通电后出现冒烟、烧焦味或着火时&…

Elasticsearch 搜索模板(Search Templates)把“可配置查询”装进 Mustache

1. 什么是 Search Template?能解决什么问题? 搜索模板是存储在 ES 集群里的 Mustache 模板(lang: mustache)。你把一份标准 _search 请求体写成模板,变量交给 params,每次调用只需传参即可: 搜索…

cocos Uncaught TypeError: Cannot read properties of null (reading ‘SetActive‘)

报错:Uncaught TypeError: Cannot read properties of null (reading SetActive) at b2RigidBody2D.setActive (rigid-body.ts:231:21) at b2RigidBody2D.onEnable (rigid-body.ts:78:14) at RigidBody2D.onEnable (rigid-body-2d.ts:551:24) at OneOffInvoker.invo…

Docker用户组介绍以及管理策略

在Docker环境中,用户组(尤其是默认的docker组)是管理用户与Docker守护进程交互权限的核心机制。以下从概念介绍和具体管理操作两方面详细说明:一、Docker用户组的核心概念 Docker守护进程(dockerd)默认通过…

【PyTorch】单目标检测项目部署

【PyTorch】单目标检测项目 两种部署情况:部署在 PyTorch 数据集上,以及部署在本地存储的单个映像上。 目录 定义数据集 搭建模型 部署模型 定义数据集 详细参照前文【PyTorch】单目标检测项目 import torchvision import os import pandas as pd i…

Baumer高防护相机如何通过YoloV8深度学习模型实现火星陨石坑的检测识别(C#代码UI界面版)

《------往期经典推荐------》 AI应用软件开发实战专栏【链接】 序号 项目名称 项目名称 1 1.工业相机 + YOLOv8 实现人物检测识别:(C#代码,UI界面版) 2.工业相机 + YOLOv8 实现PCB的缺陷检测:(C#代码,UI界面版) 2 3.工业相机 + YOLOv8 实现动物分类识别:(C#代码,U…

UniApp Vue3 TypeScript项目中使用xgplayer播放m3u8视频的显示问题

问题背景 在UniApp Vue3 TypeScript项目中使用xgplayer播放m3u8视频时&#xff0c;遇到了一个棘手的问题&#xff1a;视频画面下移&#xff0c;只能听到声音&#xff0c;全屏后才能正常显示。经过排查&#xff0c;发现是<video>元素在DOM渲染时被异常定位&#xff0c;导…

服务器硬件电路设计之 I2C 问答(三):I2C 总线上可以接多少个设备?如何保证数据的准确性?

在服务器硬件电路设计中&#xff0c;I2C 总线作为常用的串行通信协议&#xff0c;其设备连接数量和数据准确性至关重要。​I2C 总线上可连接的设备数量并非无限制。从理论上讲&#xff0c;标准 I2C 设备采用 7 位地址&#xff0c;除去保留地址&#xff0c;最多可连接 112 个设备…

用LaTeX优化FPGA开发:结合符号计算与Vivado工具链

用 LaTeX 优化 FPGA 开发&#xff1a;结合符号计算与 Vivado 工具链&#xff08;一&#xff09; 系列文章目录 第一章&#xff1a;深入了解 LaTeX&#xff1a;科技文档排版的利器 第二章&#xff1a;LaTeX 下载安装保姆级教程 第三章&#xff1a;LaTeX 创建工程并生成完整文档…

人工智能系列(6)如何开发有监督神经网络系统?

一. 开发有监督神经网络系统的步骤1. 数据收集训练数据通常由输入–输出成对组成&#xff0c;根据任务需求可能涵盖不同情境&#xff08;如白天或夜晚的车辆识别&#xff09;&#xff0c;其类型可以是数值、图像、音频等多种形式&#xff1b;数据规模越大、越多样&#xff0c;模…

CSS 选择器进阶:用更聪明的方式定位元素

在前端开发中&#xff0c;CSS 选择器是我们与 DOM 对话的语言。虽然 class 和 id 是我们最熟悉的工具&#xff0c;但真正高效、优雅的样式代码&#xff0c;往往来自于对现代 CSS 选择器的深入理解与巧妙运用。本文将带你跳出基础语法&#xff0c;探索那些能显著提升开发效率和代…

常用排序方法

一、排序的概念及引用1、排序的概念排序&#xff1a;所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的操作。稳定性&#xff1a;假定在待排序的记录序列中&#xff0c;存在多个具有相同的关键字的记录&…

接口返回504 Gateway Time-out 错误,这意味着请求在网关或代理服务器等待上游服务器响应时超时。以下是可能的原因和排查建议:

问题分析1.后端处理耗时过长是某个方法执行时间过长&#xff0c;超过了网关的超时设置&#xff08;通常是几十秒&#xff09;可能涉及大量数据查询或复杂计算2.数据库查询性能问题查询的数据量过大缺少必要的数据库索引SQL语句执行效率低下排查建议1.检查服务端日志查看应用日志…

DBAPI 实现不同角色控制查看表的不同列

DBAPI 实现不同角色控制查看表的不同列 场景说明 在数据库管理系统中&#xff0c;对表进行列级别的权限控制是一项关键的安全措施&#xff0c;特别是在处理敏感数据或需要遵守特定数据访问控制策略的情况下。合理的列权限控制不仅能保护敏感信息&#xff0c;还能帮助组织满足合…

二维图像处理(完整版)

目录 1.变换矩阵 2.在矩阵的基础上添加各种变换形式 3.开始变换 4.计算变换矩阵参数 新算子 二、阈值分割 新算子 三、blob分析案例 1.焊点 2.石头 3.木材 4.车牌 5.骰子 新算子 四、傅里叶变换频域分析 问题一 五、滤波处理 1.均值滤波 2.中值滤波 3.高斯…

计算机网络:求地址块128.14.35.7/20中的相关信息

128.14.35.7/20是某一地址块&#xff0c;求该地址块中的网络地址&#xff0c;IP地址最大值&#xff0c;最小值&#xff0c;地址数 这里的最大值&#xff1a;广播地址&#xff0c;最小值&#xff1a;网络地址&#xff0c;地址数&#xff1a;可分配主机数 最关键的一步就点分十进…