突破PPO训练效率瓶颈!字节跳动提出T-PPO,推理LLM训练速度提升2.5倍

在大语言模型(LLM)通过长思维链(CoT)展现出强大推理能力的当下,强化学习(RL)作为关键技术却面临训练效率难题。本文将介绍字节跳动提出的Truncated Proximal Policy Optimization(T-PPO),其通过创新方法提升训练效率,在AIME 2024基准测试中表现亮眼,一起来了解这一重要进展。

论文标题
Truncated Proximal Policy Optimization

来源
arXiv:2506.15050v1 [cs.AI] + https://arxiv.org/abs/2506.15050

文章核心

研究背景

近年来,推理导向的大型语言模型(LLM)如OpenAI的o1、DeepSeekR1和QwQ等,借助扩展的思维链(CoT)推理在数学推理、编程和基于代理的任务等复杂领域展现出最先进的性能,而深度强化学习(RL)技术是这些模型提升推理能力的重要支撑。

研究问题

  1. PPO的在线策略特性导致训练效率低下:PPO作为LLM优化的主要RL方法,其在线策略本质限制了训练效率,在处理长CoT轨迹时,这种限制尤为明显,会导致大量计算开销和延长训练时间。

  2. 长生成过程中硬件利用率低:完全同步的长生成过程中,资源在等待完整rollout期间经常处于闲置状态,存在硬件利用率低的固有缺点。

  3. 离线策略方法存在训练不稳定问题:虽然离线策略方法训练效率更高,但通常在策略梯度估计器中存在高方差,导致训练不稳定和性能下降。

主要贡献

  1. 提出EGAE进行优势估计:开发Extended Generalized Advantage Estimation(EGAE),可从不完整响应中进行优势估计,同时保持策略学习的完整性,使策略更新能在轨迹完全生成前进行,提高计算资源利用率。

  2. 设计计算优化机制:创建一种计算优化机制,允许策略和价值模型独立优化,通过选择性过滤提示和截断令牌,减少冗余计算并加速训练过程,且不牺牲收敛性能。

  3. 提升训练效率与性能:在AIME 2024上使用32B基础模型的实验表明,T-PPO将推理LLM的训练效率提高了2.5倍,性能优于现有竞争对手,在AIME’24基准测试中取得62的pass@1分数。

方法论精要

核心算法/框架

T-PPO是PPO的新型扩展,核心在于EGAE和令牌过滤策略。EGAE扩展了传统的GAE,支持使用部分生成的响应进行策略优化;令牌过滤策略通过截断生成和选择性使用令牌,实现策略和价值模型的独立优化。

(所以EGAE的关键是,对于未生成的tokens V ( s l ) = V ( s l − 1 ) V(s_{l})=V(s_{l-1}) V(sl)=V(sl1),算是一种近似。那 δ t \delta _ t δt里的 r t r_t rt是怎么来的?kl?)

关键参数设计原理

窗口长度 l l l:用于截断生成,假设实际最大响应长度 L L L与窗口长度 l l l的比值为 k k k,生成时间和训练时间大约可节省k倍。

EGAE中的参数 λ λ λ γ γ γ λ λ λ控制未来奖励对优势估计的影响, γ γ γ为折扣因子,通过调整它们控制偏差-方差权衡。

裁剪参数:策略的 ϵ l o w = 0.2 \epsilon_{low}=0.2 ϵlow=0.2 ϵ h i g h = 0.28 \epsilon_{high}=0.28 ϵhigh=0.28,价值函数的 ξ l o w = 0.5 \xi_{low}=0.5 ξlow=0.5 ξ h i g h = 0.6 \xi_{high}=0.6 ξhigh=0.6,限制更新幅度以保证稳定性。

创新性技术组合

将EGAE与令牌过滤策略结合,实现不完整轨迹的优势计算和渐进式策略更新。

策略模型训练使用当前训练步骤生成的响应令牌,价值模型训练使用完成序列的所有生成令牌,且价值模型采用蒙特卡洛训练范式以确保无偏估计。

采用连续批处理策略,当某些序列达到结束条件时,在下一步插入新提示,未完成样本保留,保持每步批大小恒定。

实验验证方式

数据集:使用美国数学邀请赛(AIME)作为推理问题的代表性基准,训练集为DAPO-Math-17K,包含过去所有AIME竞赛问题及一些人工构造的难题。

基线方法:对比DeepSeek-R1-Zero-Qwen-32B、DAPO、VAPO、GePPO、PPO-EWMA等,通过AIME 2024的pass@1分数和训练时间评估性能。

实验洞察

性能优势

T-PPO在AIME 24上实现61.88的pass@1分数,超越DeepSeek-R1-Zero-Qwen-32B和现有的最佳异步PPO算法,在相同性能下,与需要20k响应长度的PPO相比,在AIME24基准上wall-clock time减少60%。

效率突破

T-PPO的平均每1000步壁钟时间与PPO-EWMA相当,远低于vanillaPPO算法,且收敛步骤(6720步)显著少于PPO-EWMA(11200步),总运行时间更短;在policy rollout中的计算强度为249 operations/byte,远高于PPO的84 operations/byte,更好地利用了计算资源。

训练动态分析

对响应长度的分析表明,其呈现先增加、暂时下降、再恢复并最终稳定的特征,最终稳定的响应长度超过vanillaPPO,说明T-PPO保留并可能增强了推理模型的长度缩放能力,模型在学习过程中不断完善推理方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85721.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85721.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/85721.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python】dictionary

1 字典功能 字典是可变容器模型&#xff0c;且可存储任意类型对象&#xff1b; 字典的每个键值对 <key: value> 用冒号 : 分割&#xff0c;每个对之间用逗号(,)分割&#xff0c;整个字典包括在花括号 {} 中 ,格式如下所示&#xff1a; d {key1 : value1, key2 : value…

【python】If 语句

1 使用if 进行条件判断 1.1 检查字符串是否相等 car bmw car BMW # FALSEcar bmw car.upper() BMW # true # 变小写用方法&#xff1a;lower1.2 检查字符串是否不相等 my_car yadeaif my_car ! Audi:print("Buy one! Buy one! Buy one!")1.3 比较数字 answe…

Knife4j 使用详解

一、概述 Knife4j 是一款基于 Swagger 的开源 API 文档工具&#xff0c;旨在为 Java 开发者提供更美观、功能更强大的 API 文档生成、展示和调试体验。它是 Swagger-Bootstrap-UI 的升级版&#xff0c;通过增强 UI 界面和扩展功能&#xff0c;解决了原生 Swagger UI 界面简陋、…

Java excel坐标计算

package com.common.base.util.excel;/*** excel 坐标计算*/ public class UtilExcelPosi {/*** deepseek生成 ExcelProperty(index UtilExcelPosi.pA)*/public final static int pA 0;public final static int pB 1;public final static int pC 2;public final static i…

【JavaWeb】Servlet+JSP 实现分页功能

文章目录 思路数据抽出功能设计 功能模块工具类前端内容用户端数据处理 思路 数据抽出 需要显示的数据&#xff0c;查询的数据抽出&#xff1b;进行分页显示&#xff0c;需要统计抽出的件数&#xff0c;然后根据页面显示尺寸调整显示页面内容&#xff1b; 功能设计 翻页需要…

SpringBoot-准备工作-工程搭建

目录 1.创建空项目 2.检查项目jdk版本 3.检查Maven的全局配置 4.配置项目的字符集 5.创建SpringBoot工程 1.创建空项目 2.检查项目jdk版本 3.检查Maven的全局配置 4.配置项目的字符集 5.创建SpringBoot工程

01、python实现matlab的插值算法,以及验证

import numpy as np from scipy.interpolate import griddata import sys def griddata_wrapper(x, y, v, xq, yq, method): """ 包装scipy的griddata函数,支持单个点或多个点的插值 """ try: # 将输入转换为numpy数组…

React ahooks——useRequest

目录 简介 1. 核心功能 2. 基本用法 3. 高级用法 &#xff08;1&#xff09;轮询请求&#xff08;Polling&#xff09; &#xff08;2&#xff09;防抖&#xff08;Debounce&#xff09; &#xff08;3&#xff09;依赖刷新&#xff08;refreshDeps&#xff09; &#x…

re正则、Xpath、BeautifulSouplxml 区别

目录 1. re 正则表达式2. XPath3. BeautifulSoup + lxml4. 功能特性对比5.对比与建议在网页数据解析中,正则表达式(re)XPath(常结合lxml)BeautifulSoup(常依赖解析器如lxml)是三种主流技术,各有核心差异和适用场景。 1. re 正则表达式 优势:文本匹配效率高,尤其适用于…

教师办工专用 资源包|课件+手抄报+PPT模板+常用表格 PDF格式93GB

如果家里亲戚或朋友有走上教育之路的人&#xff0c;给他这份整合可以减轻不少工作负担&#xff0c;更快地适应教育的节奏。也可以发给孩子的老师让他在平时做个班级活动的参考 《老师教学办工资源包》包括手抄报大全、教学计划、工作总结、培训手册、课程表等教学、办公常用资…

算法第37天| 完全背包\518. 零钱兑换 II\377. 组合总和 Ⅳ\57. 爬楼梯

完全背包 完全背包和01背包的区别 纯完全背包&#xff0c;遍历背包和物品的顺序是可以对调的&#xff0c;只要求得出最大价值&#xff0c;不要求凑成总和的元素的顺序&#xff1b; 01背包&#xff0c;遍历背包和物品的顺序是不可以对调的&#xff08;一维不行&#xff0c;二维…

七彩喜智慧康养平台:重构银发生活的数字守护网

随着社会老龄化程度的不断加深&#xff0c;如何让老年人安享幸福晚年成为社会关注的焦点。 在这一背景下&#xff0c;七彩喜智慧康养平台应运而生&#xff0c;以创新的科技手段和贴心的服务理念&#xff0c;为老年人的生活带来了诸多好处&#xff0c;发挥着重要作用&#xff0…

【设计模式】用观察者模式对比事件订阅(相机举例)

&#x1f4f7; 用观察者模式对比事件订阅(相机举例) 标签&#xff1a;WPF、C#、Halcon、设计模式、观察者模式、事件机制 在日常开发中&#xff0c;我们经常使用 事件机制&#xff08;Event&#xff09; 来订阅图像采集信号。然而当系统日益复杂&#xff0c;多个模块同时需要响…

【数据分析九:Association Rule】关联分析

一、数据挖掘定义 数据挖掘&#xff1a; 从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的 和可能有用的 模式或知识 &#xff0c;并据此更好的服务人们的生活。 二、四类任务 数据分析有哪些任务&#xff1f; 今天我们来讲述其中的关联分析 三、关联分析 典…

AWS Security Hub邮件告警设置

问题 需要给AWS Security Hub设置邮件告警。 前提 已经启用AWS Security Hub。 AWS SNS 创建一个AWS Security Hub告警主题SecurityHub-Topic&#xff0c;如下图&#xff1a; 创建完成后&#xff0c;订阅该主题。 AWS EventBridge 设置规则名SecurityHubFindings-Rules…

(OSGB转3DTiles强大工具)ModelSer--强大的实景三维数据分布式管理平台

1. ModelSer 能帮我们做什么 1.1 最快速的 osgb 发布 3dtiles 服务 测试的速度大于 10G/分钟&#xff0c;且速度基本是线性的&#xff08;100G10分钟&#xff0c;1T100分钟&#xff09;。支持城市级倾斜数据半天内完成服务发布&#xff0c;并支持数据的单块更新。 1.2 支持所见…

《HTTP权威指南》 第5-6章 Web服务器和代理

基本Web服务器请求的步骤 1、建立连接 接受一个客户端连接&#xff0c;或者如果不希望与这个客户端建立连接&#xff0c;就将其关闭。 处理新连接客户端主机名识别&#xff1a;反向DNS查找&#xff0c;将IP地址转换为客户端主机名过ident确定客户端用户&#xff1a;客户端支持…

微信二次开发,对接智能客服逻辑

接口友情链接&#xff0c;点击即可访问。 ## 设备创建与复用机制 首次调用/login/getLoginQrCode需传空appId触发设备创建&#xff0c;响应返回固定设备ID。后续登录必须复用此ID以避免风控&#xff08;同一微信号绑定固定设备&#xff09;。设备类型可选ipad/mac&#xff0c;当…

网站并发访问量达到1万以上需要注意哪些事项

当网站并发访问量达到1万以上时&#xff0c;需要注意以下几个方面‌&#xff1a; ‌服务器硬件配置‌&#xff1a; ‌处理器&#xff08;CPU&#xff09;‌&#xff1a;选择多核、高频率的CPU&#xff0c;以确保服务器能够高效地处理大量的请求。‌内存&#xff08;RAM&#xf…

二、OpenCV的第一个程序

文章目录 一、第一个程序&#xff1a;显示图片1.1 cv::imread1.2 cv::namedWindow1.3 cv::imshow 二、第二个程序&#xff1a;视频2.1 cv::VideoCapture 三、加入了滑动条的基本浏览窗口 一、第一个程序&#xff1a;显示图片 示例&#xff1a;一个简单的加载并显示图像的OpenC…