[2504.09641] TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

1. 引述

继之前的一篇 Video-R1 的工作,一篇新的关于视频推理的工作很快就上传到 Arxiv 上 “占坑” 了,这个工作是关于使用小参数(3B)的 LLM 进行视频推理。

之前那篇 Video-R1 的工作:【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调-CSDN博客

为什么说是 “占坑” 呢?这篇论文采用 GRPO 作为微调方法,并未说明为什么不采用 T-GRPO,而只是在其第 5 节 Conclusion and Future Work 提了一句当前微调方法有局限,未来慢慢改进。

其原文如下:

Currently, TinyLLaVA-Video-R1 employs the GRPO algorithm for training. However, this approach exhibits notable limitations. To enhance its effectiveness in video reasoning tasks, we plan to refine the algorithm by addressing the key challenges observed in our experiment.

纵观整篇论文,其核心目的是探索小模型的推理能力,而得到的结果是这样的小模型也能很好推理,并且能在强化微调后能比肩 7B 模型。下图就是 Qwen-7B 和强化微调后的 Qwen-3B 的对比实验:

有这篇论文作为依据,后续的研究就可以采用 3B 小模型,也不吃资源算力了。

2. 奖励设置

这篇论文是微调小参数 LLM,用的算法是传统 GRPO,因此方法核心点就在于奖励的设计上了。论文的奖励设计有三点:

  • 格式奖励:格式是否正确
  • 思考奖励:鼓励正确的长思考
  • 准确奖励:回答问题正确给奖励

首先是格式奖励,论文要求 LLM 输出结果得有思考过程 <think> 和输出答案 <answer>,并且每次输出只能有一对 <think></think> 和一对 <answer></answer>,格式正确之后给予 r_0 的奖励。

然后是思考奖励,论文鼓励 LLM 进行长文本的思考,<think> 的长度 Len 越长,则奖励越多,最大为 r_1,但是存在一个上限 ML,这是为了防止 LLM 无脑堆文本。思考奖励呈线性,写成公式如下:

LR = \min \left(1, \frac{\mathrm{Len}}{ML} \right) \times r_1.

论文定义格式奖励包含了思考奖励,也就是说格式奖励的公式如下:

FR=LR+r_0

最后是正确性奖励,回答正确给予 r_2 的得分,答错不给分。而正确答案的得分 r_2 和格式最大得分 r_0+r_1 是一致的,也就是说 r_2=r_0+r_1,这是为了让答案得分和格式得分具有相同的权重。公式如下:

AR=r_2=r_0+r_1

最终的模型奖励如下:

R = \begin{cases} AR + FR, & \text{if } FR > 0 \text{ and } AR = r_2 \\ -FR, & \text{if } FR > 0 \text{ and } AR = 0 \\ -(r_0 + r_1 + r_2), & \text{if } FR = 0 \end{cases}

也就是说,当格式且答案正确时,得分是正确性奖励 AR 和格式奖励 FR 的总和;当答案错误时,你的思考过程被试做全错,此时给予惩罚 -FR,如果你的 <think> 文本越长,惩罚越重;当格式都错误时,给予最大惩罚。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/88315.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/88315.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/88315.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于元学习的回归预测模型如何设计?

1. 核心设计原理 目标&#xff1a;学习一个可快速适应新任务的初始参数空间&#xff0c;使模型在少量样本下泛化。数学基础&#xff1a; MAML框架&#xff1a; min ⁡ θ ∑ T ∼ p ( T ) [ L T ( f θ − η ∇ θ L T ( f θ ( D T t r a i n ) ) ( D T t e s t ) ) ] \min…

MyBatis Plus与P6Spy日志配置

前言 在开发基于Spring Boot和MyBatis Plus的项目时&#xff0c;日志功能是调试和优化SQL查询的核心工具。通过合理配置日志输出&#xff0c;开发者可以直观查看生成的SQL语句、执行时间、参数值以及潜在的性能瓶颈。 一、MyBatis Plus日志配置 1.1 基础配置&#xff1a;直接…

SpringCloudGateway(spel)漏洞复现 Spring + Swagger 接口泄露问题

环境配置 gateway Spring Cloud &#xff1a; 这个就是分布式的微服务组件 微服务 &#xff1a; 一般指的是独立的&#xff0c;专注于一项功能的服务 Gateway 这个其实是个云端的网关配置&#xff08;他的作用就是对访问web的流量进行防护比如一些爬虫的阻截&#xff0…

服务器手动安装并编译R环境库包:PROJ→RGDAL

目录 方式1&#xff1a;conda-forge安装错误&#xff1a;缺乏libnsl.so.1✅ 方法一&#xff1a;查找系统中是否已有此库替补方案&#xff1a;采用libnsl.so.3链接 libnsl.so.1✅ 方法二&#xff1a;系统中没有安装 libnsl.so.1 → 手动安装✅ 方法三&#xff1a;使用 Conda 安装…

教育技术学读计算机论文的提示词

角色: 你是一位经验丰富的计算机专业教授,擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文,但我的基础比较薄弱(了解编程基础如变量、循环、函数,了解一点数据结构和算法概念如数组、链表、排序,但对高级术语和数学证明不熟悉)。…

棋盘格标定板和圆形标定板的优劣性

来源&#xff1a;deepseek 在相机标定中&#xff0c;棋盘格标定板和圆形标定板&#xff08;或圆点阵列标定板&#xff09;是最常用的两种类型。它们各有优劣&#xff0c;选择哪种取决于具体的应用场景、需求以及使用的标定算法。以下是它们的主要优劣对比&#xff1a; &#…

2025年UDP洪水攻击防御指南:从7.3Tbps攻防战看原理与实战

45秒37.4TB流量&#xff01;一场刷新历史纪录的DDoS攻击正在颠覆传统防御体系 一、什么是UDP洪水攻击&#xff1f; UDP洪水攻击&#xff08;UDP Flood&#xff09;是一种利用用户数据报协议&#xff08;UDP&#xff09; 的无连接特性发起的分布式拒绝服务&#xff08;DDoS&…

一种集成统计、视觉和基于规则方法的新型可解释医学图像分类人工智能框架|文献速递-最新论文分享

Title 题目 A novel explainable AI framework for medical image classificationintegrating statistical, visual, and rule-based methods 一种集成统计、视觉和基于规则方法的新型可解释医学图像分类人工智能框架 01 文献速递介绍 人工智能&#xff08;AI&#xff09;…

洛谷 P10113 [GESP202312 八级] 大量的工作沟通-普及/提高-

题目描述 某公司有 N N N 名员工&#xff0c;编号从 0 0 0 至 N − 1 N-1 N−1。其中&#xff0c;除了 0 0 0 号员工是老板&#xff0c;其余每名员工都有一个直接领导。我们假设编号为 i i i 的员工的直接领导是 f i f_i fi​。 该公司有严格的管理制度&#xff0c;每位…

数组题解——移除元素​【LeetCode】

27. 移除元素 快慢指针法 算法思路 使用双指针&#xff08;fast和slow&#xff09;遍历数组。 fast指针遍历每一个元素。slow指针指向下一个将被保留的位置。 如果nums[fast] ! val&#xff0c;就把nums[fast]赋值到nums[slow]&#xff0c;并将slow向前移动一位。遍历结束后…

ubuntu20.04安装多版本python时,如何使用sudo python3.10

sudo 命令只会加载基本的path和动态库&#xff0c;自己定义的不会加入&#xff0c;因此会出现使用sudo运行多版本python出现奇怪的现象&#xff0c;进行如下操作就可以使用 sudo vi ~/.bashrc alias sudosudo env PATH$PATH LD_LIBRARY_PATH$LD_LIBRARY_PATH 使用 sudo visud…

统计学纯基础(1)

⛄统计分析分为统计描述与统计推断&#xff0c;统计推断分为总体估计与假设检验 &#x1f3c2;16&#xff1a;45 医学研究--基础研究、转化医学研究、临床研究 临床研究--病因学研究、诊断准确性试验、预后研究、疗效研究 一般认为3个月以内的预后属于近期预后&#xff0c;…

接口自动化测试之pytest 运行方式及前置后置封装

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、Pytest 优点认知 1.可以结合所有的自动化测试工具 2.跳过失败用例以及失败重跑 3.结合allure生产美观报告 4.和Jenkins持续集成 5.很多强大的插件 pytest-htm…

利用folium实现全国高校分布地图显示

智汇中国 | 揭秘!一张地图带你遨游全国高校殿堂 大家好,这期我们来利用folium模块实现全国高校分布的地图显示。 什么是Folium Folium为Python用户提供了便捷的方式来利用Leaflet.js的强大地图可视化功能,而无需直接编写JavaScript代码。它允许开发者以Pythonic的方式处理…

【和春笋一起学C++】(二十二)C++函数新特性——函数重载

目录 函数重载的含义 重载函数使用注意事项 几种特殊情况 函数重载的含义 函数重载使得能够用不同的参数列表调用多个同名的函数。可以通过函数重载设计一系列函数,它们完成相同的工作,但使用不同的参数列表。 函数重载的关键是函数的参数列表——也被称为函数特征标。如…

CrewAI多智能体框架的实操教程-旅行规划-2

1、创建一个新的 CrewAI 项目 surprise_trip crewai create crew surprise_trip 选择模型厂商和模型 生成.env MODELgpt-4o OPENAI_API_KEY你的api_keySERPER_API_KEY你的SERPER api_key 2、探索项目结构 3、配置代理 修改 agents.yaml文件。 # 个性化活动规划师 Agent p…

vue脚手架与前后端交互

前言 。Vue.js作为一种流行的前端框架&#xff0c;提供了丰富的功能和灵活的架构&#xff0c;方便了开发者进行高效的开发。为了更好地使用Vue&#xff0c;Vue CLI&#xff08;脚手架工具&#xff09;成为了开发者进行项目创建和管理的重要工具。本文将结合Vue脚手架的使用场景…

【麻省理工】《how to speaking》笔记

【【麻省理工】《如何说话》一节课教你成为表达的王者】 开始 在演讲最开始的时候&#xff0c;你要告诉观众&#xff0c;在接下来的15分钟或一个小时之内&#xff0c;他们将会学到什么东西。这会让观众集中注意力去倾听。 PPT 你的幻灯片上的字要越少越好。因为听众的大脑一…

ESP32-HTML-08

一、html显示图片 1.工程包含Html需要显示的图片 2、CMakeLists.txt包含图片资源 举例&#xff1a; idf_component_register(SRCS main.cEMBED_FILES root.html favicon.ico) 3.html中图片的标签 <img src"motus.ico"> 4.后台代码的添加 static esp_e…

前端后端文件下载防抖实现方案

在 Vue 3 中实现下载文件防抖&#xff0c;可以通过封装一个防抖函数来控制下载请求的触发频率。以下是完整的实现方案&#xff1a; 1. 封装防抖工具函数 javascript 复制 下载 // utils/debounce.js export function debounce(func, delay) {let timer null;return funct…