大家读完觉得有帮助记得及时关注和点赞!!!

抽象

基于基于语言的推理模型的最新进展,我们探索了集成视觉和文本的多模态推理。现有的多模态基准测试主要测试视觉提取与基于文本的推理相结合,缺乏真正的视觉推理和视觉与语言之间更复杂的交互。受 ARC 挑战赛的启发,我们推出了 EasyARC,这是一种需要多图像、多步骤推理和自我校正的视觉语言基准测试。EasyARC 是程序生成的,完全可验证且可扩展,使其成为强化学习 (RL) 管道的理想选择。生成器包含渐进的难度级别,支持跨任务类型和复杂性进行结构化评估。我们对最先进的视觉语言模型进行基准测试并分析它们的失效模式。我们认为 EasyARC 为评估视觉语言模型中的真实推理和测试时间缩放能力设定了新标准。我们开源了基准测试数据集和评估代码。

1介绍

人工智能研究的长期目标 是开发能够推理和回答有关视觉信息问题的系统。许多基准测试评估了视觉语言模型 (VLM) 的视觉推理能力。以前的工作创建了视觉问答 (VQA) 基准测试,其中向模型询问(开放式)有关理解合成生成或创建真实世界场景的问题[2] [7].其他基准包括图像组件的几何问题数据集[11] [3].然而,这些基准测试侧重于提取信息,而不是真正的视觉理解和推理。在本文中,我们介绍了 EasyARC:一个真正的视觉推理基准测试,其灵感来自抽象推理挑战 ARC[5].我们相信 EasyARC 解决了多模态 AI 中的一个关键差距:在简单的信息提取之外执行真实视觉推理的能力。

图 1:EasyARC 的示例任务:转换是识别非背景色的最大连通分量,并用展平的分量填充答案。所有 SoTA 自动立体货柜都难以理解或解决这个例子。

本文的其余部分组织如下。在第 2 节中,我们介绍了 ARC 挑战赛以及 EasyARC 以及我们创建数据集的动机。在第 3 节中,我们在 EasyARC 上评估了最先进的 VLM,证明当前的模型在这个非常简单的基准上失败了。此外,我们探索了这些模型的失效模式,试图了解这项任务的缺失组件并规划未来的研究方向。

2EasyARC 数据集

2.1原创 ARC 挑战赛

ARC 挑战乔莱特 [4]被设计为抽象推理的基准,易于记忆。它类似于 Raven 的渐进矩阵,其中提供了一个数字矩阵,考生必须填写最后一个缺失的数字。但是,在 ARC 设置中,我们反而有许多由输入和输出网格组成的示例,这些示例在它们之间需要一个隐藏的转换规则。为了证明找到了正确的转换规则,应试者随后获取一个或多个测试输入网格,并构建与基本实况相对应的输出网格。

请参阅标题

图 2:来自公共评估集的示例 ARC 任务:从视觉上看,此任务很简单,因为它类似于以三维方式堆叠矩形。

ARC 最初由 400 个训练样本和 400 个评估样本组成。ARC 的常见方法包括(LLM 指导的)程序综合和转导推理以及额外的测试时间训练[10] [1] [9].在这两种情况下,训练示例和测试输入网格通常直接以语言的形式提供。Li 等人。 [10]证明这两种推理模式对于解决 ARC 挑战是互补的。受此启发,我们研究了视觉推理是否可以补充解决 ARC 问题的现有方法。这种动机源于人类主要依靠视觉来解决 ARC 问题的观察。一些模式在视觉领域中变得很明显,但当通过网格的冗长自然语言表示进行描述时,可能会显得复杂。

2.2EasyARC 公司

我们最初在 ARC 上评估了 VLM,希望它们能够泛化。然而,即使是最先进的模型——无论是开源还是闭源——在仅提供图像时得分也接近 0%。这种失败揭示了一个根本的局限性:VLM 难以进行空间推理和基于网格的转换。

为了促进更有意义的评估,我们开发了 EasyARC,其任务在精神上与最初的 ARC 挑战相似,但需要更简单的空间/视觉理解。由于 ARC 挑战的训练数据集非常小,因此 ARC 的非视觉方法通常依赖于合成数据的生成[6,10,1].具体说来Li 等人。 [10]将 400 个原始训练示例分类为 160 个种子任务,每个任务都用人工编写的 Python 代码进行注释,用于生成示例、自然语言描述和概念标签。从这种方法中汲取灵感,我们设计了生成器,可以创建三个难度级别的任务:简单、中等和困难。更高的级别通常需要之前级别的超集技能。由于网格大小、颜色排列、形状位置、轴和其他因素的组合可能性,每个单独的任务都会生成大量示例。

对于初步评估,我们选择了五个问题类别,它们涵盖了一组不同的概念:

  • • 

    十字架,星号:向模型介绍网格上的基本几何形状(例如,行、列、对角线)及其各自的锚点。

  • • 

    细胞计数:需要识别和计数均匀背景上的单个单元格或连续形状。

  • • 

    双网格:涉及在应用水平翻转或颜色翻转时复制图案。

  • • 

    优势侧:需要了解图像的各个部分(例如,左侧或上侧)。变换以主侧的颜色为整个图像着色,同时过滤掉或保留分散注意力的杂色像素。

  • • 

    Drop One Color(拖放一种颜色):涉及将一种颜色转换为另一种颜色,同时保留第三种不受影响的颜色。目标是确定哪些颜色映射适用。

我们分别为每个类别生成 1000 个和 100 个随机样本用于训练和测试拆分。对于所有任务,我们从概率为 0.5、0.35 和 0.15 的简单、中等和困难类别中抽样,样本行数和列数在 3 到 10 之间均匀随机,除非任务有特定要求。这会产生一个包含 5000 个训练样本和 500 个测试样本的多样化数据集。我们在附录中描述了详细的任务描述,并附上了图片。

2.3自动立体货柜测试时扩展的基准

EasyARC 是视觉模型中测试时间缩放的理想测试平台。具体而言,EasyARC 是:

  1. 1. 

    真实推理基准:EasyARC 任务需要多步骤推理,包括假设形成(例如,“预测少数单元格颜色”)、迭代验证(例如,“但示例 2 有一个 1x2 的蓝色网格而不是单一颜色”)、假设细化和替代视角。

  2. 2. 

    合成且易于扩展:EasyARC 允许通过可配置的参数(如网格大小和难度概率)灵活地创建数据集。我们的数据集包括 5000 个训练任务和 500 个评估任务,我们将与生成器一起发布。此外,还可以无缝集成新的发电机。

  3. 3. 

    核查:由于该任务需要精确的输出网格预测,因此评估非常简单。这避免了对开放式 VQA 等代理的依赖,其中复杂的多步骤推理任务通常会牺牲可验证性。

  4. 4. 

    渐进难度级别:我们可以逐步调整任务难度,以在 RL 管道中提供结构化的学习信号,从而深入了解训练动态。

  5. 5. 

    多图像推理:每个示例由多个 input-output 图像对组成。模型必须正确地关联对,关注它们的转换,描述它们,并相应地进行概括。

这些特性使 EasyARC 特别适合强化学习 (RL) 管道,其中基本问题数据集的难度分布至关重要。

3SoTA 自动柜员机的评估

在本节中,我们展示了我们对 SoTA 自动柜车在 EasyARC 基准测试中的性能的发现。我们评估了闭源模型,如 Claude 3.7 Sonnet 和 GPT4o-mini,以及小型和大型开源模型,如 QVQ-72B-Preview、Qwen2.5-VL-7B-Inform 和 Gemma3-27B-Instruct。我们将输入输出网格的堆叠图像以及描述任务的文本提示传递给所有模型。由于预算限制,我们使用 0.5 的低温并从每个模型中收集 1 个样本。 尽管我们的基准测试设计得非常简单,但我们发现除了 Claude 3.7 Sonnet 之外的所有模型在这项任务上都表现出较弱的性能,得分低于 %20。我们在附录中分享了这个提示。

Refer to caption

图 3:EasyARC 上自动立体货柜的成功率

我们无法广泛评估 OpenAI o 系列模型,因为截至我们撰写本文时,API 访问不允许图像。通过我们的人工评估,我们预计 o3-mini 的得分介于 Claude 3.7 Sonnet 和 GPT4o-mini 之间。

3.1故障模式

为了更好地了解 EasyARC 上自动柜员机面临的挑战,我们手动分析了它们的输出。

3.2Claude 能看到什么?

Claude 3.7 Sonnet 是唯一一个展示一定程度的真正视觉推理的模型。为了分析其局限性,我们按问题类别细分其成功率。

Refer to caption

图 4:Claude 3.7 的题型成功率。

为了有意义地解释此图,回想一下,每个类别都包含分别从简单、中等和困难级别以 0.5、0.35 和 0.15 的概率采样的问题。我们观察到,该模型在 Counting Cells 方面最困难,这需要精确计算特定颜色的连通分量。相比之下,它在 Drop One Color 和 Dominant Side 上的表现要好得多,前者只是标识缺失的颜色,后者确定图像的哪一侧决定输出颜色。

这些结果表明,该模型感知到图像的“模糊”表示,即捕获高级特征,同时缺少精细细节。值得注意的是,它的大部分成功都来自简单的任务;一旦引入 Noise 或映射变得更加复杂,其性能就会下降。这凸显了其泛化能力超越简单模式识别的根本局限性。

3.3任务分析:细胞计数

下面,我们提供了一个 Counting Cells 任务的示例输入输出示例,其中模型只需找到少数颜色的最大连通分量,并计算该分量中的单元格数。所有模型,包括最成功的 Claude 3.7 十四行诗,都未能理解这种转变。

图 5:用于计数单元格任务的输入-输出示例

该模型通常确定输出应该是少数颜色的,这允许它解决此任务的简单版本。但是,模型无法“更长时间”地查看图像,以意识到它应该找到并计算最大的连通分量。这种失败表明可能需要对图像进行测试时计算,因为模型仅依赖训练示例来推断转换规则,而不是逐步处理图像。

3.4任务分析:交叉/星形

虽然许多测试模型成功地解决了 Cross/Star 任务,但我们确定了两种值得注意的故障模式。

第一种失效模式与模型无法精确定位对象(如单元、行、列和对角线)有关。具体来说,模型通常无法识别高亮显示的单元格用作转换的锚点。这种限制似乎源于两个潜在的瓶颈:一方面,视觉组件可能难以在单元格在输入中的位置与结果行在输出中的位置之间建立直接对应关系。另一方面,如果模型能够以自然语言提取每个网格的精确位置信息(而不是直接直观地比较),它可能会缓解这个问题;然而,我们的研究结果表明,它也缺乏这种能力。

第二种失效模式涉及对角线结构的生成。即使模型正确识别了变换规则和对角线的方向(例如,右上角),它也经常无法完全扩展对角线。在许多情况下,模型只完成锚点之后对角线的上半部分,而忽略了前一部分。此外,一些模型在错误的位置生成对角线,尽管它正确地阐明了它应该锚定在给定的输入单元格上。这些发现表明,该模型难以有效地跨模态集成信息,具体来说,就是将空间知识从视觉输入转移到语言推理,然后将其正确应用于输出网格。

3.5QVQ-72B-Preview 推理模型分析

QVQ-72B-Preview 是唯一一个使用强化学习进行训练的推理模型,以类似于 OpenAI 的 o 系列模型来解决我们基准测试中的问题。当我们查看模型的输出时,我们意识到模型有一个清晰的推理模式:即使模型应该进行视觉推理,它也遵循:

  1. 1. 

    将输入输出图像提取为文本。

  2. 2. 

    进行基于文本的推理来解决问题。

尽管正确提取图像对于解决任务是必要的,但我们也希望模型将视觉和语言理解混合在一起,而不是仅将图像用于提取目的。我们推测这是在 Geometry3k 等数据集上训练的模型的产物[11]提取并解决问题即可获得奖励。相反,EasyARC 提供了一个基准,其中 VLM 必须与图像交互并进行一些真正的视觉推理,而不仅仅是提取。

4结论

我们推出了 EasyARC,这是第一个旨在评估视觉语言模型中真实视觉推理的基准测试。与专注于视觉提取的现有基准测试不同,EasyARC 需要多步骤推理、假设形成和迭代验证。我们的结果表明,最先进的自动立体货柜甚至难以完成简单的 EasyARC 任务,凸显了视觉认知方面的根本差距。凭借其可扩展的数据生成和结构化难度级别,EasyARC 为研究视觉推理中的测试时间缩放和强化学习策略提供了一个有价值的测试平台。我们发布数据集和评估代码,以促进这一方向的进一步研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910129.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910129.shtml
英文地址,请注明出处:http://en.pswp.cn/news/910129.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决uni-app发布微信小程序主包大小限制为<2M的问题

一 问题说明 我想用uniapp开发多端应用,引入了uview组件库来美化样式,可发布为微信小程序却提示我代码质量不过关,主包代码量太大了: 二 问题分析 2.1 原生微信小程序开发代码质量限制: 1.主包代码大小不得大于2M&…

使用 OpenCV 和传统机器学习实现工业开关状态识别

在工业自动化领域,开关状态的检测对于监控设备运行状态至关重要。通过图像识别技术,我们可以快速、准确地判断开关是否处于开闸、合闸、分闸或中间状态。本文将介绍如何结合 OpenCV 和传统机器学习方法实现这一目标。 一、背景与挑战 在工业环境中&…

WebFuture:模板如何加上简繁切换?

问题描述&#xff1a;模板如何加上简繁切换&#xff1f; 解决方法&#xff1a;在模板找到合适位置调用系统自带的stot.js文件&#xff0c;添加以下简繁调用代码&#xff0c;一般在网站顶部标签里面添加。 <script type"text/javascript" src"~/content/(thi…

手阳明大肠经之上廉穴

个人主页&#xff1a;云纳星辰怀自在 座右铭&#xff1a;“所谓坚持&#xff0c;就是觉得还有希望&#xff01;” 上廉又名&#xff1a; 1.手上廉。 2.手之上廉。 所属经络&#xff1a;手阳明大肠经 定位 在前臂背面桡侧&#xff0c;当阳溪穴与曲池穴连线上&#xff0c;肘横纹下…

tkinter 的 place() 布局管理器学习指南

place() 是 tkinter 中三种布局管理器之一&#xff0c;它允许你通过精确的坐标和尺寸来定位组件。下面我将详细介绍 place() 的使用方法。 tk.Label(root, text"坐标x50,y30").place(x50, y30) 这行代码创建了一个标签&#xff0c;并将其放置在窗口的 (50, 30) 坐标…

物体变化下的迈克尔逊干涉:条纹密度、载波解调与双曝光去畸变

▒▒本文目录▒▒ 一、摘要二、连续物体——四步相移算法三、连续物体-空间载波法-数值拟合法去畸变四、连续物体-空间载波法-双曝光去畸变五、混叠干涉条纹六、推荐阅读七、实验指导与matlab代码获取 一、摘要 迈克尔逊干涉仪光路原理如下图所示。其中&#xff0c;平面反射镜…

湖北理元理律师事务所:债务优化中的法律风险控制体系

实务痛点&#xff1a;75%的债务恶化源于不当协商&#xff08;来源&#xff1a;2024《中国个人债务管理白皮书》&#xff09; 一、协商谈判的“三要三不要” 要 ✅ 以书面《债务重组建议函》启动沟通 ✅ 引用具体法律条文&#xff08;如网贷利率上限依据法释〔2020〕27号&…

【PmHub面试篇】PmHub 缓存与数据库一致性的面试专题分析

在分布式系统开发中&#xff0c;缓存与数据库的一致性问题是后端开发面试的核心考点之一。本文结合 PmHub 项目实践&#xff0c;整理高频面试题及深度解答&#xff0c;帮助开发者系统掌握缓存一致性解决方案的设计与实现。若想对相关内容有更透彻的理解&#xff0c;强烈推荐参考…

游戏行业对于服务器类型该怎样进行选择

大型的网络游戏和多人在线游戏对于服务器类型的选择还是有着一定要求的&#xff0c;在游戏运行的过程中一般需要处理大量的数据&#xff0c;如玩家的实时操作和游戏场景渲染等多种内容&#xff0c;较为热门的在线游戏&#xff0c;在线玩家数量会非常庞大&#xff0c;这需要服务…

Android Studio安装遇到的问题

一、现况 1.1 安装时间 2025-06 1.2由于本人操作系统是win7的&#xff0c;android studio最新版支持的最低要求官方是win11,16G&#xff0c;所以我下载的是android studio的版本&#xff0c;版本信息android-studio-2024.1.2.12-windows jdk用的是1.8&#xff0c; gradle用的…

[论文阅读] 人工智能 + 软件工程 | 用大语言模型架起软件需求形式化的桥梁

用大语言模型架起软件需求形式化的桥梁 论文信息 misc{beg2025short,title{A Short Survey on Formalising Software Requirements with Large Language Models}, author{Arshad Beg and Diarmuid ODonoghue and Rosemary Monahan},year{2025},eprint{2506.11874},archivePre…

0_1面向对象

基本套路 题目描述 往往非常简单,如:设计一个XX系统。或者:你有没有用过XXX,给你看一下它的界面和功能,你来设计一个。阐述题意 面试者需向面试官询问系统的具体要求。如,需要什么功能,需要承受的流量大小,是否需要考虑可靠性,容错性等等。面试者提供一个初步的系统设…

mumu模拟器鼠标侧键返回

把图片中的“点击鼠标右键“操作换成点侧键 参考文章&#xff1a;你们要的鼠标右键返回来啦【mumu模拟器吧】_百度贴吧

软件公司进军无人机领域的战略指南与生态合作全景-优雅草卓伊凡

软件公司进军无人机领域的战略指南与生态合作全景-优雅草卓伊凡 那么找到细分领域我们应该如何开始真正加入无人机开发的梯队呢&#xff0c;卓伊凡看了大疆创新加入成为认证开发者也是非常不错的选择。 引言&#xff1a;无人机产业的黄金机遇 根据德勤2023年全球无人机解决方…

键盘觉醒:Raycast 把 Mac 变成「AI 指令战舰」

在 Mac 上追逐效率的脚步&#xff0c;从未停歇。从早期的 Alfred 到系统内置的 Spotlight&#xff0c;这些工具虽好用&#xff0c;却总让人觉得功能边界清晰&#xff0c;变化有限。直到 Raycast 出现&#xff0c;彻底重塑了这个品类的想象空间。它集启动应用、查找文件、单位换…

宇宙尽头是WPS之——【Excel】一个自动重新排序的宏

1. 目的 你是否在做一个表格排序&#xff0c;但只能知道某几个行之间的相对顺序&#xff0c;而可能排着排着发现后面还有顺序更靠前的项&#xff0c;而不得不将排好的序号重新11…… 所以你需要一个宏&#xff0c;它可以知道你输入了一个已经存在的序号&#xff0c;并以那个序…

Sharding-jdbc使用(一:水平分表)

说明&#xff1a;Sharding-jdbc是常见的分库分表工具&#xff0c;本文介绍Sharding-jdbc的基础使用。 分库分表 首先&#xff0c;介绍一下分库分表&#xff1a; &#xff08;1&#xff09;分库 水平分库&#xff1a;以字段为依据&#xff0c;按照一定策略&#xff08;hash、…

处理器指令中的函数调用指令是什么?

处理器指令中的函数调用指令是什么? 函数调用指令是处理器指令集中用于实现函数(或子程序)调用和返回的专用指令。它们是支持结构化编程和代码复用的硬件基础。核心指令通常包括: 调用指令 (CALL / BL / BLX 等): 功能: 暂停当前函数的执行,跳转到目标函数(被调用函数)…

CHASE、CoSQL、SPARC概念介绍

CHASE&#xff1a;一个跨领域多轮交互text2sql中文数据集&#xff0c;包含5459个多轮问题组成的列表&#xff0c;一共17,940个<query, SQL>二元组&#xff0c;涉及280个不同领域的数据库。CoSQL&#xff1a;一个用于构建跨域对话文本到sql系统的语料库。它是Spider和SPar…

设备巡检系统小程序ThinkPHP+UniApp

基于ThinkPHP和Uniapp开发的设备巡检系统&#xff0c;可应用于电力、水利、物业等巡检场景&#xff0c;可编译微信小程序。提供全部无加密源码&#xff0c;可私有化部署。 ​功能特性 部门管理 后台可以设置多部门&#xff0c;便于筛选员工 员工管理 后台维护员工信…