大家读完觉得有帮助记得及时关注和点赞！！！

抽象

基于基于语言的推理模型的最新进展，我们探索了集成视觉和文本的多模态推理。现有的多模态基准测试主要测试视觉提取与基于文本的推理相结合，缺乏真正的视觉推理和视觉与语言之间更复杂的交互。受 ARC 挑战赛的启发，我们推出了 EasyARC，这是一种需要多图像、多步骤推理和自我校正的视觉语言基准测试。EasyARC 是程序生成的，完全可验证且可扩展，使其成为强化学习（RL）管道的理想选择。生成器包含渐进的难度级别，支持跨任务类型和复杂性进行结构化评估。我们对最先进的视觉语言模型进行基准测试并分析它们的失效模式。我们认为 EasyARC 为评估视觉语言模型中的真实推理和测试时间缩放能力设定了新标准。我们开源了基准测试数据集和评估代码。

1介绍

人工智能研究的长期目标是开发能够推理和回答有关视觉信息问题的系统。许多基准测试评估了视觉语言模型（VLM）的视觉推理能力。以前的工作创建了视觉问答（VQA）基准测试，其中向模型询问（开放式）有关理解合成生成或创建真实世界场景的问题[2] [7].其他基准包括图像组件的几何问题数据集[11] [3].然而，这些基准测试侧重于提取信息，而不是真正的视觉理解和推理。在本文中，我们介绍了 EasyARC：一个真正的视觉推理基准测试，其灵感来自抽象推理挑战 ARC[5].我们相信 EasyARC 解决了多模态 AI 中的一个关键差距：在简单的信息提取之外执行真实视觉推理的能力。

图 1：EasyARC 的示例任务：转换是识别非背景色的最大连通分量，并用展平的分量填充答案。所有 SoTA 自动立体货柜都难以理解或解决这个例子。

本文的其余部分组织如下。在第 2 节中，我们介绍了 ARC 挑战赛以及 EasyARC 以及我们创建数据集的动机。在第 3 节中，我们在 EasyARC 上评估了最先进的 VLM，证明当前的模型在这个非常简单的基准上失败了。此外，我们探索了这些模型的失效模式，试图了解这项任务的缺失组件并规划未来的研究方向。

2EasyARC 数据集

2.1原创 ARC 挑战赛

ARC 挑战乔莱特 [4]被设计为抽象推理的基准，易于记忆。它类似于 Raven 的渐进矩阵，其中提供了一个数字矩阵，考生必须填写最后一个缺失的数字。但是，在 ARC 设置中，我们反而有许多由输入和输出网格组成的示例，这些示例在它们之间需要一个隐藏的转换规则。为了证明找到了正确的转换规则，应试者随后获取一个或多个测试输入网格，并构建与基本实况相对应的输出网格。

请参阅标题

图 2：来自公共评估集的示例 ARC 任务：从视觉上看，此任务很简单，因为它类似于以三维方式堆叠矩形。

ARC 最初由 400 个训练样本和 400 个评估样本组成。ARC 的常见方法包括（LLM 指导的）程序综合和转导推理以及额外的测试时间训练[10] [1] [9].在这两种情况下，训练示例和测试输入网格通常直接以语言的形式提供。Li 等人。 [10]证明这两种推理模式对于解决 ARC 挑战是互补的。受此启发，我们研究了视觉推理是否可以补充解决 ARC 问题的现有方法。这种动机源于人类主要依靠视觉来解决 ARC 问题的观察。一些模式在视觉领域中变得很明显，但当通过网格的冗长自然语言表示进行描述时，可能会显得复杂。

2.2EasyARC 公司

我们最初在 ARC 上评估了 VLM，希望它们能够泛化。然而，即使是最先进的模型——无论是开源还是闭源——在仅提供图像时得分也接近 0%。这种失败揭示了一个根本的局限性：VLM 难以进行空间推理和基于网格的转换。

为了促进更有意义的评估，我们开发了 EasyARC，其任务在精神上与最初的 ARC 挑战相似，但需要更简单的空间/视觉理解。由于 ARC 挑战的训练数据集非常小，因此 ARC 的非视觉方法通常依赖于合成数据的生成[6,10,1].具体说来Li 等人。 [10]将 400 个原始训练示例分类为 160 个种子任务，每个任务都用人工编写的 Python 代码进行注释，用于生成示例、自然语言描述和概念标签。从这种方法中汲取灵感，我们设计了生成器，可以创建三个难度级别的任务：简单、中等和困难。更高的级别通常需要之前级别的超集技能。由于网格大小、颜色排列、形状位置、轴和其他因素的组合可能性，每个单独的任务都会生成大量示例。

对于初步评估，我们选择了五个问题类别，它们涵盖了一组不同的概念：

•

十字架，星号：向模型介绍网格上的基本几何形状（例如，行、列、对角线）及其各自的锚点。
•

细胞计数：需要识别和计数均匀背景上的单个单元格或连续形状。
•

双网格：涉及在应用水平翻转或颜色翻转时复制图案。
•

优势侧：需要了解图像的各个部分（例如，左侧或上侧）。变换以主侧的颜色为整个图像着色，同时过滤掉或保留分散注意力的杂色像素。
•

Drop One Color（拖放一种颜色）：涉及将一种颜色转换为另一种颜色，同时保留第三种不受影响的颜色。目标是确定哪些颜色映射适用。

我们分别为每个类别生成 1000 个和 100 个随机样本用于训练和测试拆分。对于所有任务，我们从概率为 0.5、0.35 和 0.15 的简单、中等和困难类别中抽样，样本行数和列数在 3 到 10 之间均匀随机，除非任务有特定要求。这会产生一个包含 5000 个训练样本和 500 个测试样本的多样化数据集。我们在附录中描述了详细的任务描述，并附上了图片。

2.3自动立体货柜测试时扩展的基准

EasyARC 是视觉模型中测试时间缩放的理想测试平台。具体而言，EasyARC 是：

1.

真实推理基准：EasyARC 任务需要多步骤推理，包括假设形成（例如，“预测少数单元格颜色”）、迭代验证（例如，“但示例 2 有一个 1x2 的蓝色网格而不是单一颜色”）、假设细化和替代视角。
2.

合成且易于扩展：EasyARC 允许通过可配置的参数（如网格大小和难度概率）灵活地创建数据集。我们的数据集包括 5000 个训练任务和 500 个评估任务，我们将与生成器一起发布。此外，还可以无缝集成新的发电机。
3.

核查：由于该任务需要精确的输出网格预测，因此评估非常简单。这避免了对开放式 VQA 等代理的依赖，其中复杂的多步骤推理任务通常会牺牲可验证性。
4.

渐进难度级别：我们可以逐步调整任务难度，以在 RL 管道中提供结构化的学习信号，从而深入了解训练动态。
5.

多图像推理：每个示例由多个 input-output 图像对组成。模型必须正确地关联对，关注它们的转换，描述它们，并相应地进行概括。

这些特性使 EasyARC 特别适合强化学习（RL）管道，其中基本问题数据集的难度分布至关重要。

3SoTA 自动柜员机的评估

在本节中，我们展示了我们对 SoTA 自动柜车在 EasyARC 基准测试中的性能的发现。我们评估了闭源模型，如 Claude 3.7 Sonnet 和 GPT4o-mini，以及小型和大型开源模型，如 QVQ-72B-Preview、Qwen2.5-VL-7B-Inform 和 Gemma3-27B-Instruct。我们将输入输出网格的堆叠图像以及描述任务的文本提示传递给所有模型。由于预算限制，我们使用 0.5 的低温并从每个模型中收集 1 个样本。尽管我们的基准测试设计得非常简单，但我们发现除了 Claude 3.7 Sonnet 之外的所有模型在这项任务上都表现出较弱的性能，得分低于 %20。我们在附录中分享了这个提示。

Refer to caption

图 3：EasyARC 上自动立体货柜的成功率

我们无法广泛评估 OpenAI o 系列模型，因为截至我们撰写本文时，API 访问不允许图像。通过我们的人工评估，我们预计 o3-mini 的得分介于 Claude 3.7 Sonnet 和 GPT4o-mini 之间。

3.1故障模式

为了更好地了解 EasyARC 上自动柜员机面临的挑战，我们手动分析了它们的输出。

3.2Claude 能看到什么？

Claude 3.7 Sonnet 是唯一一个展示一定程度的真正视觉推理的模型。为了分析其局限性，我们按问题类别细分其成功率。

Refer to caption

图 4：Claude 3.7 的题型成功率。

为了有意义地解释此图，回想一下，每个类别都包含分别从简单、中等和困难级别以 0.5、0.35 和 0.15 的概率采样的问题。我们观察到，该模型在 Counting Cells 方面最困难，这需要精确计算特定颜色的连通分量。相比之下，它在 Drop One Color 和 Dominant Side 上的表现要好得多，前者只是标识缺失的颜色，后者确定图像的哪一侧决定输出颜色。

这些结果表明，该模型感知到图像的“模糊”表示，即捕获高级特征，同时缺少精细细节。值得注意的是，它的大部分成功都来自简单的任务;一旦引入 Noise 或映射变得更加复杂，其性能就会下降。这凸显了其泛化能力超越简单模式识别的根本局限性。

3.3任务分析：细胞计数

下面，我们提供了一个 Counting Cells 任务的示例输入输出示例，其中模型只需找到少数颜色的最大连通分量，并计算该分量中的单元格数。所有模型，包括最成功的 Claude 3.7 十四行诗，都未能理解这种转变。

图 5：用于计数单元格任务的输入-输出示例

该模型通常确定输出应该是少数颜色的，这允许它解决此任务的简单版本。但是，模型无法“更长时间”地查看图像，以意识到它应该找到并计算最大的连通分量。这种失败表明可能需要对图像进行测试时计算，因为模型仅依赖训练示例来推断转换规则，而不是逐步处理图像。

3.4任务分析：交叉/星形

虽然许多测试模型成功地解决了 Cross/Star 任务，但我们确定了两种值得注意的故障模式。

第一种失效模式与模型无法精确定位对象（如单元、行、列和对角线）有关。具体来说，模型通常无法识别高亮显示的单元格用作转换的锚点。这种限制似乎源于两个潜在的瓶颈：一方面，视觉组件可能难以在单元格在输入中的位置与结果行在输出中的位置之间建立直接对应关系。另一方面，如果模型能够以自然语言提取每个网格的精确位置信息（而不是直接直观地比较），它可能会缓解这个问题;然而，我们的研究结果表明，它也缺乏这种能力。

第二种失效模式涉及对角线结构的生成。即使模型正确识别了变换规则和对角线的方向（例如，右上角），它也经常无法完全扩展对角线。在许多情况下，模型只完成锚点之后对角线的上半部分，而忽略了前一部分。此外，一些模型在错误的位置生成对角线，尽管它正确地阐明了它应该锚定在给定的输入单元格上。这些发现表明，该模型难以有效地跨模态集成信息，具体来说，就是将空间知识从视觉输入转移到语言推理，然后将其正确应用于输出网格。

3.5QVQ-72B-Preview 推理模型分析

QVQ-72B-Preview 是唯一一个使用强化学习进行训练的推理模型，以类似于 OpenAI 的 o 系列模型来解决我们基准测试中的问题。当我们查看模型的输出时，我们意识到模型有一个清晰的推理模式：即使模型应该进行视觉推理，它也遵循：

1.

将输入输出图像提取为文本。
2.

进行基于文本的推理来解决问题。

尽管正确提取图像对于解决任务是必要的，但我们也希望模型将视觉和语言理解混合在一起，而不是仅将图像用于提取目的。我们推测这是在 Geometry3k 等数据集上训练的模型的产物[11]提取并解决问题即可获得奖励。相反，EasyARC 提供了一个基准，其中 VLM 必须与图像交互并进行一些真正的视觉推理，而不仅仅是提取。

4结论

我们推出了 EasyARC，这是第一个旨在评估视觉语言模型中真实视觉推理的基准测试。与专注于视觉提取的现有基准测试不同，EasyARC 需要多步骤推理、假设形成和迭代验证。我们的结果表明，最先进的自动立体货柜甚至难以完成简单的 EasyARC 任务，凸显了视觉认知方面的根本差距。凭借其可扩展的数据生成和结构化难度级别，EasyARC 为研究视觉推理中的测试时间缩放和强化学习策略提供了一个有价值的测试平台。我们发布数据集和评估代码，以促进这一方向的进一步研究。