作者：Xiaobei Zhao, Xingqi Lyu, Xiang Li
单位：中国农业大学
论文标题：AgriVLN: Vision-and-Language Navigation for Agricultural Robots
论文链接：https://arxiv.org/pdf/2508.07406v1
代码链接：https://github.com/AlexTraveling/AgriVLN

主要贡献

提出了A2A基准测试，这是一个覆盖6种常见农业场景（农场、温室、森林、山区、花园和村庄）的视觉语言导航（VLN）基准测试，包含1560个episode，所有真实RGB视频都是由四足机器人前端摄像头在0.38米高度拍摄的，与实际部署条件一致。
提出了视觉语言导航农业机器人（AgriVLN）基线方法，基于视觉语言模型（VLM），通过精心设计的模板提示，能够理解给定的指令和农业环境，为机器人控制生成适当的低级动作。
提出了子任务列表（STL）指令分解模块，并将其集成到AgriVLN中，在A2A基准测试上，与基线相比，完整模型将成功率（SR）从0.305提高到0.417，并且进一步与其他现有VLN方法进行比较，证明了其在农业领域视觉语言导航方面的最新性能。

研究背景

农业机器人在农业任务中发挥着重要作用，但目前大多数农业机器人的移动仍然依赖于人工操作或固定的轨道，这限制了它们的机动性和适应性。
视觉语言导航（VLN）能够使机器人根据自然语言指令导航到目标位置，并且在多个领域表现出色，但现有的基准测试和方法都没有专门针对农业场景设计。
现有的VLN基准测试主要集中在室内环境或城市街道等场景，而农业场景具有其独特性，如不同的地形、植被分布和光照条件等，因此需要一个专门针对农业场景的VLN基准测试来评估农业机器人的导航能力。

A2A基准

任务定义

视觉语言导航（VLN）在农业机器人中的任务定义如下：在每个实验场景（episode）中，模型被赋予一条自然语言指令，其中是单词的数量。在每个时间步，模型接收前向RGB图像。模型的目标是理解指令和图像，从而选择最佳的低级动作（动作空间包括：前进、左转、右转、停止），引导机器人从起点导航到目标位置。

数据集收集

数据收集涵盖了6种不同的农业场景分类：农场、温室、森林、山脉、花园和村庄，这些场景涵盖了所有常见的农业场景。

指令生成：在每个实验场景中，专家重现实际的农业活动，并提取人类移动的轨迹，然后精心设计一条准确的指令来描述该轨迹。与传统VLN基准测试中精致简洁的指令不同，A2A中的指令更加随意且冗长，包含许多无意义和误导性的内容，以更真实地还原农业工人说话的语气。
机器人控制：选择Unitree Go2Air四足机器狗作为实验农业机器人。在每个实验场景中，专家手动控制机器人沿着从起点到终点的最佳路径行走，以完成相应的指令。
视频录制：使用Unitree Go2Air四足机器狗内置的前向RGB摄像头作为视频录制设备。在每个实验场景中，专家手动控制摄像头记录整个时间线的前向视图。每个视频流以1280×720的分辨率、约14FPS的帧率和约1100kbps的码率进行捕获。
数据标注：对于每个时间步，专家根据机器人的实际行走状态手动标注机器人的真值动作。将相邻相同的动作序列 ({a_{t1}, a_{t1+1}, \dots, a_{t2}}) 聚合成一个时间间隔，并以字典格式保存。每个实验场景由多个这样的时间间隔组成，以JSON格式存储。

数据集评估

数据规模与分布：A2A基准测试共收集了1560个实验场景，分布在6种不同的场景分类中，包括农场372个、温室258个、森林384个、山脉198个、花园258个和村庄90个。指令长度从10到99不等，平均长度为45.5，子任务数量从2到8不等，平均为2.6。

词汇分布：A2A中的指令词汇包含893个单词，其中“front”、“camera”和“view”是常用的名词，而“go”、“stop”和“need”是常用的动词。这些词汇都是日常生活中常见的，证明了A2A指令与农业工人对话的语气一致性。
与其他基准测试的比较：A2A在多个方面与其他主流VLN基准测试进行了比较，包括场景多样性、图像质量和数据规模。A2A涵盖了所有常见的农业场景，图像采集条件与实际农业机器人一致，并且提供了更长的指令以更好地评估模型对长文本的理解能力。

评估指标

成功率（SR）：成功完成任务的实验场景比例。
导航误差（NE）：机器人最终位置与目标位置之间的距离。
独立成功率（ISR）：每个子任务的成功率，计算公式为：其中和分别是实验场景中成功的子任务数量和总子任务数量，是评估实验场景的集合。

方法

子任务列表

子任务列表模块将指令分解为一系列子任务，使模型能够逐步完成复杂的导航任务。具体步骤如下：

指令分解：将指令分解为子任务列表，每个子任务包含四个参数：步骤顺序（ID）、具体描述（D）、开始条件（SC）、结束条件（EC）和当前状态（σ）。
大型语言模型（LLM）：使用LLM 实现指令分解，公式为：其中是LLM的提示，遵循以下三个原则：
- 颗粒原则：任何子任务都不能进一步分解为更细的子任务。
- 同义词原则：子任务列表传达的语义必须与原始指令等价，确保不遗漏或添加任何信息。
- 连接原则：下一个子任务的开始条件必须与上一个子任务的结束条件对齐。

决策制定

决策制定模块使用视觉语言模型（VLM）来实现，具体步骤如下：

输入与输出：在每个时间步，VLM接收当前摄像头视图和子任务列表，并输出最佳低级动作、状态转换和推理过程：其中是VLM的提示。
状态转换机制：子任务的状态分为三种：待处理（pending）、进行中（doing）和已完成（done）。状态转换遵循以下原则：
- 待处理 → 进行中：当且仅当上一个子任务已完成，并且VLM认为当前子任务应该开始。
- 进行中 → 已完成：当且仅当当前子任务处于进行中状态，并且VLM认为当前子任务已完成。
注意力聚焦：在每个时间步，VLM只需要关注一个子任务，具体如下：
- 如果存在一个子任务的状态为进行中，则VLM关注该子任务。
- 如果没有子任务的状态为进行中，则VLM关注第一个待处理的子任务。

实验

实验设置

为了确保实时处理能力，论文选择了轻量级的 GPT-4.1mini 作为指令分解的大型语言模型（LLM）和决策模型的视觉语言模型（VLM），并通过API访问。这种选择是为了确保模型在实际农业机器人上的实时性和高效性。

定性实验

为了帮助读者更好地理解AgriVLN方法，论文通过一个具体的实验场景进行了定性实验。实验中，AgriVLN将指令分解为子任务列表，然后按顺序完成每个子任务，从而实现整个指令的导航任务。具体步骤如下：

指令分解：将复杂的指令分解为多个子任务，每个子任务都有明确的开始和结束条件。
逐步执行：模型依次执行每个子任务，直到完成所有子任务，从而实现从起点到目标位置的导航。

上图展示了定性实验的一个代表性场景，其中AgriVLN成功地将指令分解为子任务，并按顺序完成每个子任务。论文还提供了五个更多的例子，以展示AgriVLN在不同场景下的表现。

比较实验

论文将AgriVLN与多种基线方法和最新方法进行了比较，以验证其性能。具体设置如下：

基线方法：
- Random：随机选择动作。
- GPT-4.1mini with prompt：仅使用GPT-4.1mini进行决策，不使用子任务列表。
- Human：人类专家的性能，作为参考标准。
最新方法：
- SIA-VLN（Hong et al. 2020）：基于规则的指令分解方法。
- DILLM-VLN（Wang et al. 2025a）：基于LLM的指令分解方法。

结果分析

Random：随机方法的性能极差，证明了基准测试的有效性和公平性。
Human：人类专家的性能接近完美，证明了基准测试的合理性。
GPT-4.1mini with prompt：仅使用GPT-4.1mini进行决策时，成功率（SR）为0.33，导航误差（NE）为2.76。
SIA-VLN：在简单指令（子任务数量为2）时表现良好，但在复杂指令（子任务数量≥3）时性能下降。
DILLM-VLN：在简单指令时表现良好，但在复杂指令时性能保持稳定，证明了LLM在指令分解中的有效性。
AgriVLN：在所有实验场景中，AgriVLN的SR为0.47，NE为2.91，综合性能超过了所有现有方法，尽管与人类表现仍有差距，但已展现出在农业领域视觉语言导航中的最佳性能。

消融实验

不同视觉语言模型的影响

论文测试了三种轻量级VLM：Gemini-1.5 flash、Llama-4 maverick 和 GPT-4.1mini。结果表明，GPT-4.1mini在成功率（SR）和导航误差（NE）上均优于其他两种VLM，因此被选为AgriVLN的VLM。

子任务列表模块的影响

论文通过消融实验验证了子任务列表（STL）模块的重要性。实验结果表明，当子任务数量增加时，STL模块对性能的提升作用愈发明显。

不同场景分类下的性能

论文还统计了AgriVLN在A2A不同场景分类下的性能，发现尽管不同场景的指令平均长度相对一致，但AgriVLN在不同场景下的表现存在显著差异。这可能是由于场景分类之间的细微差异（如背景杂乱、障碍物密度和光照条件）对模型的视觉感知能力提出了不同程度的挑战。

结论与未来工作

结论：
- 该论文提出了A2A基准测试和AgriVLN方法，通过引入子任务列表（STL）模块，有效地提高了农业机器人在视觉语言导航任务中的性能，特别是在处理长指令时。
- 然而，AgriVLN仍然存在一些不足之处，如对模糊指令的理解不准确和对空间距离的识别不准确。
未来工作：
- 未来的工作将致力于改进这些缺点，并进一步探索在实际农业场景中部署该方法，以提高农业机器人的自主性和适应性。