图片

  • 作者:Xiaobei Zhao, Xingqi Lyu, Xiang Li

  • 单位:中国农业大学

  • 论文标题:AgriVLN: Vision-and-Language Navigation for Agricultural Robots

  • 论文链接:https://arxiv.org/pdf/2508.07406v1

  • 代码链接:https://github.com/AlexTraveling/AgriVLN

主要贡献

  • 提出了A2A基准测试,这是一个覆盖6种常见农业场景(农场、温室、森林、山区、花园和村庄)的视觉语言导航(VLN)基准测试,包含1560个episode,所有真实RGB视频都是由四足机器人前端摄像头在0.38米高度拍摄的,与实际部署条件一致。

  • 提出了视觉语言导航农业机器人(AgriVLN)基线方法,基于视觉语言模型(VLM),通过精心设计的模板提示,能够理解给定的指令和农业环境,为机器人控制生成适当的低级动作。

  • 提出了子任务列表(STL)指令分解模块,并将其集成到AgriVLN中,在A2A基准测试上,与基线相比,完整模型将成功率(SR)从0.305提高到0.417,并且进一步与其他现有VLN方法进行比较,证明了其在农业领域视觉语言导航方面的最新性能。

研究背景

图片

  • 农业机器人在农业任务中发挥着重要作用,但目前大多数农业机器人的移动仍然依赖于人工操作或固定的轨道,这限制了它们的机动性和适应性。

  • 视觉语言导航(VLN)能够使机器人根据自然语言指令导航到目标位置,并且在多个领域表现出色,但现有的基准测试和方法都没有专门针对农业场景设计。

  • 现有的VLN基准测试主要集中在室内环境或城市街道等场景,而农业场景具有其独特性,如不同的地形、植被分布和光照条件等,因此需要一个专门针对农业场景的VLN基准测试来评估农业机器人的导航能力。

图片

A2A基准

任务定义

视觉语言导航(VLN)在农业机器人中的任务定义如下:在每个实验场景(episode)中,模型被赋予一条自然语言指令 ,其中  是单词的数量。在每个时间步 ,模型接收前向RGB图像 。模型的目标是理解指令  和图像 ,从而选择最佳的低级动作 (动作空间包括:前进、左转、右转、停止),引导机器人从起点导航到目标位置。

数据集收集

数据收集涵盖了6种不同的农业场景分类:农场、温室、森林、山脉、花园和村庄,这些场景涵盖了所有常见的农业场景。

  • 指令生成:在每个实验场景中,专家重现实际的农业活动,并提取人类移动的轨迹,然后精心设计一条准确的指令来描述该轨迹。与传统VLN基准测试中精致简洁的指令不同,A2A中的指令更加随意且冗长,包含许多无意义和误导性的内容,以更真实地还原农业工人说话的语气。

  • 机器人控制:选择Unitree Go2Air四足机器狗作为实验农业机器人。在每个实验场景中,专家手动控制机器人沿着从起点到终点的最佳路径行走,以完成相应的指令。

  • 视频录制:使用Unitree Go2Air四足机器狗内置的前向RGB摄像头作为视频录制设备。在每个实验场景中,专家手动控制摄像头记录整个时间线的前向视图。每个视频流以1280×720的分辨率、约14FPS的帧率和约1100kbps的码率进行捕获。

  • 数据标注:对于每个时间步 ,专家根据机器人的实际行走状态手动标注机器人的真值动作。将相邻相同的动作序列 ({a_{t1}, a_{t1+1}, \dots, a_{t2}}) 聚合成一个时间间隔,并以字典格式保存。每个实验场景由多个这样的时间间隔组成,以JSON格式存储。

数据集评估

图片

  • 数据规模与分布:A2A基准测试共收集了1560个实验场景,分布在6种不同的场景分类中,包括农场372个、温室258个、森林384个、山脉198个、花园258个和村庄90个。指令长度从10到99不等,平均长度为45.5,子任务数量从2到8不等,平均为2.6。

图片

  • 词汇分布:A2A中的指令词汇包含893个单词,其中“front”、“camera”和“view”是常用的名词,而“go”、“stop”和“need”是常用的动词。这些词汇都是日常生活中常见的,证明了A2A指令与农业工人对话的语气一致性。

  • 与其他基准测试的比较:A2A在多个方面与其他主流VLN基准测试进行了比较,包括场景多样性、图像质量和数据规模。A2A涵盖了所有常见的农业场景,图像采集条件与实际农业机器人一致,并且提供了更长的指令以更好地评估模型对长文本的理解能力。

评估指标

  • 成功率(SR):成功完成任务的实验场景比例。

  • 导航误差(NE):机器人最终位置与目标位置之间的距离。

  • 独立成功率(ISR):每个子任务的成功率,计算公式为:其中  和  分别是实验场景  中成功的子任务数量和总子任务数量, 是评估实验场景的集合。

方法

图片

子任务列表

子任务列表模块将指令分解为一系列子任务,使模型能够逐步完成复杂的导航任务。具体步骤如下:

  • 指令分解:将指令  分解为子任务列表 ,每个子任务  包含四个参数:步骤顺序(ID)、具体描述(D)、开始条件(SC)、结束条件(EC)和当前状态(σ)。

  • 大型语言模型(LLM):使用LLM  实现指令分解,公式为:其中  是LLM的提示,遵循以下三个原则:

    • 颗粒原则:任何子任务都不能进一步分解为更细的子任务。

    • 同义词原则:子任务列表传达的语义必须与原始指令等价,确保不遗漏或添加任何信息。

    • 连接原则:下一个子任务的开始条件必须与上一个子任务的结束条件对齐。

决策制定

决策制定模块使用视觉语言模型(VLM)  来实现,具体步骤如下:

  • 输入与输出:在每个时间步 ,VLM接收当前摄像头视图  和子任务列表 ,并输出最佳低级动作 、状态转换  和推理过程 :其中  是VLM的提示。

  • 状态转换机制:子任务的状态分为三种:待处理(pending)、进行中(doing)和已完成(done)。状态转换遵循以下原则:

    • 待处理 → 进行中:当且仅当上一个子任务已完成,并且VLM认为当前子任务应该开始。

    • 进行中 → 已完成:当且仅当当前子任务处于进行中状态,并且VLM认为当前子任务已完成。

  • 注意力聚焦:在每个时间步 ,VLM只需要关注一个子任务,具体如下:

    • 如果存在一个子任务  的状态为进行中,则VLM关注该子任务。

    • 如果没有子任务的状态为进行中,则VLM关注第一个待处理的子任务 。

实验

实验设置

为了确保实时处理能力,论文选择了轻量级的 GPT-4.1mini 作为指令分解的大型语言模型(LLM)和决策模型的视觉语言模型(VLM),并通过API访问。这种选择是为了确保模型在实际农业机器人上的实时性和高效性。

定性实验

为了帮助读者更好地理解AgriVLN方法,论文通过一个具体的实验场景进行了定性实验。实验中,AgriVLN将指令分解为子任务列表,然后按顺序完成每个子任务,从而实现整个指令的导航任务。具体步骤如下:

  • 指令分解:将复杂的指令分解为多个子任务,每个子任务都有明确的开始和结束条件。

  • 逐步执行:模型依次执行每个子任务,直到完成所有子任务,从而实现从起点到目标位置的导航。

图片

上图展示了定性实验的一个代表性场景,其中AgriVLN成功地将指令分解为子任务,并按顺序完成每个子任务。论文还提供了五个更多的例子,以展示AgriVLN在不同场景下的表现。

比较实验

论文将AgriVLN与多种基线方法和最新方法进行了比较,以验证其性能。具体设置如下:

  • 基线方法

    • Random:随机选择动作。

    • GPT-4.1mini with prompt:仅使用GPT-4.1mini进行决策,不使用子任务列表。

    • Human:人类专家的性能,作为参考标准。

  • 最新方法

    • SIA-VLN(Hong et al. 2020):基于规则的指令分解方法。

    • DILLM-VLN(Wang et al. 2025a):基于LLM的指令分解方法。

结果分析

图片

  • Random:随机方法的性能极差,证明了基准测试的有效性和公平性。

  • Human:人类专家的性能接近完美,证明了基准测试的合理性。

  • GPT-4.1mini with prompt:仅使用GPT-4.1mini进行决策时,成功率(SR)为0.33,导航误差(NE)为2.76。

  • SIA-VLN:在简单指令(子任务数量为2)时表现良好,但在复杂指令(子任务数量≥3)时性能下降。

  • DILLM-VLN:在简单指令时表现良好,但在复杂指令时性能保持稳定,证明了LLM在指令分解中的有效性。

  • AgriVLN:在所有实验场景中,AgriVLN的SR为0.47,NE为2.91,综合性能超过了所有现有方法,尽管与人类表现仍有差距,但已展现出在农业领域视觉语言导航中的最佳性能。

消融实验

不同视觉语言模型的影响

图片

论文测试了三种轻量级VLM:Gemini-1.5 flashLlama-4 maverick 和 GPT-4.1mini。结果表明,GPT-4.1mini在成功率(SR)和导航误差(NE)上均优于其他两种VLM,因此被选为AgriVLN的VLM。

子任务列表模块的影响

图片

论文通过消融实验验证了子任务列表(STL)模块的重要性。实验结果表明,当子任务数量增加时,STL模块对性能的提升作用愈发明显。

不同场景分类下的性能

图片

论文还统计了AgriVLN在A2A不同场景分类下的性能,发现尽管不同场景的指令平均长度相对一致,但AgriVLN在不同场景下的表现存在显著差异。这可能是由于场景分类之间的细微差异(如背景杂乱、障碍物密度和光照条件)对模型的视觉感知能力提出了不同程度的挑战。

结论与未来工作

  • 结论

    • 该论文提出了A2A基准测试和AgriVLN方法,通过引入子任务列表(STL)模块,有效地提高了农业机器人在视觉语言导航任务中的性能,特别是在处理长指令时。

    • 然而,AgriVLN仍然存在一些不足之处,如对模糊指令的理解不准确和对空间距离的识别不准确。

  • 未来工作

    • 未来的工作将致力于改进这些缺点,并进一步探索在实际农业场景中部署该方法,以提高农业机器人的自主性和适应性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/94811.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/94811.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/94811.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Zynq开发实践(Verilog、仿真、FPGA和芯片设计)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】zynq最大的优势,就是把arm和fpga结合在一起了。这样一颗soc里面,就可以用软件去驱动外设ip,这是之前没有过的体验…

LabVIEW刺激响应测量解析

​该 LabVIEW 程序用于刺激 - 响应测量,实现测试信号生成、响应采集及测量分析,涵盖信号同步、并行处理等概念,用于设备总谐波失真(THD)等电信号特性测量场景,借助 LabVIEW 图形化编程优势,将复…

Boosting(提升法)详解

一、引言在集成学习(Ensemble Learning)中,Boosting(提升法) 是一种非常经典且强大的方法。它通过将多个弱学习器(Weak Learners)进行迭代组合,逐步提升整体的预测性能,从…

宠物智能手机PetPhone技术解析:AI交互与健康监测的系统级创新

当你的宠物通过AI自主接听视频通话,背后是计算机视觉与边缘计算的技术融合。全球首款宠物智能手机正在重新定义跨物种人机交互。近日,亚洲宠物展览会上亮相的PetPhone引发了技术社区的广泛关注。这款专为宠物设计的智能设备集成了多项技术创新&#xff0…

智慧零售商品识别误报率↓74%!陌讯多模态融合算法在自助结算场景的落地优化

原创声明:本文为原创技术解析文章,核心技术参数与架构设计引用自 “陌讯技术白皮书”,禁止未经授权的转载与篡改。文中算法逻辑与实战方案均基于陌讯视觉算法 v3.2 版本展开,所有实测数据均来自智慧零售场景下的真实部署环境。一、…

ArcGIS学习-9 ArcGIS查询操作

前置操作加载数据修改坐标系修改单位属性查询单条件查询打开安徽省县界的属性表多条件查询值得注意的是,不加括号和前面加括号,查出来的结果一致(35条记录)而后面加括号,查询结果与之前的不一致(25条记录&a…

A-Level物理课程全解析:知识点、学习计划与培训机构推荐

A-Level物理课程是国际教育体系中的重要科目,不仅为大学理工科专业打下基础,也培养学生的科学思维与实验能力。本文将从核心知识点解析、高效学习计划制定,以及优质培训机构推荐三个方面,为学生和家长提供全面、实用的指南。一、A…

Linux 进阶之性能调优,文件管理,网络安全

一、系统性能调优系统性能调优是 Linux 管理中的关键技能,它能显著提升系统在不同应用场景下的表现。通过针对性的调优,可以解决资源瓶颈问题,提高服务响应速度,优化资源利用率。(一)CPU 性能调优知识点详解…

【科普向-第五篇】MISRA C实战手册:规则与指令全解析

目录 引言 1.1 起源与目的 1.2 规则体系结构 一.变量与类型(Rule 1–9) Rule 1.1 — 变量必须显式初始化(Mandatory) Rule 1.2 — 使用固定宽度整数类型(Mandatory) Rule 1.3 — 避免未定义行为的类…

Custom SRP - Shadow Masks

截图展示的是:近处实时阴影,远处烘焙阴影1 Baking Shadows阴影让场景更具层次感和真实感,但是实时阴影渲染距离有限,超出阴影距离的世界由于没有阴影显得很“平”.烘焙的阴影不会受限于阴影距离,可以与实时阴影结合解决该问题:最大阴影距离之内使用实时阴影最大阴影距离之外用烘…

Python爬虫实战:研究spidermonkey库,构建电商网站数据采集和分析系统

1 引言 1.1 研究背景 互联网数据已成为商业决策、学术研究的核心资源,网络爬虫作为数据获取的主要工具,在静态网页时代发挥了重要作用。然而,随着 AJAX、React、Vue 等技术的广泛应用,超过 70% 的主流网站采用 JavaScript 动态生成内容(如商品列表滚动加载、评论分页加载…

智能驾驶规划技术总结

前言 本文主要对智能驾驶规划技术相关知识进行初步探究和总结,以加深理解,及方便后续学习过程中查漏补缺。 分层规划策略 寻径 A*算法 概念 节点:网格化后的每一个最小单元父节点:路径规划中用于回溯的节点列表:需要不…

05 网络信息内容安全--对抗攻击技术

1 课程内容 网络信息内容获取技术网络信息内容预处理技术网络信息内容过滤技术社会网络分析技术异常流量检测技术对抗攻击技术 2 对抗攻击概述 2.1 对抗攻击到底是啥? 咱们先举个生活例子: 你平时看苹果能认出来 —— 红颜色、圆溜溜、带个小揪揪。但如果…

【FPGA】VGA显示-贪吃蛇

这个项目实现了一个完整的贪吃蛇游戏,使用Verilog HDL在FPGA上构建。项目包含了VGA显示控制、按键消抖处理、游戏逻辑和图形渲染等多个模块,展示了数字逻辑设计的综合应用。 项目概述 该设计使用硬件描述语言实现了经典贪吃蛇游戏的所有核心功能&#…

从PostgreSQL到人大金仓(KingBase)数据库迁移实战:Spring Boot项目完整迁移指南

📖 前言 在国产化浪潮的推动下,越来越多的企业开始将数据库从国外产品迁移到国产数据库。本文将以一个真实的Spring Boot项目为例,详细介绍从PostgreSQL迁移到人大金仓(KingBase)数据库的完整过程,包括遇到…

Docker 入门指南:从基础概念到常见命令及高级工具详解

Docker 入门指南:从基础概念到常见命令及高级工具详解 大家好!今天我们来聊聊 Docker 这个强大的容器化工具。如果你是一个开发者、运维工程师,或者只是对云计算和容器技术感兴趣的人,Docker 绝对值得你深入了解。它可以帮助你轻松…

Redis数据持久化——RDB快照和Aof日志追加

Redis数据持久化数据持久化:将内存中的数据保存到磁盘中。作用:让Redis服务重启后可以恢复之前的数据。一、Redis数据持久化的方式:RDB(快照):将内存中Redis缓存的所有数据,都以二进制字符串的方…

浅聊达梦数据库物理热备的概念及原理

达梦数据库(DM Database)的物理热备份,核心是在数据库不中断业务(联机) 的前提下,通过对数据库物理文件(如数据文件、控制文件、日志文件等)的增量或全量复制,实现数据备…

C++ 中 ::(作用域解析运算符)的用途

C 中 ::(作用域解析运算符)的应用场景详解 在 C 中,:: 被称为 作用域解析运算符(Scope Resolution Operator),用于明确指定某个名字(变量、函数、类型等)所属的命名空间或类作用域&a…

鸿蒙中CPU活动分析:CPU分析

1 CPU分析的核心概念与重要性 CPU活动分析(CPU Profiling)是性能优化的核心手段,它通过测量代码执行时间,帮助开发者定位性能瓶颈。应用的响应速度直接影响用户体验,过长的加载时间或卡顿会导致用户流失 1.1 为什么C…