• 作者:Xinyuan Zhang, Yonglin Tian, Fei Lin, Yue Liu, Jing Ma, Kornélia Sára Szatmáry, Fei-Yue Wang

  • 单位:中国科学院大学人工智能学院,中科院自动化研究所多模态人工智能系统国家重点实验室,澳门科技大学创新工程学院工程科学系,中国船舶科学研究中心,匈牙利欧拜达大学,中科院复杂系统管理与控制国家重点实验室

  • 论文标题:LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

  • 论文链接:https://arxiv.org/pdf/2505.03460

主要贡献

  • 提出LogisticsVLN系统:这是首个针对窗口级终端配送场景的基于无人机的视觉语言导航(VLN)系统,仅使用简单传感器和轻量级大型模型,无需事先了解环境或微调,即可在未见环境中高度部署。

  • 构建VLD数据集:创建了专注于终端配送的连续空中场景的视觉语言配送(VLD)数据集,填补了现有VLN基准测试的空白。该数据集在CARLA模拟器中构建,提供多样化的场景和任务,用于评估最后一公里无人机配送系统。

  • 应用多模态大型语言模型(MLLMs):在空中配送环境中应用MLLMs,并评估其在每个子任务中的作用和局限性。并为在现实世界中部署基于基础模型的视觉语言配送系统提供见解。

研究背景

  • 随着电子商务和城市化的快速发展,物流已成为现代社会的关键组成部分,尤其是稳定、高效和以用户为中心的终端配送需求日益增长。终端配送是指将货物直接运输到最终用户的住所的最后一步。

  • 传统的终端配送主要依赖地面机器人,而现有的基于无人机的VLN任务大多关注长距离、粗粒度的目标,不适合精确的终端配送场景。

  • 为了克服这些挑战,作者提出了LogisticsVLN系统,旨在利用轻量级多模态大型语言模型(MLLMs)实现无人机在终端配送场景中的视觉语言导航,提供一个可扩展的解决方案,用于窗口级终端配送任务。

研究方法

任务定义

  • 无人机从靠近目标建筑的位置开始,仅根据自然语言请求到达用户的特定窗口,无需依赖预先构建的地图。

  • 目标是制定一个策略,将无人机在每个时间步的观测映射到一个动作,使得无人机的最终状态满足成功交付的条件,即到达目标窗口的邻近区域。

系统概述

  • 无人机配备了五对RGB-深度相机,用于捕捉周围环境的半全景图像。

  • 系统包括请求理解模块、楼层定位模块和目标探索模块,分别负责解释用户请求、引导无人机到达目标楼层和识别目标窗口。

请求理解

  • 使用DeepSeek-R1Distill-Qwen-14B模型和三步链式推理(CoT)提示来解析用户请求,提取目标楼层号和目标周围的独特物体信息。

楼层定位

  • 通过一个基于楼层计数的视觉语言模型(VLM),无人机从建筑底部开始,沿着垂直路径上升,根据相机的垂直视场角生成一系列不重叠的垂直航点。

  • 在每个航点,无人机捕获RGB图像并由VLM分析,以推断可见楼层数量并更新当前估计位置。通过比较当前楼层和目标楼层,决定是否上升到下一个航点或进行微调以达到目标楼层高度。

目标探索

  • 包括目标识别、视角选择和动作选择三个部分:
    • 目标识别:使用目标识别VLM处理RGB图像,判断目标窗口是否可见,若可见则返回其边界框,并通过深度助手计算安全接近轨迹。

    • 视角选择:若目标窗口不可见,则使用选择VLM和深度助手共同决定无人机的下一步动作。设计了一种基于深度的算法,通过计算每个视角的深度切片的平均值,寻找深度不连续性,选择最有希望的视角。

    • 动作选择:在每个时间步,使用选择VLM根据深度助手计算的安全移动距离和任务描述,选择最优的移动方向和距离。

实验

VLD数据集

目的:为了支持无人机在终端配送场景中的视觉语言导航(VLN)研究,构建了VLD数据集。该数据集专注于模拟无人机从建筑外部接近特定窗口的任务,填补了现有VLN基准测试在空中配送领域的空白。

构建内容

  • 平台:基于CARLA 0.9.12模拟器构建,涵盖城市、住宅和农村环境。

  • 任务数量:共设计了300个VLD任务,分布在22栋不同类型的建筑中。

  • 目标对象:包括工具、容器、家居用品、食品、家具、海报、玩具和装饰品等。

  • 任务分布
    • 建筑类型:低层住宅、高层建筑、小别墅和文化特色建筑。

    • 目标楼层:从低层到高层不等。

    • 任务难度:根据无人机完成任务所需的最小转弯次数,分为“简单”(少于2次转弯)、“中等”(2到3次转弯)和“困难”(超过3次转弯)三个级别。

  • 用户请求:使用GPT-4o生成多样化的自然语言请求,并由人类专家审核优化。

特点

  • 多样化场景:涵盖多种建筑类型和目标对象。

  • 任务难度分级:提供不同复杂度的实验环境。

  • 语言多样性:模拟真实用户在不同情境下的语言表达。

用途

  • 系统评估:用于评估LogisticsVLN系统的性能,包括成功率(SR)、按路径长度加权的成功率(SPL)和平均步骤数等指标。

  • 模型优化:帮助研究人员发现模型的不足之处,并针对性地进行优化。

评估指标和实施细节

  • 采用成功完成任务的百分比(SR)和按路径长度加权的成功率(SPL)作为评估指标,同时增加平均步骤数作为评估指标,反映完成VLD任务所需的时间和内存占用。

  • 在模拟器中使用四旋翼无人机模型,所有相机的分辨率为800×800像素,视场角为90°,安装在无人机下方以避免干扰感知。

实验结果

  • 使用三种轻量级VLMs进行评估,Qwen2-VL-7B模型在成功率和路径长度加权成功率方面表现最佳,成功完成超过一半的任务。

  • 分析发现,不同VLMs的性能差异主要来源于目标识别的准确性和楼层定位的可靠性。Yi-VL在楼层计数模块中频繁拒绝给出精确答案,而Llama-3.1在楼层定位准确性方面表现不如Qwen2-VL。

消融研究

  • 楼层定位方法的影响:与直接计数方法相比,提出的楼层定位方法将楼层定位失败率从61.6%降低到27.9%,显著提高了楼层定位性能。

  • 视角选择算法的影响:与随机选择和默认选择策略相比,提出的视角选择算法在成功率和路径长度加权成功率方面表现出色,证明了其有效性。

  • 选择VLM的影响:在选择VLM的情况下,系统性能略有下降,但在视角选择次优时,选择VLM的作用更为关键,能够有效避免碰撞并继续安全探索。

结论与未来工作

  • 本文提出了LogisticsVLN系统,这是一个可扩展的基于无人机的终端配送系统,利用基础模型的力量,无需针对特定任务的训练或预先构建的地图。

  • 构建的VLD数据集涵盖了CARLA模拟器中的多样化建筑类型、配送目标和指令风格,为评估该领域提供了有力支持。

  • 实验结果证明了所提系统的有效性,而子任务级别的分析为当前VLMs在VLD场景中的优势和局限性提供了宝贵的见解。

  • 未来的工作将集中在优化系统架构,以更好地利用MLLMs的能力,并将LogisticsVLN扩展到现实世界的空中配送应用中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/80695.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/80695.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/80695.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1.10-数据传输格式

1.10-数据传输格式 在对网站进行渗透测试时,使用目标服务器规定的数据传输格式来进行 payload 测试非常关键 如果不按规定格式发送数据,服务器可能直接拒绝请求或返回错误响应,比如: 接口要求 JSON 格式,而你用的是…

dfs 第一次加训 详解 下

目录 P1706 全排列问题 思路 B3618 寻找团伙 思路 B3621 枚举元组 思路 B3622 枚举子集(递归实现指数型枚举) 思路 B3623 枚举排列(递归实现排列型枚举) B3625 迷宫寻路 思路 P6183 [USACO10MAR] The Rock Game S 总结…

通信网络编程——JAVA

1.计算机网络 IP 定义与作用 :IP 地址是在网络中用于标识设备的数字标签,它允许网络中的设备之间相互定位和通信。每一个设备在特定网络环境下都有一个唯一的 IP 地址,以此来确定其在网络中的位置。 分类 :常见的 IP 地址分为 I…

#在 CentOS 7 中手动编译安装软件操作及原理

在 CentOS 7 中,手动编译安装软件(即从源代码编译安装)是一种高度灵活的方式,适用于需要定制化软件功能、优化性能或安装官方仓库未提供的软件版本的场景。以下是针对手动编译安装的详细说明,包括原理、步骤、注意事项…

菊厂0510面试手撕题目解答

题目 输入一个整数数组,返回该数组中最小差出现的次数。 示例1:输入:[1,3,7,5,9,12],输出:4,最小差为2,共出现4次; 示例2:输入:[90,98,90,90,1,1]&#xf…

C——五子棋小游戏

前言 五子棋,又称连珠棋,是一种双人对弈的棋类游戏。游戏目标是在一个棋盘上,通过在横、竖、斜线上依次放置棋子,使自己的五个棋子连成一线,即横线、竖线或斜线,且无被对手堵住的空位,从而获胜…

ik 分词器 设置自定义词典

进入 ES 的安装目录,进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录,打开 IKAnalyzer.cfg.xml 文件进行配置。 一、添加 自定义扩展词典 扩展词:就是不想哪些词分开,让他们成为一个词,比如“蒙的全是对…

Linux笔记---信号(上)

1. 信号的概念 Linux下的信号机制是一种进程间通信(IPC)的方式,用于在不同进程之间传递信息。 信号是一种异步的信息传递方式,这意味着发送信号的进程只发送由信号作为载体的命令,而并不关心接收信号的进程如何处置这…

UG 二次开发- UG内部调用DLL

【1】用VS新建一个dll工程 将项目设置为x64平台(这步很重要,否则程序无法编译成功) 【2】添加UG头文件目录,属性页->C/C->常规->附加包含目录 【3】添加UG库所在目录,属性页->链接器->常规->附加库目…

wordcount在mapreduce的例子

1.启动集群 2.创建项目 项目结构为&#xff1a; 3.pom.xml文件为 <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://mave…

智慧城市综合运营管理系统Axure原型

这款Axure原型的设计理念紧紧围绕城市管理者的需求展开。它旨在打破传统城市管理中信息孤岛的局面&#xff0c;通过统一标准接入各类业务系统&#xff0c;实现城市运营管理信息资源的全面整合与共享。以城市管理者为中心&#xff0c;为其提供一个直观、便捷、高效的协同服务平台…

Go语言:json 作用和语法

在 Go 语言中&#xff0c;JSON 字段&#xff08;也称为 JSON Tag&#xff09;是附加在结构体字段上的元数据&#xff0c;用于控制该字段在 JSON 编码&#xff08;序列化&#xff09;和解码&#xff08;反序列化&#xff09; 时的行为。它的语法是&#xff1a; type StructName…

MATLAB复制Excel数据到指定区域

Matlab中如何将Excel表中的265-528行F-AA列数据复制到1-263行AE-AZ中 版本&#xff1a;MatlabR2018b clc; clear; %旧Excel文件名 oldFile ; %新Excel文件名 newFile ; % 工作表名称&#xff08;旧表和新表一致&#xff09; sheetName Sheet1; % 旧文件中待复制的数据范…

vue3+flask+sqlite前后端项目实战

基础环境安装 pycharm 下载地址&#xff1a; https://www.jetbrains.com/zh-cn/pycharm/download/?sectionwindows vscode 下载地址 https://code.visualstudio.com/docs/?dvwin64user python 下载地址 https://www.python.org/downloads/windows/ Node.js&#xff08;含npm…

Java 内存模型(JMM)与内存屏障:原理、实践与性能权衡

Java 内存模型&#xff08;JMM&#xff09;与内存屏障&#xff1a;原理、实践与性能权衡 在多线程高并发时代&#xff0c;Java 内存模型&#xff08;JMM&#xff09; 及其背后的内存屏障机制&#xff0c;是保障并发程序正确性与性能的基石。本文将系统梳理 JMM 的核心原理、内…

动手学深度学习12.3.自动并行-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记&#xff0c;以及对课后练习的一些思考&#xff0c;自留回顾&#xff0c;也供同学之人交流参考。 本节课程地址&#xff1a;无 本节教材地址&#xff1a;12.3. 自动并行 — 动手学深度学习 2.0.0 documentation 本节开源代…

C++类和对象之初始化列表

初始化列表 C初始化列表详解&#xff1a;性能优化与正确实践什么是初始化列表&#xff1f;初始化列表的三大核心作用1. 性能优化&#xff1a;避免不必要的赋值操作2. 强制初始化&#xff1a;处理const和引用成员3. 基类初始化&#xff1a;正确调用父类构造函数4.必须使用初始化…

continue通过我们的开源 IDE 扩展和模型、规则、提示、文档和其他构建块中心,创建、共享和使用自定义 AI 代码助手

​一、软件介绍 文末提供程序和源码下载 Continue 使开发人员能够通过我们的开源 VS Code 和 JetBrains 扩展以及模型、规则、提示、文档和其他构建块的中心创建、共享和使用自定义 AI 代码助手。 二、功能 Chat 聊天 Chat makes it easy to ask for help from an LLM without…

基于Spring Boot + Vue的母婴商城系统( 前后端分离)

一、项目背景介绍 随着母婴行业在互联网平台的快速发展&#xff0c;越来越多的家庭倾向于在线选购母婴产品。为了提高商品管理效率和用户购物体验&#xff0c;本项目开发了一个基于 Spring Boot Vue 技术栈的母婴商城系统&#xff0c;实现了商品分类、商品浏览、资讯展示、评…

实战演练:用 AWS Lambda 和 API Gateway 构建你的第一个 Serverless API

实战演练:用 AWS Lambda 和 API Gateway 构建你的第一个 Serverless API 理论千遍,不如动手一遍!在前面几篇文章中,我们了解了 Serverless 的概念、FaaS 的核心原理以及 BaaS 的重要作用。现在,是时候把这些知识运用起来,亲手构建一个简单但完整的 Serverless 应用了。 …