• 作者: Sausar Karaf, Mikhail Martynov, Oleg Sautenkov, Zhanibek Darush, Dzmitry Tsetserukou

  • 单位:俄罗斯斯科尔科沃科学技术研究院智能空间机器人实验室

  • 论文标题:MorphoNavi: Aerial-Ground Robot Navigation with Object Oriented Mapping in Digital Twin

  • 论文链接:https://arxiv.org/pdf/2504.16914

主要贡献

  • 提出了面向通用空地机器人的单目相机映射方法,能够在无需针对特定环境微调的情况下检测多种物体并估计其位置。

  • 通过模拟搜索救援场景验证了该方法的有效性,MorphoGear机器人成功定位到机器狗,为开发能够在非结构化环境中运行的智能多模态机器人系统做出了贡献。

  • 该方法在保留物体语义信息的同时,减少了对高带宽通信的需求,且与现有的机器人感知系统兼容,可作为低成本替代方案,适用于仅配备相机和有限计算资源的机器人。

研究背景

  • 近年来,机器人领域发展迅速,尤其是基于RGB图像的视觉语言模型(VLMs)成为执行任务的强大工具,其仅需图像和文本提示输入,无需昂贵的激光雷达和深度相机等传感器。

  • 传统的映射技术(如点云、八叉树和网格恢复技术)主要关注物体形状的保留,而本研究提出的方法还保留了物体的语义信息,有助于实现更高层次的理解,例如推断房间功能、规划多阶段任务等。

  • 单目深度估计是机器人感知的关键部分,相关技术如ZoeDepth、Depth-Anything等在相对深度估计和度量深度估计方面取得了进展。同时,YOLO系列、Detectron2等模型在目标检测方面表现出色,但存在类别限制,需要额外训练。而零样本和开放词汇检测器(如Grounding DINO 1.5 Pro、DINO X)以及基于变换器架构的模型(如OWL-ViT、OWLV2)为识别预训练类别之外的物体提供了可能。

  • 视觉语言模型(VLMs)如Molmo、ChatGPT等在整合视觉和文本数据方面取得了突破,但其训练主要基于二维图像-文本对应关系,缺乏三维空间推理或深度感知能力,限制了其在机器人导航等需要三维环境理解的应用中的使用。为解决这一问题,出现了视觉语言行动(VLA)模型,如RT-1、PaLM-E等,但它们依赖于大规模、特定任务的数据集,且数据收集成本高、适用范围有限。

研究方法

系统由MorphoGear空地机器人、带有控制界面的笔记本电脑以及配备定位系统的环境组成。所有计算在机器人(控制)或个人电脑(映射)上进行,使用Unity游戏引擎进行模拟和控制。

MorphoGear机器人

是一种具有地面移动、物体抓取和空中运动能力的无人空地车辆(AGV),其硬件包括OrangePi 5b伴生计算机、OrangeCube飞行控制器、基于STM32的自定义肢体控制器和ELP-USBFHD05H 2MP 2.8-12mm 1:1.4 1/2.7” MJPEG相机。软件基于ROS2 Iron,包含用于高级命令的Python节点和mavros,ROS#用于生成肢体运动。

地面站

操作员使用配备Unity和Python的笔记本电脑作为地面站,开发了机器人的数字孪生模型,用于虚拟实验和作为控制面板。机器人将状态发送到Unity,Unity仅作为可视化工具。通过ROS-TCP-Connector将Unity中的命令发送到机器人。

环境

实验在一个6x10x4米的房间内进行,工作空间由网限制,路径规划网格为5x8x3米,配备了VICON定位系统。

映射算法

  • 系统以单目RGB图像作为输入,通过检测物体并根据其已知几何尺寸估计其位置来导航。在开发过程中,评估了包括OWLv2、OWL-ViT和DINO-X在内的多种目标检测模型,最终选择了OWLv2和Grounding DINO 1.5 Pro模型。

  • 基于已知的物体尺寸、相机内参和目标检测器获得的边界框,利用公式估算物体距离,并结合Depth Anything v2和Segment Anything v2的深度估计结果,计算最终物体距离。处理后的物体数据被封装成JSON文件并传输到基于Unity的模拟环境中。

实验

通过模拟搜索救援场景评估所提出的系统,设置了一个机器狗遇到问题需要外部干预的案例,MorphoGear机器人的任务是定位机器狗。

实验设置

在测试环境中放置了桌子、箱子和椅子等障碍物,限制了机器人的初始视野,使全图观察变得困难。机器狗被放置在由堆叠箱子组成的障碍物后面,以验证MorphoGear机器人在地面和空中运动模式之间的转换能力。

实验过程

任务开始时,空地车辆捕获环境的初始图像,该图像被映射管道处理,计算物体位置并发送到Unity基础的GUI进行可视化和规划。使用生成的地图和机器人的位置构建障碍物网格,并由A*算法为MorphoGear机器人规划轨迹。

实验结果

  • 系统成功检测并定位了场景中97.4%的目标物体,平均位置估计误差为13.6厘米,平均每张图像的处理时间为7.34秒。

  • 尽管系统在受控实验室条件下表现良好,但仍存在一些局限性,如遮挡问题导致物体位置精度下降,对于未知形状和不同方向的物体,基于单目的距离估计算法不够准确,且系统尚未实现实时处理。

结论与未来工作

  • 结论
    • 论文提出了一种利用单目相机的通用空地机器人映射方法,能够在复杂环境中检测多种物体并估计其位置,无需针对特定环境进行微调。

    • 通过模拟搜索救援场景验证了该方法的有效性,MorphoGear机器人成功定位到机器狗,系统在目标检测率、位置估计准确性和处理时间方面表现出色。

  • 未来工作
    • 尽管如此,仍有一些需要改进的地方,如遮挡问题、未知形状和不同方向物体的距离估计准确性以及实时处理能力。

    • 未来的工作将探索层次化和基于深度学习的方法来解决这些问题,还将研究将该映射系统与视觉语言模型(VLMs)集成,以增强其空间理解和认知推理能力,并探索实时优化策略以减少处理延迟,使系统更适合动态搜索救援场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90522.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90522.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/90522.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

统计与大数据分析与数学金融课程解析

CDA数据分析师证书含金量高,适应了未来数字化经济和AI发展趋势,难度不高,行业认可度高,对于找工作很有帮助。一、课程体系对比矩阵维度统计与大数据分析数学金融交叉领域数学基础概率论(90%)随机过程(85%)线性代数(100%)核心工具P…

整蛊小程序:关机程序(C语言)

整蛊小程序:关机程序(C语言) 跟着潼心走,轻松拿捏C语言,困惑通通走,一去不回头~欢迎开始今天的学习内容,你的支持就是博主最大的动力。 目录 整蛊小程序:关机程序(C语言) 程序内容…

PHP框架之Laravel框架教程:1. laravel搭建

1. laravel搭建 本教程适合有php基础的同学学习 安装方式一: 使用 Laravel 安装器: 需要本地先安装PHP 和 Composer,这个自行安装下。 安装完成后验证方式: // 终端输入,就可以看到结果 php --version composer --vers…

HMC7044芯片配置(图文+解析+代码仿真)

详细代码及仿真源文件已同步上传至个人主页资源(原创不易,转载请注明出处) 目录 模块图 代码实现 时序图 仿真图 HMC7044介绍 一、概述 HMC7044是带有 JESD204B 接口的高性能、3.2 GHz、14 路输出抖动衰减器,提供 14 路低噪…

Dify开发教程笔记(一): 文件及系统参数变量说明及使用

开始 Copy page 定义“开始” 节点是每个工作流应用(Chatflow / Workflow)必备的预设节点,为后续工作流节点以及应用的正常流转提供必要的初始信息,例如应用使用者所输入的内容、以及上传的文件等。 配置节点在开始节点的设置页…

iOS 26,双版本更新来了

7 月 25 日,苹果终于给用户推送了 iOS 26 的首个公测版本。参与了公测版计划的小伙伴在软件更新页面选择 iOS 26 Public Beta 就能升级 iOS 26 的公测版。同时苹果还推送了 iOS 26 Beta 4 的第二个版本 。也就是说之前已经升级了 iOS 26 Beta 4 的小伙伴&#xff0c…

什么是JSON,如何与Java对象转化

JSON概念 JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。它易于人阅读和编写,同时也易于机器解析和生成。JSON 基于 JavaScript(ECMAScript(欧洲计算机协会制定的js规范)) 编程语言的一个子集&…

从零开始的云计算生活——第三十六天,山雨欲来,Ansible入门

目录 一.故事背景 二.Ansible简介 什么是Ansible? Ansible的特点 Ansible的架构 三.Ansible任务执行解析 ansible任务执行模式 ansible执行流程 ansible命令执行过程(重要) 四.Ansible配置解析 ansible的安装方式 ansible的程序结…

【6G新技术探索】AG-UI(Agent User Interaction Protocol) 协议介绍

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G技术研究。 博客内容主要围绕…

线性代数 下

文章目录十一、方程组解的结构和性质1、齐次线性方程组2、非齐次线性方程组十二、Ax0的基础解系十三、两个方程组的公共解十四、同解方程十五、求特征值、特征向量十六、判断A能否相似对角化十七、若A可以相似对角化,求P(Q)十八、二次型化标准型1、拉格朗日配方法2、…

Go语言实战案例-自定义队列结构

以下是《Go语言100个实战案例》中的 数据结构与算法篇 - 案例24:自定义队列结构 的完整内容,帮助初学者通过自定义结构体来实现队列的数据结构。🎯 案例目标实现一个自定义的队列结构,并提供常见的队列操作:入队&#…

Windows-WSL-Docker端口开放

本文介绍如何在局域网内访问Windows服务器端口,特别是针对已安装WSL环境并在其中运行Docker服务的情况。主要解决Docker服务向局域网开放端口的配置问题步骤一:配置转发当你的应用程运行在WSL中时,需要执行此步骤。在宿主机(windo…

面试知识梳理-vue3和vue2区别

vue3相对于vue2的优势 性能更好体积更小更好的ts支持(vue3 ts开发)更好的代码组织更好的逻辑抽离更多新功能(vue2其实也都能自己做出来) 更好的代码组织 Composition API 的革新 Vue 2 采用 ​​Options API​​,通过 …

栈的核心原理

1 栈的概念及结构栈是一种特殊的线性表,其特点是只允许在固定的一端进行插入和删除操作。进行操作的一端称为栈顶,另一端称为栈底。栈中的元素遵循后进先出(LIFO,Last In First Out) 原则。压\入\进栈(Push…

【无标题】暗物质暗能量——以下是用11维拓扑量子色动力学模型解释暗物质和暗能量的完整理论框架。

暗物质暗能量——以下是用11维拓扑量子色动力学模型解释暗物质和暗能量的完整理论框架。暗物质的拓扑本质 1. 跨桥零模振动理论 暗物质对应跨桥结构的基态振动模: math \phi_{\text{DM}} \frac{1}{\sqrt{6}} \sum_{f1}^6 \mathcal{B}_f^{(0)} $$ 其中 $\mathcal{B}…

【接口自动化】-1- 初识接口

一、什么是接口 接口涉及到四个实体:(我去饭店点餐) 我是客人 :客户端 厨师:服务器 服务员:接口 菜单:接口文档 接口定义了一套信息规则让两个系统之间互相不必知道对方的内部&#xff0c…

华为FTTR光猫V173 F30改公开版界面 附带真正的s161补全一体固件

【本文介绍】 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ 这款FTTR的V173 F30看着颜值很高 也很实用 毕竟是XGPON万兆的光猫…

【学习】数字化车间与智能工厂如何推进制造业转型

在制造业转型升级的浪潮中,数字化车间与智能工厂已成为推动产业变革的核心引擎。前者通过物联网、大数据与自动化技术的深度融合,实现生产流程的精细化管控与资源优化;后者则依托人工智能、5G通信与数字孪生技术,构建起具备自感知…

HTML元素与高级功能完全教程:从基础到精通

目录 章节1:HTML的灵魂——元素的本质与结构化思维 1.1 元素的核心:标签、属性与内容 1.2 语义化的革命 1.3 常见的“坑”与避坑指南 章节2:表单元素:打造交互的基石 2.1 表单基础:与核心控件 2.2 高级输入类型与验证 2.3 表单的可访问性与用户体验 章节3:HTML5多媒…

IP证书:构建数字世界知识产权安全防线的基石

引言 在数字化浪潮席卷全球的今天,知识产权(IP)的保护已成为企业、机构乃至个人面临的重要挑战。无论是商业秘密、专利技术,还是数字版权,其安全性和可信度都直接影响着创新生态的健康发展。而作为数字安全的核心工具…