前言

我在此文《ForceVLA——将具备力感知的MoE整合进π0的动作专家中:从而融合“视觉 语言 力反馈”三者实现精密插拔》的开头说过,我司「七月在线」目前侧重以下两大本体的场景落地

  1. 人形层面,侧重
    1.1 人形灵巧操作
    1.2 人形展厅讲解
  2. 机械臂层面,侧重
    2.1 智能装配
    2.2 精密插拔

而训练人形机器人做灵巧操作的方式之一便是从人类视频中学习

当然,此类模型,如今已经层出不穷了,且真实机器人数据采集在模仿学习领域推动了机器人操作的重大进展,然而,数据采集过程中对机器人硬件的依赖从根本上限制了数据的规模

  1. EgoVLA探讨了利用第一视角人类视频训练VLA模型的方法
    使用人类视频的优势不仅在于其规模,更重要的是场景和任务的丰富性
  2. 通过在预测人类手腕和手部动作的人类视频上训练的VLA,可以执行逆运动学和动作重定向,将人类动作转换为机器人动作
    且仅需少量机器人操作演示对模型进行微调,便可获得机器人策略

第一部分 EgoVLA

1.1 引言、相关工作

1.1.1 引言

如EgoVLA原论文所说,近年来,得益于大规模真实机器人数据采集[1,2],机器人操作领域取得了巨大进展。与利用仿真方法相比,直接用真实机器人数据进行监督学习能够避免Sim2Real域间差异,并能轻松提升任务复杂度

  1. 为了高效采集复杂的机器人操作数据,研究人员提出了多种遥操作工具,包括关节映射[3,4,5]、外骨骼[6,7,8]以及虚拟现实设备[9,10,11]。尽管这些方法令人鼓舞,但对机器人和专家操作员的需求从根本上限制了可采集数据的规模
  2. 从人类视频中学习操作如何?如果将人类视为一种特殊形式的机器人,那么全世界有80亿个机器人正在各类环境中持续运行——而我们希望机器人能够在这些环境中操作

    近期关于手-物体交互预测的研究[12]在预测人类操作的长期意图方面取得了有希望的成果。如果能够利用这些人类数据来训练机器人策略,不仅能够轻松扩展训练数据的数量,更重要的是能够提升任务和场景的多样性
    这使得机器人能够在当前难以适应的场景或即使远程操作也具有挑战性的任务中进行训练

作者的关键观察是:人类动作空间与机器人动作空间之间的差异可能并不大,并且可以通过少量几何变换进行近似

与其在机器人数据上训练机器人视觉-语言-动作(VLA)模型[13,14,15,16],来自1 UC San Diego, 2 UIUC, 3 MIT, 4 NVIDIA的研究者提出在人体数据上训练人体第一视角VLA(EgoVLA)

  • 其对应的论文为:EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos
  • 其项目网址为:rchalyang.github.io/EgoVLA/
    截止到25年8月中旬,他们暂未开源,如果他们计划开源,则期待

具体而言

  1. 给定若干帧视觉观测、语言指令以及当前手部姿态作为输入,VLA将在未来几个步骤内预测人类动作
    动作空间包括人类手腕和手部关节角度。这个人类动作空间可以通过逆向运动学将手腕位置转换为末端执行器位置,并通过动作重定向将人类手部关节转换为机器人手部关节,从而转化为机器人动作空间
  2. 因此,人体VLA本质上已经是一种机器人策略,只是输入为人手图像,且动作输出仍存在误差。但可以通过遥操作收集少量机器人演示,对VLA进行进一步微调来纠正这一点

    如此,便无需大规模机器人数据进行训练

为了评估机器人操作性能,作者提出了一种基于NVIDIA IsaacSim[17]的新型仿人双臂操作基准测试,称为Ego Humanoid Manipulation Benchmark。在该基准测试中,作者设置了12项任务,包括执行原子动作的简单任务以及由多个原子动作组合而成的长时序任务

作者为每个任务收集了100个演示数据,并利用该基准测试对模型进行评估。在实验中,作者首先在Ego-Centric Human Manipulation数据集上训练EgoVLA模型,并针对特定任务在收集到的仿人操作演示上进行微调,说白了,就是通过人类第一视角的视频做预训练,然后用真机数据做微调

1.1.2 相关工作:涉及灵巧操作、VLA

第一,对于灵巧操作

灵巧操作的研究已从基于控制的方法[19,20,21,22,23,24,25]发展到以学习为驱动的方法[26,27]

  1. 早期工作侧重于精度,但在多样化场景中的泛化能力有限。基于学习的方法引入了姿态向量生成[28,29,30]、中间表示[31,32]和接触图[33,34],但大规模灵巧操作仍然是一个未解难题
  2. 近期的研究尝试利用第一视角人类视频训练特定任务的策略[35,36]
    相比之下,作者旨在直接通过第一视角人类演示开发通用型操作模型

第二,对于VLA

  1. 视觉-语言模型(VLMs)[37,38,39]在多模态任务中展现出了强大的泛化能力[40,41,42,43,44]。在此基础上,视觉-语言-动作模型(VLA)[16,14,45,13,15,46]通过大规模机器人数据对VLMs进行微调,实现了感知与动作的集成
  2. 然而,VLA的训练对数据需求极高,通常需要大量的远程操作[47,48]或脚本化执行[49,50]。OpenVLA[14]和Octo[13]利用了众包机器人数据集[1],但在可扩展性方面仍面临瓶颈

作者提出了一种替代方案:通过人类第一视角视频进行策略学习,并结合小规模目标域微调

第三,对于第一人称视觉

  1. 第一人称视觉研究[51,52,53]传统上在数据规模和多样性方面受到限制。近期的数据集[54,55]在覆盖范围上有所提升,但主要关注超出现有机器人能力的活动。更简单的数据集[56,57]虽然捕捉了日常交互,但缺乏姿态标注
  2. 为了解决这一问题,作者精选了有针对性的数据集组合,并引入了一个专为灵巧操作学习优化的第一人称人体视频数据集

第四,对于从野外视频中学习

  1. 已有多项研究 [58,59] 提出从野外视频中提取可供性或交互线索。受第一视角视觉的启发,近期研究 [60,61,62,63,64,65,66] 利用人类视频进行预训练表征,并展示了积极的迁移效果
  2. 然而,大多数工作侧重于无监督学习,未充分利用细粒度的手部或手腕姿态信息
    相比之下,作者的工作在VLA框架下使用高质量的第一视角数据,直接提升灵巧策略学习,充分利用可穿戴手部追踪技术的最新进展

1.2 从第一人称人类视频中学习操作技能

本节将介绍作者第一人称人类操作数据集的构建过程,EgoVLA在该数据集上的训练方法,如何弥合人类与仿人机器人之间的体现差异,以及EgoVLA在操作任务中的部署

1.2.1 以自我为中心的人体操作数据集

借鉴语言模型和视觉-语言模型训练的经验,作者强调数据集结构在提升模型性能中的重要性

  1. 他们构建了一个大规模的人类第一视角操作数据集,专注于包含技能丰富的视频序列及其对应的姿态标注。该综合数据集包含第一视角的RGB观测、手腕姿态、手部姿态和摄像头姿态
  2. 该数据集整合了来自四个来源的序列,其相对比例如图3所示:

    HOI4D包含4000段视频,捕捉了如抓取-放置、重新定位和关节物体交互等单手操作
    HOT3D提供了833分钟与33个刚性物体交互的视频,并配有精确的三维手部和摄像头姿态标注

    HoloAssist则包含了166小时的复杂任务录制。例如电池更换、家具组装和机器安装
    尽管其手部姿态标注较为噪声,但它捕捉了丰富的双手交互
    且为避免HoloAssist因标签噪声而被过度代表,作者对其进行了1/10的均匀采样,以平衡任务和数据来源
    TACO包含2,317个动作序列,涵盖151组工具-动作-物体三元组

对于数据处理:第一人称视频由于摄像机的持续移动,给学习带来了挑战

为了解决这一问题,作者利用世界坐标系下的摄像机位姿,将未来手腕的位置投影到当前摄像机帧中,从而确保监督的一致性。训练样本通过以3帧每秒的频率采样RGB观测值生成,以实现计算效率与时间连续性的平衡。他们的数据集共包含约500,000对图像与动作,涵盖多种操作任务

1.2.2 EgoVLA模型:基于NVILA-2B + 基于Transformer的动作头

作者在视觉-语言模型的基础上构建了EgoVLA,以利用强大的视觉和语义推理能力

  1. 具体而言,他们采用NVILA-2B[67]作为主干网络,该模型具有强大的视觉-语言理解能力和紧凑的体积,从而实现意图推断和高效微调

    如图2所示「EgoVLA以视觉历史、语言指令和动作查询token作为输入。潜在特征通过动作头被转换为人类动作。且采用手腕姿态和MANO手部参数[18]作为人类动作空间

    EgoVLA的输入包括当前和历史的第一视角视觉观测、语言指令、动作查询token以及人体本体感知
    这些输入由VLM主干网络进行编码,并通过动作头进一步处理,以预测未来的人类或机器人动作

    其中
    \rightarrow  视觉观测由六帧RGB图像组成:包括当前观测帧以及以0.2秒间隔采样的前五帧,总共覆盖1秒的历史。每帧分辨率为384×384
    \rightarrow  语言指令用于描述即时期望的行为。该设计使模型聚焦于技能执行,而非高层次规划,从而确保语言输入与预测动作之间具有清晰的映射关系
    \rightarrow  人体本体感状态包括手腕的平移/旋转以及手部姿态参数。这些信息在传递至动作头之前,会通过多层感知机(MLP)进行处理
  2. 每个预测动作包括腕部姿态『相机坐标系下的三维平移和 rot6D 表示[68]的旋转以及手部关节角度后者通过 MANO 手部模型[18]的前 15 个主成分(PCA)表示,说白了,就是通过MANO给人手手部关节建模,类似SMPL给人体建模一样

    EgoVLA被训练用于回归相机坐标系下的未来腕部姿态和手部关节参数。其目标函数为:\mathcal{L}=\lambda_{\text {wrist trans }} \mathcal{L}_{\text {wrist trans }}+\lambda_{\text {wrist rot }} \mathcal{L}_{\text {wrist rot }}+\lambda_{\text {joint }} \mathcal{L}_{\text {joint }}

    其中
    \mathcal{L}_{\text {wrist trans }}\mathcal{L}_{\text {joint }} 分别为腕部平移和手部关节角度回归的 L2 损失。\mathcal{L}_{\text {wrist rot }}是 rot6D[68] 腕部朝向的旋转损失。\lambda_{\text {wrist trans }}\lambda_{\text {joint }}\lambda_{\text {wrist rot }}为加权系数

    至于动作头是一个基于 Transformer(300M)的结构,由六个编码器层组成,每层隐藏单元数为1536
    它的输入包括人类(或机器人)的本体感觉状态,以及与动作查询token对应的潜在嵌入表示,并预测一个在1秒时间范围内的动作序列A_{t}=\left[a_{t}, a_{t+1}, \ldots, a_{t+H}\right](以30 Hz的频率,未来30步)用于双手
    作者使用词汇表中最后的H=30个词ID作为动作查询token

对于训练细节:作者首先在自有的第一视角人类操作数据集上对EgoVLA进行预训练,共20个周期。随后,在机器人示范数据上进行115个周期的后续训练,其中在第100个周期后降低学习率

在训练过程中,包含视觉编码器在内的整个模型都会进行微调。更多训练配置详见补充材料

1.2.3 将EgoVLA迁移到人形机器人

人类和人形机器人在操作框架上具有相似性,均使用双臂和双手。然而,由于摄像头姿态、手部形态以及视觉外观的差异,直接将EgoVLA迁移到人形机器人上具有一定挑战性

为实现部署,作者利用少量机器人演示数据对EgoVLA进行微调,并借助如图4所示的统一动作空间『统一动作空间:MANO手部参数被用作人类与机器人共享的动作空间。对于机器人手,在训练过程中,优化后的MANO参数能够产生与机器人手指尖相同的位置。在部署阶段,一个小型MLP将预测的指尖位置映射为关节指令

首先,对于将机器人数据重新映射到人类表示

为了在机器人数据上进行微调,作者首先需要将机器人的动作空间与人类表示对齐

  • 对于末端执行器的姿态,通过三维变换来对齐机器人和人类的坐标系
  • 对齐手部配置则更加复杂:作者估算能够最好地近似机器人手部驱动的MANO[18]参数(相当于通过SMPL模型近似人体姿态),通过最小化预测(人体)指尖位置(机器人)观测指尖位置之间的差异来实现:
    \underset{\Theta}{\operatorname{minimize}} \quad \mathcal{L}(\Theta)= \frac{1}{5} \sum_{i=1}^{5} \operatorname{SmoothL1}\left(\mathbf{J}_{\text {pred }}(\boldsymbol{\Theta})_{i}, \mathbf{J}_{\text {obs }, i}\right)

    其中
    \rightarrow  \Theta \in \mathbb{R}^{15}为MANO手部参数
    \rightarrow  \mathbf{J}_{\text {pred }}(\boldsymbol{\Theta})表示通过MANO正向运动学计算得到的(人类的)指尖位置
    \rightarrow  \mathbf{J}_{\text {obs }} \in \mathbb{R}^{5 \times 3}为观测到的机器人指尖位置
    该统一动作空间使得EgoVLA可以直接在机器人演示数据上进行微调,无需额外的架构更改或重新初始化

其次,对于人体手到机器人手的映射

在推理阶段,由EgoVLA预测的手腕和手部姿态会被映射到机器人的执行器,如图4(底部行)所示

  1. 首先,手腕姿态通过三维变换被转换为机器人末端执行器的姿态,并通过逆向运动学(IK)求解相应的手臂关节角度
    其次,对于手部驱动,作者使用MANO模型根据预测的MANO参数计算三维手部关键点
  2. 然后,利用一个轻量级的多层感知机(MLP),根据三维手部关键点预测机器人手部的关节指令
    该MLP在机器人演示数据上训练,其中手部动作被重新定向为人体手部的表示
    This MLP is trained on robot demonstrations where hand actuations are retargeted into human hand representations.

    该映射实现了平均指尖位置误差为5 \times 10^{-5}
    此外,通过该重定向流程回放原始演示能够保持任务的有效性,表明重定向过程中引入的小误差不会显著影响控制性能。更多实现细节见补充材料

1.3 Ego 仿人操作基准

除了数据稀缺之外,基于学习的机器人技术面临的另一大挑战是缺乏可扩展、稳健且可复现的评估方式。现实世界中的评估通常成本高昂、耗时,并且存在安全性和可复现性的担忧——这些障碍在资源有限的环境(如学术实验室)中尤为突出

最新研究[69]表明,基于仿真的评估结果与现实世界性能高度相关,因此可作为可靠的替代手段

  1. 故为了实现仿人操作的一致性基准测试,作者提出了Ego仿人操作基准,该基准基于NVIDIA Isaac Lab[70]构建。Ego仿人操作基准并非用于直接的仿真到现实迁移,而是借鉴LIBERO[71]和SIMPLER[69]的做法,将仿真作为一个可控且可复现的测试平台,用于评估操作策略
  2. 作者的仿真平台采用Unitree H1[72]仿人机器人,配备两只Inspire灵巧手[73],涵盖了12项操作任务
    \rightarrow  既包括短时域原子动作(如推箱子、翻杯、倒球、关抽屉、开抽屉、开笔记本、叠易拉罐)
    \rightarrow  也包括长时域多阶段技能(如易拉罐分类、易拉罐插入、易拉罐卸载、插入并卸载易拉罐、将易拉罐叠入抽屉),如图5所示

此外,对于

  • 观测与动作空间
    作者的基准测试为观测提供了机器人关节位置、末端执行器位姿、接触力以及自中心RGB-D视觉输入
    虽然EgoVLA仅使用自中心视觉、末端执行器位姿、手部关节驱动和任务描述,但还为未来研究提供了额外的模态
    机器人通过末端执行器控制手臂,以及通过PD关节控制手部。每只手具有12个自由度(6个主动关节,6个联动关节)
    最终的36维动作空间将手臂逆向运动学与手部直接驱动相结合。控制频率为30 Hz

    且还为每个任务提供逐步的成功指示器和子任务完成标志。每个子任务的定义和成功度量标准详见补充材料
  • 多样化视觉背景
    仿真环境允许对视觉条件进行完全控制。比如包含了5种房间纹理(Room 1–5)和5种桌面纹理(Table 1–5),从而生成25种不同的视觉背景组合,用于对模型泛化能力的稳健评估
  • 演示数据
    为支持模仿学习,作者通过Meta Quest 3结合Open Television [10]采集了专家演示。演示数据均在Room 1、2或3中采集,桌面纹理固定为Table 1
    针对每个任务,作者采集了100条成功的演示,单次演示的帧数根据任务复杂度在100至500之间

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/93123.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/93123.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/93123.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

厨具新风尚,解锁厨房新体验

在快节奏的现代生活中,厨房已不仅仅是烹饪的场所,更是家庭温馨与创意的源泉。一款好的厨具,不仅能让烹饪变得轻松愉悦,更能为餐桌增添无限风味。今天,就让我们一起走进厨具的新世界,解锁那些令人爱不释手的…

手机长焦进化史:攀过十年,终抵云巅

今天,华为相机解决方案专家熊谌飞在《长焦十年之路对谈》直播中,首次系统揭秘了华为手机长焦技术的十年进化史。从P9双摄到Pura 80系列“一镜双目”,每一代影像旗舰,都有一段鲜为人知的诞生秘辛。不少观众这才恍然大悟&#xff1a…

钙钛矿光伏:十年磨一剑,产业化突围路在何方?

2013年,一种具有高效太阳能转化率、高电荷传输率、低成本、制作简单等优点的新型太阳能电池材料——钙钛矿突然出现在大众视野。相比于又重又硬、转换效率通常只有22%-26%的传统晶体硅太阳能板,钙钛矿太阳能电池薄如蝉翼可弯曲&am…

断言:assert()的实用指南

目录 一、断言概述 二、基本用法 三、工作原理 四、断言的优点 五、启用和禁用断言 六、性能考虑 七、最佳实践 八、示例代码 一、断言概述 assert.h 头文件定义了宏 assert(),用于在运行时验证程序是否符合指定条件。如果条件不满足,程序会报错并…

开发避坑指南(27):Vue3中高效安全修改列表元素属性的方法

需求 Vue3 中如何遍历list并修改list元素的属性的值? 解决办法 1、‌使用 map 方法‌ const newList list.value.map(item > {return {...item,modifiedProperty: newValue // 修改的属性名称和属性值} })Vue 中的 map() 函数是 JavaScript 数组的高阶函数&…

L4 级别自动驾驶 硬件架构设计

L4 级自动驾驶(根据 SAE 标准,属于 “高度自动化”)的核心是系统在特定场景下(如城市道路、高速路)可完全自主完成驾驶任务,无需驾驶员干预,且在系统失效时能自动实现安全降级。其硬件架构需满足…

【网络安全测试】手机APP安全测试工具NowSecure 使用指导手册(有关必回)

以下是 NowSecure安全测试工具 的详细使用指导,涵盖从环境准备、测试配置到报告分析的完整流程,适合团队协作或合规性审计场景: NowSecure 使用指导手册 1. 工具简介 定位:自动化移动应用(Android/iOS)安全…

Matlab(5)进阶绘图

一、Advanced 2D plots1. Logarithm Plotsx logspace(-1,1,1000); % 从-1到1生成等间隔的1000个点 y x .^ 2; subplot(2,2,1); plot(x,y); title(Plot); subplot(2,2,2); semilogx(x,y); title(Semilogx); subplot(2,2,3); semilogy(x,y); title(Semilogy); subplot(2,2,4);…

运维学习Day22——Anisible自动化与基本使用

文章目录01-Ansible 自动化介绍Ansible 自动化介绍手动执行任务和自动化执行任务基础架构即代码Ansible 与 DevOps什么是 ANSIBLE?Ansible 特点Ansible 概念和架构Ansible WayAnsible 用例Ansible 部署准备实验环境控制节点受管节点LinuxWindows网络设备02-Ansible …

Codeforces Deque工艺

题目来源: 问题 - 2128B - Codeforces 这道题有些地方表达的并不是特别准确,首先就是从最左端与最右端移除一个元素,实际含义是从原数组的最左端或者最右段依次取出一个元素构成一个新的数组,使得这个新数组的数组符合题目的“好…

谈谈《More Effective C++》的条款30:代理类

在《More Effective C》的条款30中,Scott Meyers深入探讨了**代理类(Proxy Classes)**的设计与应用。代理类是一种通过重载运算符模拟原始对象行为的设计模式,其核心目标是在不直接暴露原始对象的情况下,提供额外功能、…

实用AI在线开发工具网址汇总(含免费限额,国内可访)

AI在线开发工具 标题分类属性在线开发工具1https://www.builder.io/介绍详见:AI在线编码三剑客对决:Replit/Builder/Blot在线开发工具2https://replit.com/介绍详见:AI在线编码三剑客对决:Replit/Builder/Blot在线开发工具3https…

react+vite来优化下每次使用hook函数都要引入的情况

前言:react项目中,每个页面都得引入react/react-dom等元素,就像uniapp的项目中得onload,onshow等生命周期一样,这里也可以用vite的插件:unplugin-auto-import 来解决我们每次都需要调用才能使用hook方法的问题。安装&a…

【排序算法】⑤冒泡排序

系列文章目录 第一篇:【排序算法】①直接插入排序-CSDN博客 第二篇:【排序算法】②希尔排序-CSDN博客 第三篇:【排序算法】③直接选择排序-CSDN博客 第四篇:【排序算法】④堆排序-CSDN博客 第五篇:【排序算法】⑤冒…

如何使用gpt进行模式微调(2)?

对 GPT(Generative Pre-trained Transformer)类大模型进行微调(Fine-tuning),是将其适配到特定任务或领域的关键步骤。以下是 ​​全流程指南​​,涵盖方法选择、数据准备、训练配置、评估部署等核心环节&a…

基于飞算JavaAI实现图书管理系统框架部署

摘要 本文详细介绍了如何利用飞算JavaAI技术实现图书管理系统的框架部署。首先阐述了飞算JavaAI的基本概念、特点和优势,接着对图书管理系统的需求进行分析,然后按照软件开发流程,从系统设计、代码生成、框架搭建到部署测试,逐步展…

ODE-by-Matlab-01-人口增长模型

博客地址:Matlab微分方程01-模型 马尔萨斯模型 马尔萨斯模型是人口增长模型中最简单的模型,它由英国牧师家马尔萨斯在1798年提出。 他利用在教堂工作的机会,收集英国100多年的人口数据,发现人口的相对增长率是常数。 在这个基础…

云原生环境 Prometheus 企业级监控实战

目录 一:基于 kubernetes 的 Prometheus 介绍 1:环境简介 2:监控流程 3:Kubernetes 监控指标 二:Prometheus 的安装 1:从 Github 克隆项目分支 2:安装 Prometheus Operator --server-si…

Python爬虫实战:研究django-dynamic-scraper 框架,构建电商动态数据采集系统

1. 引言 1.1 研究背景 据 Statista 数据,2025 年全球互联网数据总量将突破 175ZB,其中 80% 为非结构化数据(网页、文本、图像等)。高效提取这些数据对企业竞争情报、学术研究至关重要。网络爬虫作为数据获取的核心工具,经历了从静态页面抓取到动态内容解析的演进,但传统…

掌握MATLAB三维可视化:从基础到实战技巧

目录 1. 引言:三维可视化的重要性 2. 基础三维图形绘制 2.1 三维曲线图(plot3) 2.2 三维散点图(scatter3) 2.3 三维网格图(mesh) 2.4 三维曲面图(surf) 3. 参数曲面…