25年8月来自武汉大学、阿里达摩院、湖畔研究中心、浙大和清华的论文“Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors”。

能够泛化抓取目标的灵巧手是开发通用具身人工智能的基础。然而,之前的方法仅仅关注低级抓取稳定性指标,而忽略了affordance-觉察的定位和拟人姿态,而这些对于下游操作至关重要。为了突破这些限制,AffordDex,一个采用两阶段训练的框架,可以学习通用的抓取策略,并固有地理解运动先验和目标 affordance。在第一阶段,轨迹模仿器在大量人类手部动作语料库上进行预训练,以灌输自然运动的强大先验。在第二阶段,训练残差模块,使这些一般的拟人动作适应特定的目标实例。这一改进的关键在于两个组件:负 affordance-觉察分割 (NAA) 模块,用于识别功能上不合适的接触区域;以及一个特别的师-生蒸馏过程,用于确保最终基于视觉的策略高度成功。大量实验表明,AffordDex 不仅实现通用的灵巧抓取,而且在姿势上保持与人类高度相似的抓取姿势,并在接触位置上保持功能上的恰当性。因此,AffordDex 在见过的、未知实例乃至全新类别上的表现均显著超越最先进的基线模型。


灵巧抓取作为机器人操作的基础能力,已引起学术界和工业界的广泛关注 (Zhao et al. 2024b)。与较为简单的末端执行器(例如平行爪、真空夹持器)相比,五指灵巧手的结构与人手结构更加相似,从而显著提高了灵活性、精确度和任务适应性 (Zhong et al. 2025)。此外,拟人机器人通过远程操作加速了丰富的人类演示数据的收集 (Li et al. 2025a)。因此,这种协同效应推动了该领域的快速发展,近期的算法在将抓取泛化至新物体方面取得了很高的成功率 (Fang et al. 2022, 2020; Gou et al. 2021; Wang et al. 2021; Xu et al. 2023; Wan et al. 2023)。

由于灵巧手具有较高的自由度 (DOF),传统的基于运动规划的方法 (Andrews & Kry 2013;Bai & Liu 2014) 难以处理如此复杂的手部关节运动。强化学习 (RL) 的最新进展 (Wan et al. 2023;Mandikal and Grauman 2022;Christen et al. 2022;Nagabandi et al. 2020;Mandikal and Grauman 2021) 已在复杂的灵巧操作中展现出良好的效果。然而,抓取的目标不仅仅是举起一个物体。它涉及与人类意图的一致性,并为后续的操作任务做好准备,例如避开刀刃或准备打开瓶盖。现有方法虽然侧重于低级抓握稳定性指标,但在很大程度上忽略了 affordance-觉察定位与类人运动学之间的关键结合,从而限制了它们在现实世界多步骤操作场景中的实用性。

本文通过建模负 affordance(需要避开的区域)来关注安全性和功能正确性这一关键方面,这些区域提供了清晰明确的负约束,从而简化学习问题。 AffordDex,可以学习一种通用的抓握策略,该策略既具有类人运动能力,又能够感知物体 affordance。其通过一个结构化的两阶段训练范式来实现这一点。在第一阶段,基于大量人类手部动作对基础策略进行预训练,以灌输自然运动的强大先验知识。在第二阶段,训练一个残差模块,使预训练策略中的类人运动适应特定物体。如图所示,AffordDex 生成的抓取动作不仅成功,而且非常类似于人类,功能正确,例如安全地握住刀柄。

请添加图片描述

为了生成具有 affordance-觉察定位和类人运动的抓取动作(这对于促进下游操作至关重要),提出一个两阶段框架。第一阶段通过在大规模人体运动数据集 (Zhan et al. 2024) 上通过模仿学习预训练基本策略 πH 来建立强大的人体运动先验。这将策略限制为一系列自然的类人运动。在第二阶段,冻结 πH 的权重并通过强化学习 (RL) 训练轻量级残差模块,使这些一般运动适应特定的物体交互。这个 RL 细化阶段主要由两个组件引导:负 affordance-觉察分割 (NAA) 模块,它对物体不能接触的位置提供明确的约束;以及一个师-生蒸馏框架,它利用特别状态信息来显著提升最终策略的性能。如图展示该方法的概述:

请添加图片描述

人手轨迹模仿

在此阶段,目标是学习一个基础策略πH,该策略能够捕捉自然人手运动的运动学先验。将此任务表述为一个强化学习 (RL) 问题,其中策略 πH (a_t|SH_t) 学习基于时刻 t 的当前状态 SH_t 生成灵巧的手部动作。为了便于后续的微调阶段,状态由机器人状态 R_t、物体状态 O_t 和物体的点云表示 P_t组成,即SH_t = {R_t, O_t, P_t}。

奖励函数。设计一个奖励函数rH,以促进对人手轨迹的精确模仿和运动稳定性。它由两个项组成:手指模仿奖励 rH_finger 和平滑度奖励 rH_smooth。

手指模仿奖励 rH_finger 鼓励灵巧手紧密跟踪人手数据集中的参考手指姿势。根据 (Li et al. 2025b) 的研究,根据机器人灵巧手和 MANO 手上对应关键点 F 之间的距离来定义此奖励。

平滑度奖励 rH_smooth 通过惩罚过度功耗来鼓励节能运动。它通过关节速度和施加扭矩的元素乘积来计算。

负 affordance-觉察分割

先前研究在抓握合成方面存在一个显著的局限性 (Xu et al. 2023; Wan et al. 2023; Zhong et al. 2025),即忽略了交互的语义和功能背景。一个典型的例子是刀:虽然刀刃在几何上对于抓握来说是稳定的,但任何这样的抓握在功能上都是不正确且不安全的。为了解决这一局限性,引入负 affordance-觉察分割 (NAA) 模块,以融入负 affordance——推理物体的哪些部分不应该被触碰。提出的 NAA 能够利用视觉-语言模型 (VLM) 中丰富的世界知识 (Radford et al. 2021; Achiam et al. 2023),以开放词汇的方式进行操作,并自动受益于未来基础模型的进展。这确保了生成的抓取不仅在几何上稳定,而且在语义上连贯且具有任务感知能力。

VLM 难以解释无纹理的 3D 网格,因为这些模型主要依赖于从图像中学习的丰富视觉线索。为了弥补这一缺陷,首先对原始网格应用程序化纹理 (Zhang et al. 2024c),该方法基于几何分析生成语义上合理的纹理,确保在不同物体形状上的鲁棒性。接下来,从六个基本方向渲染带纹理的物体,以创建多视图图像集 I 作为整体视觉表示。虽然这可能无法捕捉高度复杂物体的所有凹面,但它为基准数据集中物体的 affordance 预测提供了充分的基础,体现了覆盖范围和计算成本之间的实际权衡。然后,本文查询 GPT-4V (Achiam et al. 2023) 以引出物体 affordance 的详细描述。

视觉-语言模型 (VLM) (Radford,2021) 和多模态大语言模型 (MLLM) (Achiam,2023) 在图像级理解方面表现出色,但在分割所需的细粒度空间定位方面却举步维艰。为了解决这个问题,不再要求 CLIP (Radford,2021) 从图像中找出“叶片部件”,而是将分割任务转变为一个简单得多的分类任务。生成一组精确的物体-部件掩码 M_i,并将它们用作视觉提示,让 CLIP 识别 M_i 中哪个掩码与文本描述“叶片部件”的语义相似度最高。具体来说,对于每幅图像 I_i ∈ I,提示“SAM”(Kirillov,2023),在 I_i 上叠加一个密集的点网格 G,这会提示 SAM 执行详尽的分割,识别所有潜在的物体和部件。然后使用非最大抑制 (NMS) 对得到的掩码集合进行细化,以消除重复,从而产生一个干净的候选掩码集 M_i。对于每个掩码 M_ij ∈ M_i,用高斯滤波器模糊掩码外部的区域来生成视觉提示图像 I_ij (Yang et al. 2023)。然后,将提示图像集 {I_ij} 与文本查询一起传递给 CLIP,以计算每个图像-文本对的相似度得分。选择相似度得分最高的掩码作为最终的分割掩码。然后,将掩码投影到 3D 空间中,以分割目标点云的相应区域,从而获得负 affordance N_t,如图所示。

请添加图片描述

affordance-觉察的残差学习

基于提出的NAA预测负 affordance,用残差模块 R 来改进预训练策略πH。由于视觉姿态估计本质上不如使用特别状态信息精确,直接训练有效的基于视觉的策略可能具有挑战性。因此,首先训练一个基于状态的教师策略πT,它可以访问环境的真实状态(例如物体状态),以学习残差动作来改进πH预测的初始动作。教师策略πT完成训练后,用模仿学习算法DAgger(Ross、Gordon和Bagnell,2011)将 πT 蒸馏为基于视觉的学生策略 πS,该策略可以访问预言机信息,并让策略辅助和简化基于视觉的策略学习。

基于状态的教师策略。在此阶段,输入为机器人状态 R_t、物体状态 O_t、场景点云 P_t 和预测的负 affordance N_t。场景点云由多视角深度摄像头融合。目标是学习残差动作 ∆_a_t = πT (S_tT),并结合 PPO (Schulman et al. 2017) 预测的负affordance。最终,动作通过逐元素加法计算得出。

奖励函数。奖励函数 rT 定义为:rT =−rT_d −rT_g +rT_s −r_n,其中抓握奖励 r_dT 惩罚灵巧手与物体之间的距离,鼓励手保持与物体表面的接触,以实现稳固的抓握。目标奖励 r_gT 惩罚物体与目标之间的距离,成功奖励 rT 在物体成功到达目标时给予奖励。此外,负 affordance 奖励 r_nT 惩罚灵巧手接近预测的负affordance。

基于视觉的学生策略。对于基于视觉的策略,仅允许其访问现实世界中可用的信息,包括机器人状态 R_t、场景点云 P_t 和预测的负 affordance N_t。然后,用 DAgger (Ross, Gordon, and Bagnell 2011) 将教师策略 πT 蒸馏为基于视觉的学生策略 πS


实验情况如下。

数据集

UniDexGrasp (Xu et al. 2023)。该数据集包含 3165 个不同的物体实例,涵盖 133 个类别。评估基于这 3,200 个可见物体,以及来自见过类别的 140 个未见过物体和来自未见过的 100 个未可见物体。每个环境都随机初始化一个物体及其初始姿态,该环境由固定摄像头捕捉的全景 3D 点云 P_t 组成,用于基于视觉的策略学习。

OakInk2 (Zhan et al. 2024)。该数据集记录人体上半身和物体的姿态和形状的操作过程。用其中约 2,200 个右手操作序列对 πT 进行预训练。还使用 OakInk2 中的物体来评估其在抓取方面的泛化能力。

指标

参照前人的研究(Xu et al. 2023; Wan et al. 2023; Wang et al. 2025),每个物体被随机旋转并落到桌面上,以增强其初始姿势的多样性。结果报告所有物体和抓取尝试的抓取成功率 Succ、人像评分 HLS 和 affordance 评分 AS。如果物体在模拟器中 200 步内达到目标,则认为抓取成功。人像评分 HLS 评估抓取的拟人化质量,该质量是通过提示 Gemini 2.5 Pro(Comanici et al. 2025)分析​​抓取执行的视觉序列获得的。该指标专门用于评估灵巧手运动与典型人类运动的相似性,从而定量衡量自然度。相比之下,affordance 评分 (AS) 通过惩罚与不适当物体部位的接触来评估抓握的功能正确性。该指标使用从 NAA 中采样的 100 个“负 affordance”点云计算得出。具体来说,每指尖与负 affordance 点集中的任何点保持 2 厘米以上的距离,分数就会加 1,从而奖励功能良好的抓握。

实施细节

在 Issac Gym (Makoviychuk,2021) 模拟器中进行实验。训练期间,在 NVIDIA RTX 4090 GPU 上并行模拟 4096 个环境。对于网络架构,在基于状态的设置中使用具有 4 个隐藏层(1024,1024,512,512)的多层感知器 (MLP) 作为策略网络和价值网络;在基于视觉的设置中,用一个额外的 PointNet+Transformer(Mu,2021)来编码 3D 场景点云输入。

灵巧手配置。用 Shadow Hand,它具有 24 个主动自由度 (DOF)。手腕具有 6 个由力和扭矩控制的自由度,而手指具有 18 个由关节角度控制的主动自由度。具体来说,拇指有 5 个 DOF,小指有 4 个,其余三个手指各有 3 个。此外,除拇指外,每个手指都包括一个被动的、不受控制的 DOF。

最后,AffordDex 算法总结如下:

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97336.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97336.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/97336.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目管理的关键成功因素

项目管理的关键成功因素包括:目标明确、科学规划、有效沟通、资源保障、风险管理、团队协作、持续监控与总结改进。目标明确保证方向不偏移、科学规划确保执行有章可循、有效沟通减少误解与冲突、资源保障提供坚实支撑、风险管理帮助预防问题、团队协作提升整体效率…

[光学原理与应用-338]:ZEMAX - Documents\Zemax\Samples

Documents\Zemax\Samples 是 Zemax OpticStudio 软件自带的样例文件目录,包含大量预设的光学设计案例,涵盖镜头设计、照明系统、公差分析、非序列光学等多个领域。这些样例是学习软件功能、验证设计方法和快速启动项目的宝贵资源。以下是该目录的详细解析…

el-table合并列实例

想要实现效果:目前接口返回数据data:[{companyCode: "NXKYS",companyName:1123,costContractId:1123,costContractName:1123,createBy:1123,details:[{brand:1123,contractItemName:1123,modelSpec:1123,projectItemId:1123,requestQty:1123,transactionZ…

虚假 TradingView Facebook 广告在全球传播 Android 间谍软件

一项快速发展的恶意广告活动最初通过 Meta 的广告网络针对 Windows 用户,现已将其范围扩展到 Android 设备,推广伪装成合法交易应用程序的 Brokewell 恶意软件的高级版本。 Bitdefender Labs 警告称,此次移动攻击活动目前已在全球范围内展开…

Android系统框架知识系列(十九):Android安全架构深度剖析 - 从内核到应用的全栈防护

​关键词​:安全启动链、应用沙箱、SELinux、硬件安全模块、权限控制、零信任架构一、Android安全架构的基本概念与背景1. 移动安全环境的特殊性Android作为全球最大的移动操作系统,面临着独特的安全挑战:​移动设备的安全威胁维度​&#xf…

智能消防栓闷盖终端:让城市消防管理更智慧高效

然而您是否知道,这些传统的消防栓常常面临非法开启、人为破坏、水压不足等管理难题?当火灾真正发生时,它们能否可靠地提供"救命水"?如今,随着智能消防栓闷盖终端的出现,这一切正在悄然改变。 智…

【系统架构设计(一)】系统工程与信息系统基础上:系统工程基础概念

文章目录一、系统工程的基本概念二、系统工程方法论1、霍尔三维结构:硬科学2、切克兰德方法:软科学思维3、其他三、系统工程生命周期管理1、生命周期阶段划分2、生命周期方法论系统工程与信息系统基础为复杂系统设计提供从思维方法到具体技术的全方位指导…

[p2p-Magnet] 队列与处理器 | DHT路由表

第6章:队列与处理器 在第5章:分类器中,我们了解了系统如何分析原始种子数据。但当系统突然发现数百万新种子时,如何高效处理这些海量任务?这就是队列与处理器系统的职责所在。 核心概念 任务队列 功能定位&#xf…

Spring JDBC 源码初探:异常处理体系

一、Spring JDBC 异常体系简介 当我们使用 Spring JDBC 进行数据访问时,大多数人关注的是 JdbcTemplate 如何简化数据库操作,却很少有人去深入理解异常体系。事实上,异常不仅仅是错误提示,它是系统健壮性、可维护性的重要一环。JD…

如何提高微型导轨的生产效率?

在精密机械制造领域,每一个细微的元件都可能成为决定产品性能和品质的关键因素。而微型导轨正是体型小、高精度优势,在精密制造领域得到广泛应用,它高效支撑着现代工业的生产方式和效率。那么,如何提高微型导轨的生产效率呢&#…

轻量xlsx读取库xlsx_drone的编译与测试

这个库是在看其他网页时,作为和功能丰富的xlsxio库的对比来的,按照xlsx_drone github页面介绍, 特征 不使用任何外部应用程序来解析它们。注重速度而不是功能。简单的接口。UTF-8 支持。 安装 直接将 src 和 ext 文件夹复制并粘贴到项目根文…

Linux/UNIX系统编程手册笔记:文件I/O、进程和内存分配

文件 I/O 深度解析:掌握通用 I/O 模型的核心逻辑 在 Linux 系统编程中,文件 I/O 是程序与外部设备(文件、设备等 )交互的基础。从打开文件到读写数据,再到关闭资源,一系列系统调用构成了通用 I/O 模型的核心…

C++转置正方形矩阵

C转置正方形矩阵&#xff0c;就是正方形矩阵的a[i][j]a[j][i]。输入31 2 34 5 6 7 8 9输出1 4 72 5 83 6 9#include<bits/stdc.h> using namespace std; int main(){int n;cin>>n;int arr[n5][n5];for(int i0;i<n;i){for(int j0;j<n;j){cin>>arr[i][j]…

Ztero文献管理工具插件设置——亲测有效

一、Zotero简介与安装 Zotero是一款开源文献管理软件&#xff0c;能够帮助我们方便地收集、整理、引用和导出文献。它作为一个"在你的网页浏览器中工作的个人研究助手"&#xff0c;可以捕获网页内容并自动添加引用信息。 安装步骤&#xff1a; 访问Zotero官网&…

【gflags】安装与使用

gflags1. 介绍2. 安装3. 使用3.1 头文件3.2 定义参数3.3 访问参数3.4 不同文件访问参数3.5 初始化所有参数3.6 运行参数设置3.7 配置文件的使用3.8 特殊参数标识1. 介绍 gflags 是 Google 开发的一个开源库&#xff0c;用于 C 应用程序中命令行参数的声明、定义和解析。gflags…

基于MATLAB的三维TDOA定位算法仿真实现

一、算法原理与仿真框架 三维TDOA&#xff08;Time Difference of Arrival&#xff09;定位通过测量信号到达多个基站的时间差&#xff0c;结合几何关系反演目标位置。其核心步骤包括&#xff1a;几何建模&#xff1a;建立目标与基站间的距离差方程&#xff0c;形如下式&#x…

Linux-搭建DNS服务器

Linux-搭建DNS服务器1. 安装软件bind2.修改配置文件3. 在其他机器上测试DNS服务器4. 配置本地域名解析5. 优化后的zone1. 安装软件bind bind是历史非常悠久&#xff0c;而且性能非常好的dns域名系统的软件 [rootdns-server ~]# yum install bind bind-utils -y 启动named服务 …

从全栈开发视角看Java与前端技术融合实践

从全栈开发视角看Java与前端技术融合实践 面试场景记录&#xff1a;一次真实的面试对话 面试官&#xff1a;你好&#xff0c;很高兴见到你。我是这次面试的负责人&#xff0c;可以简单介绍一下你自己吗&#xff1f; 应聘者&#xff1a;您好&#xff0c;我叫李明&#xff0c;今年…

第二阶段WinForm-11:自定义控件

1_继承链 &#xff08;1&#xff09;Form1的继承链&#xff1a;Form1>Form>ContainerControl>ScrollableControl>Control &#xff08;2&#xff09;Button的继承链&#xff1a;Button>ButtonBase>Control>Component 2_自定义控件 &#xff08;1&…

【2025 完美解决】Failed connect to github.com:443; Connection timed out

文章目录前言1. 生成并上传 SSH Key2. 写 SSH 配置&#xff0c;强制走 ssh.github.com:4433. 连通性自检&#xff08;看是否能握手成功&#xff09;4. 克隆5. 验证前言 今天和往常一样&#xff0c;写完代码&#xff0c;准备 push 到 github 仓库中&#xff0c;结果发现一直卡在…