前言

尽管当前的视觉-语言-动作（VLA）模型已展现出显著进展，但其在新场景和与复杂物体交互中的性能会显著下降，在遵循指令方面落后于像LLaVA 这样的大型多模态模型（LMM）。

这种局限性源于现有VLA模型对存在固有仿真到现实差距（Sim-to-Real Gap）的合成数据或缺乏多样性的有限规模的实验室遥操作演示数据的依赖，导致其难以胜任高灵巧度操作任务，且在新场景中泛化能力有限。

1）合成数据：虽有研究者们尝试利用仿真器获取低成本合成数据，但其有限多样性与未解决的仿真-现实差异，仍阻碍着灵巧手的实际部署。

2）遥操作数据：该类数据的规模与互联网级别的大型多模态模型（LMMs）训练数据相比，存在数个数量级的差距，这使得具身智能陷入了持续的 “数据泥潭”。对于灵巧手而言，这种数据稀缺问题尤为突出 —— 由于操作复杂性和硬件成本的限制，迫使大多数VLA模型只能局限于适配简易夹爪。然而，这些末端执行器自由度有限，无法实现精细的手指控制，因此无法完成复杂交互所需的精确协调或微妙的力调节。

具身智能面临的数据难题该如何突破呢？由北京大学、中国人民大学以及北京智在无界科技有限公司（BeingByond）联合发表的论文《Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos》提出了值得参考和借鉴的思路。

论文指出：为突破数据瓶颈，人类活动视频为VLA训练提供新路径 —— 具备海量真实世界数据且与现实差异极小。尽管已有研究采用隐式学习方法（如对比学习、掩码自编码、潜动作建模）增强机器人技能，但这些方法的学习机制与迁移效果仍不明确。

值得注意的是，此类方法未能复现LLM/LMM领域的性能跃升，例如视觉指令微调在LLM/LMM领域展现的突破性效果。这种差距可能源于数据结构的根本差异 —— 在大型语言模型和大型多模态模型中，预训练数据与下游训练数据具有同构性，因此文本推理与语言任务能无缝适配，视觉-文本理解能力也能自然迁移至多模态任务。

相比之下，在VLA中却呈现出异构性—— 文本/二维视觉输入与具有本体感知需求的三维动作空间之间存在显著差距。

因此，研究人员分析了视觉指令调优的成功因素，并提出了物理指令调优这一新范式来训练了灵巧视觉-语言-动作模型——Being-H0。

该模型将人手确立为下游操作的通用基准（也就是说，将人手作为“基础操控器”），使机器人能从网络视频学习多样化技能。据悉，这是首次通过大规模人类视频的显式动作建模，预训练可扩展、强泛化能力的VLA模型。

如下图所示，物理指令调优范式包含三个关键组成部分：人类视频驱动的VLA预训练、面向三维推理的物理空间对齐以及针对机器人任务的后训练适配。

Being-H0模型物理指令调优的三个关键组成部分

备注：文本分词器（text tokenizer）和视觉编码器（visual encoder）在预训练和后训练阶段是共享的。对于预训练以及手部运动/ 平移任务，Being-H0 以自回归方式生成输出。对于后训练以及下游操作任务，Being-H0 引入了一组可学习的查询向量作为动作块进行预测。

同时，本论文还提出部件级动作Token化技术，通过毫米级重建精度建模精准手部轨迹。另外，为支撑此框架，研究人员构建了统一数据整备管线，整合了涵盖动作捕捉数据、VR交互记录、纯RGB视频在内的数据，形成包含数百万动作驱动型指令实例的大规模数据集 - UniHand。

一、物理指令调优的三个关键组成部分

Being-H0模型物理指令调优过程

通过统一物理指令微调，搭建起了人类视频数据集与机器人操作之间的桥梁。

1）图左侧：部件级运动Token化 —— 将连续的手部运动转换为离散Token。物理空间对齐通过坐标系对齐和MANO参数化，统一异构数据源 —— 从视频中的人类手部演示（数据集）到真实机器人数据，为预训练和后训练监督创建一致的表征。

2）图中间：在预训练阶段—— 将视觉-文本参数 Θv,t 扩展以纳入运动参数Θm，使统一序列内的视觉、文本和运动Token能够实现多头注意力交互。用蓝色表示视觉和文本注意力，红色表示运动注意力，黄色表示跨模态注意力。

3）图右侧：扩展阶段展示了注意力机制如何适配预训练的跨模态依赖关系（Attnv,t|m），随后是后训练阶段，其中纳入动作参数Θa，生成具有参数Θa,v,t|m的最终VLA模型，用于下游机器人任务。绿色部分表示动作注意力。

1. 预训练

现有的大型多模态模型（LMMs）在多模态推理方面表现出色，但在适配为用于操作任务的视觉-语言-动作模型（VLAs）时表现欠佳。原因在于预训练数据与下游任务数据之间存在根本性不匹配。

为弥合这一差距，研究人员利用人类与机器人操作器在结构上的相似性，引入了手部运动生成预训练。该预训练方法是将人手视为理想的操作器，而机器人操作器则被视作人手的简化版本。

预训练使用一个多模态数据集：D = {(vᵢ, tᵢ, mᵢ)}来训练基础VLA，使其能够根据视觉输入和语言指令预测手部运动。

其中v 代表视觉输入， t 代表语言指令， m = {θ, rrot, τ, β} 代表基于 MANO 模型参数化的运动数据（包括关节角度 θ, 手腕旋转 rrot, 平移 τ, 和手部形状 β）。每个样本都被视为一个指令-执行对{XQ, XA}，并通过以下优化目标进行训练：

其中Θ 表示基础模型，XA = {yᵢ} 包含来自文本和运动模态的目标词元。该统一框架支持灵活的任务定义，包括：视觉到动作生成、动作描述生成以及面向多样化手-物交互场景的多模态条件生成。

1）模型架构

Being-H0 基于预训练的大型多模态模型（LMM）构建，采用 InternVL3 架构。主干网络包含两大部分：一个是基于预训练的 InternViT-300M 作为视觉编码器，以及一个2层的多层感知器（MLP）作为投影器。在每个时间步，模型会处理图像-文本对输入，以预测手部运动序列。

采用动态高分辨率策略，将输入图像分割为多个图像块，同时保持宽高比以最大限度减少失真，从而保留精细的视觉细节。

另外，将手部运动视为一种“外语”，以促进其与大型多模态模型的无缝整合。在预训练阶段，手部运动Token生成器会将连续的运动特征量化为离散嵌入。为将运动Token整合到大型多模态模型主干中，通过运动码本中的 K个离散编码扩展了模型的词汇表。此外，还引入了两个特殊Token<MOT>和</MOT>，用于标记运动块的边界。

2）手部运动Token化

运动Token化器旨在将原始运动序列中包含T帧的手部特征 M = {m₁, m₂, ..., m_T} 编码为⌈T/α⌉个维度为 d 的Token嵌入，其中α 表示时间下采样率。

a.运动特征

使用三维模型MANO来表示手部姿态，其参数化为 m = {θ, rrot, τ, β}。在本文中，探索了五种备选表示方式：

MANO-D51：每帧手部运动被编码为 m∈R⁵¹，包含θ∈R15×3、rrot∈ R³ 和τ∈R³，其中θ和 rrot 以轴角形式表示。
MANO-D99：每帧手部运动被编码为 m∈R⁹⁹。与 MANO-D51 不同，该特征采用 6D旋转（θ∈R15×6和rrot∈R⁶）而非轴角形式。
MANO-D109：在 MANO-D99 的基础上进行扩展，额外纳入了形状参数 β ∈ R10。
MANO-D114：在 MANO-D51 的基础上进行扩展，增加了关节位置 j∈R21×3。注意，关节位置仅在重建训练中作为辅助特征，而在评估和推理阶段，仅使用51 维参数。
MANO-D162：与 MANO-D114 类似，在MANO-D99的基础上增加了关节位置 j∈R21×3。

论文中提到：6D旋转特征在手指关节旋转的重建质量上表现更优，而轴角特征在腕部姿态重建方面效果更好。研究人员将这一现象归因于手部不同部位的结构特点—— 腕部通常表现出幅度较大但更为简单的旋转，轴角表示法的简洁性和计算效率使其在此处更具优势。相比之下，手指旋转涉及更精细的细节，而6D旋转表示法的连续性和数值稳定性能够更好地捕捉这些细节。

尽管由于腕部姿态误差的主导影响，使用轴角特征时整体重建误差更低，但研究人员最终为手部运动Token生成器选择了6D旋转特征，因为它在 Being-H0 的训练中表现更优。

一个可能的解释是，大型多模态模型（LMMs）相对容易学习腕部姿态模式，而对精细的手指运动进行建模则面临更大挑战。因此，在该研究中，选择 MANO-D162 作为手部运动的特征。

另外，研究人员打算在未来的工作中探索腕部使用轴角特征与手指使用6D旋转特征的组合方式。

b.分组残差量化

运动Token生成器的精度对生成的手部运动质量以及所学到的运动先验知识在下游操作任务中的可迁移性都有着关键影响。为确保最佳性能，研究人员精心设计了一款专门用于手部运动的Token生成器。其架构基于分组残差量化器变分自编码器（GRQ-VAE）构建，如下图所示。

基于GRQ的部件级手部运动Token化

c.部件级运动Token生成器

鉴于腕部参数重建的复杂性高于手指运动，研究人员为腕部和手指参数分别设计了Token生成器，使每个Token生成器能够更好地对部件级特征进行建模。

具体而言，手部运动特征m = {θ, rrot, τ, β} 被分解为用于全局姿态和精确定位的腕部运动 {rrot, τ}，以及用于精细操作的手指运动 {θ, β}。

这种部件级Token化不仅改进了特征建模，还提供了明确的Token语义，使大型多模态模型（LMM）主干能够更好地捕捉结构化的手部动态。使用部件级Token生成器时，腕部损失 Lwrist 将被省略。

3）多模态整合

与传统的大型语言模型（LLMs）一样，采用下一个 token 预测的方式来生成输出。Being-H0 通过将三种模态 ——RGB视觉、文本和手部运动 —— 统一token化（转换为离散 token）来进行处理。

文本的处理方式遵循大型语言模型的常规做法，下面详细阐述另外两种模态（视觉和手部运动）的处理过程。

a.视觉Token

视觉输入需经过专门处理，以应对可变分辨率图像与动态内容复杂度的挑战。给定输入图像后，首先采用动态分块策略，根据图像内容复杂度生成N 个图像块。

参照InternVL 的设计，该分块策略包含缩略图生成以保留全局上下文：始终保留一个下采样版本 Ithumb（像素混洗比例为0.5）与细节图像块并行处理。

视觉处理过程：首先使用视觉编码器从这些图像块中提取特征，然后通过MLP 层将特征投影到统一的嵌入空间中。

视觉Token使用边界标记 <IMG> 和 </IMG> 包裹序列，而 <IMG_CONTEXT> 作为动态占位符Token，在处理过程中被实际视觉嵌入实时替换。

b.运动Token

运动数据在整合到token 流中之前，会先进行量化处理。对于表示为M的运动特征序列，运动 tokenizer 会将其量化为离散 token 序列 {mi}。

运动序列通过边界标记<MOT>和</MOT>构建结构，形成每秒128个 token的运动块。这种结构化表示确保运动信息在 token 流中具有清晰的界限，同时保持与Transformer 架构的兼容性。

多模态融合: 该模型通过统一的token空间处理所有模态，采用共享的嵌入层和注意力机制。在融合过程中，视觉token会替换 <IMG_CONTEXT> 占位符，而运动token则作为结构化块插入到文本序列中。

由此生成一个组合token序列 S = {si}，其中每个元素si可能代表文本、视觉或动作内容。注意力机制在跨模态间同步运作：对于拼接后的多模态隐藏状态Hv,t,m = [Hv；Ht；Hm]（分别代表视觉、文本和运动嵌入），通过共享投影权重矩阵计算查询（Query）、键（Key）、值（Value）：

其中，W {Q,K,V} 表示权重矩阵。此架构支持直接跨模态注意力机制，使模型能够捕捉模态间的深层依赖关系，例如将视觉观测关联到特定手部运动，或将语言指令锚定到运动序列。

预训练阶段，在原始视觉-文本参数 Θv,t 的基础上扩展，纳入了运动参数Θm，通过共享注意力机制实现对三种模态的统一处理。模型通过在视觉观测与语言指令的整体上下文中预测离散运动Token，学习生成连贯的运动序列。

物理指令调优过程

2. 物理空间对齐

上述所提到的预训练方法旨在弥合视觉-动作之间的鸿沟以构建一个基础视觉-语言-动作模型（VLA），但它面临着超越标准视觉指令调优的独特对齐挑战。

关键难点源于以下三个方面：

（1）来自多源的视觉输入在相机内参上存在差异，且是在动态世界坐标系下捕获的数据；

（2）模型的主干网络使用二维视觉-文本预训练进行初始化，致使其缺乏关键的三维空间先验知识；

（3）视频数据中缺失人类凭直觉就能理解的力、摩擦力等基本物理属性。

与生物视觉系统通过具身经验自然形成三维感知不同，该论文中通过物理空间对齐来显式地校准这些不同的数据源：将观测结果统一到一致的坐标系中，并逐步“灌输”三维推理能力和物理理解能力。

为了构建一个足够大规模的灵巧人类手部动作视频数据集，需要从各种数据集和公开来源收集样本。然而，这种方法会导致相机系统存在差异，给有效的预训练带来挑战。此外，现有的语言-多模态模型（LMMs）的3D感知能力有限。

为缓解这一问题，该论文中引入了物理空间对齐技术 —— 这是一个统一的工具包，可将不同相机拍摄的视频映射到一致的物理空间中，同时融3D空间推理和物理属性（若有），以增强跨数据集的几何一致性和感知一致性。

接下来介绍论文中提到的两种物理空间对齐策略：弱透视投影对齐和视角不变的动作分布平衡。

1）弱透视投影对齐

不同数据源的相机系统存在固有差异，导致3D空间的投影不一致。尽管人类能够直观地感知深度并估计手部与物体之间的抓取距离，但在这类多源数据集上训练的模型往往难以将图像投影准确映射到实际3D场景中，从而在3D空间推理中产生误差。

为缓解这一问题，研究人员建立了统一的弱透视相机空间，确保从2D视觉内容到共享3D参考框架的一致性对齐。这种方法能为相似深度的物体维持统一的像素尺度，减轻因相机内参不同造成的不一致性。

2）视角不变的动作分布平衡

培养模型稳健的指令遵循能力，需要对指令微调数据进行细致的预处理，以确保数据分布的平衡性，对于物理指令微调而言尤其如此。

如果数据集中某一种相机配置占主导地位，可能会给3D感知系统带来偏差，最终限制模型在未见过的相机设置中的泛化能力。

为缓解这一问题，研究人员提出了一种新颖的分布平衡策略，对小规模数据源的视频-动作对进行增强，避免它们被大规模数据源的样本所掩盖。在平衡过程中，在不改变相机视角和位置的前提下，调整手部姿态分布。重要的是，该方法保留了来自不同数据源的动作之间的弱透视一致性，确保连贯的3D理解。

3）其它

除上述两种策略外，该论文还提出了一种观点：整合更丰富的物理线索能进一步提升模型对空间和物理环境的理解。例如，融入视觉深度信息、触觉反馈或其他多感官信号，可为人类活动提供更具扎实依据且更贴合实际的表征。这些模态能从不同角度补充物理交互和3D结构的信息，而仅靠2D视觉输入，这些信息往往模糊不清或表述不足。

这种多感官整合可解决纯视觉方法固有的根本性局限。例如，RGB-D 传感器提供的深度信息能消除弱透视投影带来的空间模糊性；触觉反馈可捕捉关键的接触动态、握力和材料属性，这些在视觉观察中不可见，但对成功完成操作至关重要；物体交互产生的音频信号能进一步区分视觉上相似但物理过程不同的操作策略，比如区分轻柔放置和用力按压动作。

这些增强的对齐策略能构建更稳健的表征，更精准地捕捉人类在操作任务中自然具备的丰富物理理解能力。

对于规模规模更大，更多样化的数据集，整合此类多模态物理线索对于弥合人类演示数据与机器人在各种真实场景中可靠部署之间的差距，将变得愈发重要。

3. 后训练

经过预训练和物理空间对齐后，基础VLA模型具备了全面的视觉-语言-动作理解能力，但还需要适应特定的机器人操作任务。

后训练阶段将模型参数从Θv,t,m 扩展至Θa,v,t|m，纳入了动作参数Θa，使其能够直接实现机器人控制，同时利用预训练过程中学习到的丰富多模态表征。

物理指令调优过程

人类手部与机器人灵巧手/夹爪之间的运动学差异，使得基础 VLA 模型及其动作 token 无法直接迁移使用。研究人员采用基于非自回归 MLP 的投影方法来弥合这一差距。

Being-H0模型物理指令调优的三个关键组成部分

采用VLA主干网络作为预训练编码器，通过轻量级MLP投影头（fp）将灵巧手的本体感知状态投射到其嵌入空间中。该本体感知嵌入与视觉-文本Token结合，形成统一上下文（ctx），实现对感官输入、语言指令和当前物理构型的协同推理。

在动作生成方面，使用一组可学习的查询 token {q1, ..., qNa}，这些 token在预训练编码器中关注上述上下文信息，同时，通过一个回归策略头 MLP（fr）将预训练编码器的输出转换为可执行的灵巧姿态。

训练后阶段的目标是通过模仿学习来复现专家演示。这种方法能有效将预训练的基础VLA模型升级为可生成机器人可执行控制指令的模型，同时保留跨模态推理能力，并支持多项任务，例如：从视觉-文本输入生成动作、基于文本对观察到的动作进行描述，以及通过特定领域微调实现机器人控制适配。

二、UniHand: 手部动作指令数据集

1. 数据集来源

1）数据集来源于三个主要渠道：

动作捕捉数据集：这类数据集包含来自受控环境（如工作室、实验室）中多视角动作捕捉系统的高精度3D标注，但其多样性往往有限。例如，OAKINK2提供了多视角、以物体为中心的真实世界双手操作记录。
VR录制数据集：这类数据集利用VR设备（如苹果 Vision Pro），通过校准相机和基于SLAM 的跟踪技术，在约束较少的环境中捕捉自然的手部-物体交互，同时保持可靠的3D真值。例如，EgoDex，其中包含多达194项家庭操作任务，如系鞋带和叠衣服。
伪标注数据集：利用现成的手部动作预测器，从真实场景视频中生成伪3D标签。尽管这类数据集噪声较多，但在可扩展性和多样性方面表现出色。例如，Taste-Rob包含约10万个从固定视角录制的第一视角视频，且配有对齐的语言指令。

UniHand 数据集整合了 11 个来源的信息，不仅包含详尽的手部动作标注，还配有对应的 RGB观测数据。该数据集规模庞大，共涵盖超过 44万个任务轨迹，包含1.3亿余帧画面与1100多小时的视频内容。

受计算成本限制，研究人员从UniHand中抽取了250万个指令数据点用于预训练。这一子集是基于平衡采样策略选取的，以确保任务类型和数据来源的多样性，并将其称为 UniHand-2.5M，据悉，这是目前规模最大的第一视角手部动作数据集。

UniHand-2.5M 数据集

备注：左侧表示来自不同数据源类型的场景和任务；中间表示不同数据源、数据类型及时长的分布情况；右侧表示不同数据类型的样本。

UniHand数据集信息统计

备注：#Inst 指的是用于该研究所生成的指令样本数量。

2. 数据整备流程

1）手部姿态标准化

模型将手部动作视为3D信号，学习从2D视觉观测到3D空间坐标的显式映射，以确保几何精度和视觉-语义一致性。为解决不同数据集间动作标签的异质性问题，需要通过手部姿态标准化来整合不同数据源。

对于包含动作捕捉或SLAM跟踪标签的数据集，直接提取其MANO参数形式的标注。当仅存在3D手部关节位置时，通过基于梯度的优化方法推导出相应的MANO 参数。若数据集完全缺乏 3D手部姿态或关节标注，则利用 HaMer进行逐帧姿态估计，以保持一致的动作语义。

为提升HaMer 输出结果的可靠性，通过识别姿态不连续性来检测并纠正左右手匹配错误，随后采用时间插值法填补微小缺口。此外，拟合过程中还融入了关节角度约束和时间平滑正则化，以确保手部动作在物理上合理且连贯。

2）任务描述标签

为了在视觉、语言和动作之间建立坚实的语义关联，引入了一个结构化的分层标注框架，该框架对动作语义进行了丰富，克服了现有数据集中文本标签稀疏或不精确的问题。此框架提供详细且一致的文本描述，使VLA 模型能够有效对齐视觉输入、自然语言指令和量化的手部动作表征。

为实现结构化覆盖，将每个视频分割为不重叠的片段，每个片段最长为10秒，确保每个片段都能捕捉任务的一个明确阶段。然后，以2FPS的频率对帧进行采样，并利用Gemini-2.5-Flash-Lite在两个时间层级生成标注：在片段层级，生成祈使句指令和简洁摘要，描述整体的手部活动和物体交互；

在更精细的每秒层级，将每个片段进一步划分为重叠的1秒窗口，为其标注精确的指令和描述，详细说明接触状态、物体属性、手部部位以及相对于相机视角的动作轨迹。

为保证清晰度和完整性，对全局的双手动作和单个手的动作分别进行标注，同时捕捉双边和单边描述。这种多尺度标注策略确保了全面且一致的覆盖，在统一框架中架起了高层级任务目标与细粒度手-物交互之间的桥梁。

3）指令数据生成

基于系统性的标注成果，构建了指令跟随训练数据，旨在为基础VLA模型明确建立丰富的视觉-语言-动作对齐关系。为此，所设计的指令任务聚焦于手部动作理解的多个关联层面，包括手部轨迹与视觉上下文的时空对齐、精确的物体属性与接触状态、清晰的动作意图，以及高层级指令与细粒度动作步骤之间的一致性。

遵循这些原则，针对三种互补的任务类型开发了训练数据：

（1）指令性动作生成：模型学习在场景图像和任务指令的约束下，生成逐步的动作序列；

（2）运动转译：要求模型将运动序列和视觉线索转换为描述手-物交互的语言文本；

（3）基于上下文的运动预测：让模型根据先前的动作历史、当前的场景观测以及可选的指令或任务目标，预测后续的动作序列。

在实现过程中，为每种任务类型设计了约20个基础模板，并利用 Gemini-2.5-Pro 生成多样化的指令变体。每个模板都明确包含目标时长规格，使模型能够处理不同的时间粒度和序列长度。通过基于规则的实例化，向这些模板中填充关联指令、动作token 和明确的长度约束。

为确保训练集中视觉视角分布的平衡性，采用视角不变动作分布平衡方法来增强数据。基于这一平衡后的数据集，生成了超过1.65亿个高质量指令对，涵盖多个时间尺度、用手配置和操作场景，并通过系统性质量检查确保语义连贯性。

为进一步平衡训练数据中数据源和任务类型的分布，从完整数据集中抽取了250万个实例的子集，该子集对任务类别和数据来源的覆盖更为均衡。

对于数据集UniHand-2.5M，从视角平衡数据中生成的样本比例下图所示。这种统一设计为模型提供了稳健的监督，使其能够学习视觉、语言与结构化动作之间的一致性映射，包括双手和单手的手-物交互。

UniHand-2.5M数据集中的样本比例

总之，这种结构化的多尺度标注框架确保了对高层级任务目标和细粒度手-物交互的全面且一致的覆盖，为下游建模和分析提供了丰富的动作数据。

三、核心问题与解决方案

1. 两个核心问题

1）大规模人类活动视频能否支持灵巧视觉-语言-动作模型的预训练，使其能够显式地理解并模仿人类动作——类似于GPT-3通过大规模预训练学习语言的方式？

2）这种预训练模型能否通过后训练适配，有效地将其能力迁移到机器人操作任务中？

为解决这些问题，必须克服若干关键挑战。下面，论文中分析了这些难点并概述相应的解决方案。

2. 解决方案

1）预训练数据整备

与自然语言处理（NLP）和计算机视觉（CV）领域相比，当前的视觉-语言-动作模型（VLAs）面临着严重的数据稀缺问题。尽管存在如 Open X-Embodiment 和 AgiBot 等数据集，但其规模仍比现有的多模态基准数据集小几个数量级，并且主要关注末端执行器控制，由于硬件成本而忽略了细粒度的手指协调动作。

人类活动视频可能有助于解决这一问题，但其潜力尚未被充分利用，因为大多数方法主要侧重于隐式对齐（例如，GR00T N1.5 的隐动作优化（潜在动作优化），且其益处尚未得到证实。

最近，一些工作开始基于实验室采集数据集探索文本到运动生成，这些数据集具有精确标注。然而，这些数据受限于其规模小，因此缺乏多样性和泛化能力。相反，野外采集数据集（例如Ego4D）能够提供规模优势，但这些数据集存在相机不一致性和运动粒度问题。

该论文中通过MANO参数标准化和弱透视对齐，系统性地整合了这些异构数据源，构建了一个涵盖 150 多个任务、时长超过1000小时的统一数据集。

2）精确手部动作量化

该研究将手部动作视为一种“外语”，但引出了一个关键问题：“离散动作Token能否保持动作预测所需的足够精度？” 尽管以往的研究表明，量化会破坏姿态连续性并损失精度，但通过其精心设计，基于矢量量化（VQ）的Token生成器实现了毫米级的重建精度。

具体而言，利用一维卷积编码器对连续的MANO动作序列 M∈RT×D 进行离散化处理，生成特征图z∈R⌈T/α⌉×d，过程如下：