Aether 是一个世界模型,整合几何重建生成建模的统一框架,实现类人空间推理能力。

来自ICCV 2025,该框架具有三大核心功能:

(1) 4D动态重建,(2) 动作条件视频预测, (3) 目标条件视觉规划

代码地址:https://github.com/OpenRobotLab/Aether

论文地址:Aether: Geometric-Aware Unified World Modeling

论文复现:参考我这篇博客

  下面是一个动作条件预测的示例:

1、核心能力:三位一体的世界建模

Aether核心价值在于将传统上独立的三个计算机视觉任务统一到单一框架中,形成闭环的空间推理能力:

4D 动态重建

  • 从视频序列中同时估计深度和相机姿态,还原场景的时空动态(3D 空间 + 时间维度)
  •   例如,对一段运动视频,AETHER 可输出每帧的深度图和相机运动轨迹,构建完整的 4D场景结构。

动作条件视频预测  

  • 基于初始观测图像相机轨迹(作为动作输入),预测未来的视频序列
  • 在导航任务中,相机轨迹直接对应路径,模型可据此生成沿路径移动的未来视图;
  • 在机器人操作中,可预测机械臂末端相机运动带来的视觉变化。

目标条件视觉规划 

  • 给定初始观测图像目标图像,规划出从初始状态到目标状态的 动作序列,并生成对应的中间视频。
  • 例如,从办公室入口图像到会议室图像,模型可规划出最优移动路径并生成沿途视图。

2、模型框架

看一下Aether模型框架,说实话这个图有点不直观:

如下图所示,是 AETHER 多任务世界模型的流程,核心围绕4D 重建、视频预测、视觉规划三大任务,通过多模态隐变量(latent)的处理与交互实现功能。

  

  • 先验注入:4D 重建为模型提供几何先验(深度、相机轨迹),让模型 “理解空间结构”
  • 任务分化:根据 “是否有动作指令”“是否有目标状态”,分化出视频预测(侧重未来生成)和视觉规划(侧重路径推导)
  • 隐变量交互Image/Action/Depth隐变量在不同任务中灵活组合,通过 “输入缺失部分→模型预测补全” 的方式,实现多任务适配

  用统一的隐空间框架,让模型同时具备 “理解过去(4D 重建)、预测未来(视频预测)、规划路径(视觉规划)” 的能力,模拟类人空间推理逻辑。

Aether本质是一个:多模态融合的扩散模型框架

基于主流视频扩散模型构建,保留其 “前向加噪 - 反向去噪” 的核心机制,同时扩展为多模态融合的结构: 

  • 前向过程:向干净的 latent 样本(包含颜色、深度、动作信息)逐步添加高斯噪声;
  • 反向过程:通过学习的去噪模型,从含噪 latent 中恢复原始信息,目标是最小化预测噪声与真实噪声的差异。
  • 条件控制:颜色视频条件、动作条件,通过不同的条件组合实现多任务切换。
  • 重建任务:输入视频 latent,模型从完整视频中恢复深度和相机轨迹;
  • 视频预测:输入初始观测帧的 latent,其余帧用零掩码,可额外输入相机轨迹作为动作条件;
  • 目标条件视觉规划:输入初始和目标图像,中间用零填充,模型生成从初始到目标的路径视频。

3、4D 动态重建

4D 动态重建的思路流程,如下图所示:

通过 “1、输入RGB-D视频→ 2、动态掩码→ 3、视频切片→ 4、相机参数粗估 + 5、精修→ 6、点云融合” 的步骤,实现对场景的3D重建与相机运动估计。

本质是 “从 2D 观测恢复 3D 结构” 的经典计算机视觉任务,结合了动态掩码的智能过滤两阶段相机参数优化,提升重建精度与效率。

Dynamic Masking(动态掩码处理)

  • 作用:对输入的 RGB - D 视频施加动态掩码,保留关键区域(如人物、前景物体),屏蔽背景或干扰信息,为后续处理聚焦有效内容。

相机参数估计:粗估→精修的两阶段优化

  • 首先:Coarse Camera Estimation(相机参数粗估)
    输入:视频切片 + 深度信息(来自 RGB - D 视频)。
    逻辑:基于切片的视觉与深度数据,初步计算相机的内外参数(如位置、姿态、焦距等),得到 “粗相机参数”。
    特点:速度快,但精度有限,为后续精修提供初始值。

  • 然后:Camera Refinement(相机参数精修)
    输入:粗相机参数 + 切片的详细视觉信息。
    逻辑:结合更精细的图像特征(如边缘、纹理),对粗估参数进行优化,得到 “精修相机参数”。
    作用:提升相机参数精度,确保 3D 重建的空间一致性。

4、视频预测 与 视觉规划

Video Prediction(视频预测)

  • 目标:给定 “初始观测”(或 + 动作指令),生成符合物理规律的未来视频,验证模型 “预判动态演化” 的能力。
  • 子任务:
    • Action Free(无动作条件):仅用首帧图像,自主预测后续帧;
    • Action Conditioned(有动作条件):结合首帧 + 动作指令(如相机轨迹),约束生成过程。

Visual Planning(视觉规划)

  • 目标:给定 “初始状态” 和 “目标状态”,生成合理的中间过渡视频,验证模型 “推导空间路径” 的能力。
  • 子任务:
    • Action Free(无动作条件):仅用初始 / 目标图像,自主规划路径;
    • Action Conditioned(有动作条件):结合初始 / 目标图像 + 动作指令,约束规划过程。

输入处理(下面的latent是指Aether模型框架中一个一个格子,

  • 模态编码
    • 图像:用预训练 VAE 编码为Image latent(黄色);
    • 动作:相机轨迹转射线图后编码为Action latent(蓝色);
    • 目标:目标图像编码为Image latent(黄色,用于规划任务)。
  • 掩码策略
    • 视频预测(Action Free):仅保留首帧Image latent,后续帧用Zero - padding(白色);
    • 视觉规划(Action Free):保留首帧 + 目标帧Image latent,中间帧用Zero - padding(白色);
    • 带动作条件任务:额外拼接Action latent,约束生成方向。

模型推理

  • 扩散去噪:基于 DiT 框架,模型学习从 “含噪 latent” 反向去噪,生成Image prediction(浅黄色)和Action prediction(浅蓝色,如有动作条件);
  • 多模态融合:深度预测(红色)与图像、动作隐变量协同,确保生成内容的几何合理性(如深度一致、运动符合物理规律)。

输出解码

  • 生成的Image prediction经 VAE 解码为 RGB 视频,Action prediction解码为相机轨迹,验证生成内容的真实性与一致性。

5、模型训练

采用两阶段训练

  • 基于预训练的 CogVideoX - 5b - I2V 权重初始化,新增深度、动作相关投影层设为零,利用已有视频生成能力,降低训练难度,快速迁移知识。
  • 先在 latent 空间用 MSE 损失训去噪模型,学习基础模态重建;
  • 再解码到图像空间,加MS - SSIM(颜色视频)、尺度平移不变(深度)、点云损失(射线图),强化跨模态一致性,提升输出质量。
  • 训练与推理均用空文本嵌入,摆脱文本依赖,专注视觉 - 几何模态交互,适配多任务场景。

分布式训练(看了一下,这个训练资源太高了,告辞~)

  • 用 FSDP + DDP 策略,80 张 A100 - 80GB GPU 加速,两周训练周期,批大小 32,
  • AdamW 优化器 + OneCycle 调度,保障大规模训练高效稳定

    分享完成~

      相关文章推荐:

    UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

    【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation-CSDN博客

    【机器人】复现 UniGoal 具身导航 | 通用零样本目标导航 CVPR 2025-CSDN博客

    【机器人】复现 WMNav 具身导航 | 将VLM集成到世界模型中-CSDN博客

    【机器人】复现 ECoT 具身思维链推理-CSDN博客

    【机器人】复现 SG-Nav 具身导航 | 零样本对象导航的 在线3D场景图提示-CSDN博客

     【机器人】复现 3D-Mem 具身探索和推理 | 3D场景记忆 CVPR 2025 -CSDN博客

    【机器人】复现 Embodied-Reasoner 具身推理 | 具身任务 深度推理模型 多模态场景 长远决策 多轮互动_embodied reasoner-CSDN博客

    【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统-CSDN博客

    【机器人】ForesightNav | 高效探索 动态场景 CVPR2025_pointnav中的指标介绍-CSDN博客

    【机器人】复现 HOV-SG 机器人导航 | 分层 开放词汇 | 3D 场景图-CSDN博客

    【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图-CSDN博客

    【机器人】复现 Aether 世界模型 | 几何感知统一 ICCV 2025-CSDN博客

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
    如若转载,请注明出处:http://www.pswp.cn/pingmian/88168.shtml
    繁体地址,请注明出处:http://hk.pswp.cn/pingmian/88168.shtml
    英文地址,请注明出处:http://en.pswp.cn/pingmian/88168.shtml

    如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    MiniMind:3小时训练26MB微型语言模型,开源项目助力AI初学者快速入门

    开发|界面|引擎|交付|副驾——重写全栈法则:AI原生的倍速造应用流来自全栈程序员 nine 的探索与实践,持续迭代中。 欢迎关注评论私信交流~ 在大型语言模型(LLaMA、GPT等)日益流行的今天,一个名为…

    相机Camera日志实例分析之五:相机Camx【萌拍闪光灯后置拍照】单帧流程日志详解

    【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了: 这一篇我们开始讲: 目录 一、场景操作步骤 二、日志基础关键字分级如下 三、场景日志如下: 一、场景操作步骤 操作步…

    [2-02-02].第03节:环境搭建 - Win10搭建ES集群环境

    ElasticSearch学习大纲 基于ElasticSearch7.8版本 一、ElasticStack下载: 1.Elasticsearch 的官方地址 2.Elasticsearch 下载地址: 二、集群搭建: 第1步:创建es目录: 1.创建 elasticsearch-cluster 文件夹,在内部…

    操作系统核心技术剖析:从Android驱动模型到鸿蒙微内核的国产化实践

    目录 一、移动端操作系统技术细节 1. Android 内核版本 核心模块 驱动架构 国内定制案例 2. iOS XNU内核关键模块 安全机制 3. HarmonyOS 多内核架构 驱动隔离 二、PC端操作系统技术细节 1. Windows NT内核 模块分层 驱动模型 国内适配 2. macOS(X…

    整合Spring、Spring MVC与MyBatis:构建高效Java Web应用

    本文将详细讲解如何整合Spring、Spring MVC和MyBatis(SSM框架),通过一个人员信息查询案例展示完整开发流程。所有代码基于提供的文件实现。一、项目结构src/ ├── main/ │ ├── java/ │ │ └── com/ │ │ └── qcb…

    视频插帧技术:从流畅观影到AI创作的革命

    一、起源:为什么需要视频插帧? 视频的本质是连续播放的静态帧序列,帧率(FPS) 决定了流畅度。早期电影受限于拍摄技术和存储成本,普遍采用24FPS,而现代显示设备(如120Hz屏幕&#xf…

    【一起来学AI大模型】PyTorch 实战示例:使用 BatchNorm 处理张量(Tensor)

    PyTorch 实战示例 演示如何在神经网络中使用 BatchNorm 处理张量(Tensor),涵盖关键实现细节和常见陷阱。示例包含数据准备、模型构建、训练/推理模式切换及结果分析。示例场景:在 CIFAR-10 数据集上实现带 BatchNorm 的 CNNimport…

    第8章:应用层协议HTTP、SDN软件定义网络、组播技术、QoS

    应用层协议HTTP 应用层协议概述 应用层协议非常多,我们重点熟悉以下常见协议功能即可。 Telnet:远程登录协议,基于TCP 23端口,用于远程管理设备,采用明文传输。安全外壳协议 (SecureShell,SSH) ,基于TCP 22端口,用于…

    uniapp页面间通信

    uniapp中通过eventChannel实现页面间通信的方法,这是一种官方推荐的高效传参方式。我来解释下这种方式的完整实现和注意事项:‌发送页面(父页面)‌:uni.navigateTo({url: /pages/detail/detail,success: (res) > {/…

    Android ViewModel机制与底层原理详解

    Android 的 ViewModel 是 Jetpack 架构组件库的核心部分,旨在以生命周期感知的方式存储和管理与 UI 相关的数据。它的核心目标是解决两大痛点: 数据持久化: 在配置变更(如屏幕旋转、语言切换、多窗口模式切换)时保留数…

    双倍硬件=双倍性能?TDengine线性扩展能力深度实测验证!

    软件扩展能力是软件架构设计中的一个关键要素,具有良好扩展能力的软件能够充分利用新增的硬件资源。当软件性能与硬件增加保持同步比例增长时,我们称这种现象为软件具有线性扩展能力。要实现这种线性扩展并不简单,它要求软件架构精心设计&…

    频繁迭代下完成iOS App应用上架App Store:一次快速交付项目的完整回顾

    在一次面向商户的会员系统App开发中,客户要求每周至少更新一次版本,涉及功能迭代、UI微调和部分支付方案的更新。团队使用Flutter进行跨平台开发,但大部分成员日常都在Windows或Linux环境,只有一台云Mac用于打包。如何在高频率发布…

    springsecurity03--异常拦截处理(认证异常、权限异常)

    目录 Spingsecurity异常拦截处理 认证异常拦截 权限异常拦截 注册异常拦截器 设置跨域访问 Spingsecurity异常拦截处理 认证异常拦截 /*自定义认证异常处理器类*/ Component public class MyAuthenticationExceptionHandler implements AuthenticationEntryPoint {Overr…

    企业如何制作网站?网站制作的步骤与流程?

    以下是2025年网站制作的综合指南,涵盖核心概念、主流技术及实施流程: 一、定义与范畴 网站制作是通过页面结构设计、程序设计、数据库开发等技术,将视觉设计转化为可交互网页的过程,包含前端展示与后台功能实现。其核心目标是为企…

    Rust+Blender:打造高性能游戏引擎

    基于Rust和Blender的游戏引擎 以下是基于Rust和Blender的游戏引擎开发实例,涵盖不同应用场景和技术方向的实际案例。案例分为工具链整合、渲染技术、物理模拟等类别,每个案例附核心代码片段或实现逻辑。 工具链整合案例 案例1:Blender模型导出到Bevy引擎 使用blender-bev…

    Git基本操作1

    Git 是一款分布式版本控制系统,主要用于高效管理代码版本和团队协作开发。它能精确记录每次代码修改,支持版本回溯和分支管理,让开发者可以并行工作而互不干扰。通过本地提交和远程仓库同步,Git 既保障了代码安全,又实…

    React Native 组件间通信方式详解

    React Native 组件间通信方式详解 在 React Native 开发中,组件间通信是核心概念之一。以下是几种主要的组件通信方式及其适用场景: 简单父子通信:使用 props 和回调函数兄弟组件通信:提升状态到共同父组件跨多级组件:…

    TCP的可靠传输机制

    TCP通过校验和、序列号、确认应答、重发控制、连接管理以及窗口控制等机制实现可靠性的传输。 先来看第一个可靠性传输的方法。 通过序列号和可靠性提供可靠性 TCP是面向字节的。TCP把应用层交下来的报文(可能要划分为许多较短的报文段)看成一个一个字节…

    没有DBA的敏捷开发管理

    前言一家人除了我都去旅游了,我这项请假,请不动啊。既然在家了,闲着也是闲着,就复盘下最近的工作,今天就复盘表结构管理吧,随系统启动的,不是flyway,而是另一个liquibase&#xff0c…

    go-carbon v2.6.10发布,轻量级、语义化、对开发者友好的 golang 时间处理库

    carbon 是一个轻量级、语义化、对开发者友好的 Golang 时间处理库,提供了对时间穿越、时间差值、时间极值、时间判断、星座、星座、农历、儒略日 / 简化儒略日、波斯历 / 伊朗历的支持。 carbon 目前已捐赠给 dromara 开源组织,已被 awesome-go 收录&am…