导读

在复杂的动态世界中,让机器人既能看懂场景,又能预测未来变化,是一项极具挑战性的任务。过去的方法往往依赖人工标注或简化的物理模型,却难以真正捕捉物体运动的规律。TRACE 提出了一个全新的思路:把三维场景中的每个点视为带有刚体属性的“粒子”,直接去学习它的平移与旋转动态,从而显式建模完整的物理参数。这样一来,机器人不仅能重建场景的几何和外观,还能在此基础上推演未来的发展趋势,相当于具备了“预测未来”的能力。

实验结果显示,TRACE 在多个真实和合成数据集上大幅优于现有方法,尤其在预测未来帧这一任务上表现突出。更令人惊喜的是,这一框架还天然支持场景分解——只需对学到的物理参数进行聚类,就能自动分离出不同的物体或部件。这意味着,TRACE 不仅是一种强大的动态三维建模工具,也可能成为具身智能迈向更高层次理解和交互的重要基石

图1|给定一个真实世界动态场景的视频帧, TRACE 能够学习其潜在的物理规律,并准确预测出物体的未来运动,例如杆子通过双曲槽口的过程,或者小车沿轨道继续前进的轨迹,而现有方法则无法做到这一点

论文出处:ICCV2025

论文标题:TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos

论文作者:Jinxi Li, Ziyang Song, Bo Yang

在日常生活中,动态三维场景随处可见,例如下落的球体、旋转的风扇和折叠的椅子。能够精准建模这些场景的几何、外观和物理属性,并进一步预测其未来状态,对于机器人、混合现实和具身智能等新兴应用具有重要意义。近年来,随着 NeRF 和 3D Gaussian Splatting(3DGS)等三维表示技术的快速发展,大量方法被提出以建模动态 3D 场景,在插值观测时间范围内的新视角生成方面取得了优异的表现。然而,这些方法往往无法进行未来帧的外推预测,其根本原因在于缺乏对场景物理先验的学习。

现有方法通常分为两类来学习物理先验:一类是基于物理约束神经网络(PINN)的方式,通过在损失函数中引入偏微分方程约束,来建模几何和物理属性,如速度和粘性。这类方法虽然在一些场景下表现良好,但往往依赖精确的边界条件(如物体掩码),在实际中难以获取,且训练效率和边界精度都会受到影响。另一类方法则是显式引入物理模型,将弹性体、流体等系统编码进神经网络中。尽管这样的方法能在特定对象和材料上取得出色效果,但普适性有限,难以推广到复杂多样的动态 3D 场景。

针对这一问题,作者希望直接从多视角 RGB 视频中建模动态 3D 场景,而无需额外的物体类别或分割标注,并且能够预测任意角度的未来帧。在物理属性的选择上,作者参考 NVFi,聚焦于速度场的学习。然而,直接从 RGB 视频中准确学习速度极具挑战,特别是当多个物体或部件呈现不同运动模式时,这一问题更加突出。举例来说,如果两个相邻物体朝相反方向运动,那么它们在交界处的点会表现出截然不同的速度模式,这意味着每个三维点的运动状态可能是离散的。

因此,作者提出将每个三维点视为一个刚体粒子,并为其学习独立的动力学系统,包含一整套物理参数来描述其运动。根据经典力学定律,一个刚体粒子的运动可以看作是绕某个旋转中心的旋转加上平移。因此,作者设计了一个平移—旋转动力学系统,使每个刚体粒子的未来运动都可以被推导出来。

在实现上,TRACE 框架由两大模块组成:其一是三维场景表示模块,利用标准 3DGS 建模几何与外观;其二是平移—旋转动力学模块,通过多层感知机学习每个刚体粒子的物理参数,从而推导速度场,无需依赖 PINN 等物理先验。值得注意的是,作者发现直接训练这一模块存在优化困难,于是引入了一个辅助变形场,与主模块并行训练,以增强稳定性。

与 NeRF 系列方法(如 D-NeRF、TiNeuVox)以及现有的 3DGS 扩展方法(如 DefGS、4DGS)相比,TRACE 的核心创新在于显式引入了平移—旋转动力学系统,并通过有效的优化策略实现了物理参数的真实学习,从而能够进行未来帧外推预测。

最后,作者总结了本文的三点主要贡献:

 提出了一种全新框架,可在无需物体形状、类别或掩码先验的情况下建模复杂动态 3D 场景的运动物理。

 针对每个刚体粒子学习平移—旋转动力学系统,从而在不需要额外物理约束的条件下推导速度场。

 在三个公开动态数据集和一个新构建的合成数据集上,TRACE 在未来帧预测任务中显著超越现有方法。

TRACE 框架主要由两个核心模块和一个辅助变形场组成,用于建模三维场景的几何、外观和物理属性。输入是一组带有已知相机位姿和内参的动态多视角 RGB 视频

三维场景表示模块

首先,框架的三维场景表示模块负责学习一组三维高斯核,以在一个标准时间点下表示场景的几何与外观。辅助变形场则被设计用于预测每个高斯核在不同时间下的平移和形变,以适应场景随时间的动态变化。这部分设计延续了现有工作中的思路,但仅凭变形场无法外推到训练时间以外的未来帧,因此需要结合核心的动力学模块

预训练与初始化

在训练流程中,作者首先利用时间点 t=0 的所有帧,来训练一个静态的三维高斯模型,用于初始化场景几何和外观。这一步为后续的动力学学习提供了一个合理的起点。高斯核在初始化时可以随机生成,或基于结构重建方法(如 SfM)得到的稀疏点进行初始化。之后,通过将高斯核投影到相机坐标系并渲染到图像空间,利用重建图像与输入图像的差异作为监督,来优化核的位置、旋转、尺度、透明度和颜色参数。透明度和颜色通常不会在训练中更新,而是固定绑定到核上并随时间传递

辅助变形场

为了帮助动力学模块更稳定地训练,TRACE 引入了一个基于现有工作的辅助变形场。具体来说,它通过一个基于多层感知机的网络,输入高斯核的初始位置和时间戳,预测位置、旋转和尺度的变化量。由此得到的变形高斯核会在后续阶段投影并与对应时间点的图像进行监督优化。尽管变形场本身不能进行未来帧外推,但它在训练初期能提供更稳定的几何变化估计,从而辅助动力学模块的收敛

2TRACE所提出的平移-旋转动力学系统针对一个特定的刚体粒子。该刚体粒子会在其学习到的物理参数驱动下随时间演化,从而在三维空间中形成一条运动轨迹

平移—旋转动力学系统

TRACE 的核心模块是平移—旋转动力学系统。该模块的目标是为每个刚体粒子(即三维高斯核)学习一整套物理参数,用于描述其随时间的运动规律。按照经典力学,一个粒子的运动可以看作是围绕某个旋转中心的旋转加上平移。因此,该模块为每个粒子学习两类参数:

 旋转中心参数:包括旋转中心的位置、速度和加速度;

 粒子旋转参数:包括粒子相对于旋转中心的旋转向量和角加速度。

通过学习这两类参数,模型能够驱动粒子的轨迹,形成符合物理规律的运动模式。该模块通过多层感知机实现,输入是粒子及其时间戳,输出是对应的物理参数集合。为了推导未来的运动轨迹,系统会根据所学的动力学参数递归计算粒子的位置与旋转

数值更新与物理逼真性

在动力学演化的数值计算上,TRACE 使用了二阶 Runge-Kutta 方法来更新粒子的物理参数。选择二阶更新有两个原因:一是很多应用(例如机器人操作)所需的未来预测时间间隔非常短,二阶近似已经足够;二是日常大多数物理运动(如小球滚动、汽车行驶)也可以由二阶关系描述。这种设置在保证物理合理性的同时,避免了高阶方法带来的训练复杂性

训练流程

训练过程包含以下关键步骤:

1. 在初始时间点,用静态高斯模型学习场景几何和外观;

2. 使用辅助变形场对高斯核在任意训练时间点进行位置和旋转的修正;

3. 使用平移—旋转动力学模块来预测物理参数,并基于这些参数驱动粒子的运动;

4. 将更新后的高斯核渲染到图像空间,并与对应的真实帧进行对比,利用图像重建损失来更新所有模块的参数。

通过这种联合训练方式,TRACE 不仅能学习到三维几何和外观,还能显式学习每个刚体粒子的物理参数,使模型能够从原始 RGB 视频中实现物理规律驱动的未来帧预测。

作者在四个数据集上验证了 TRACE 的效果:

 Dynamic Object:6 个动态物体,包含刚体和可变形运动模式;

 Dynamic Indoor Scene:4 个复杂室内场景,多个物体同时进行刚体运动;

 NVIDIA Dynamic Scene:两个真实世界动态场景;

 Dynamic Multipart(新建合成数据集):每个物体包含 2–5 个不同部件,部件间运动模式差异显著,测试 TRACE 对复杂动力学的建模能力。

对比基线涵盖了 基于 NeRF 的方法(T-NeRF, D-NeRF, TiNeuVox)、基于 3DGS 的方法(DefGS, 4DGS)、以及最接近的 NVFi 和其变体(DefGS + NVFi)。评价指标为 PSNR、SSIM 和 LPIPS,用于衡量未来帧合成的质量

3动态场景重建渲染可视化结果

未来帧预测结果

实验表明:

 相比 NeRF/3DGS 动态建模方法,TRACE 在未来帧预测任务上 PSNR 提升近 10 分,显示出显著优势。其他方法无法有效建模未来动态,而 TRACE 能捕捉物理规律并预测合理的运动演化。

 相比 NVFi 和 DefGSnvfi(最强基线),TRACE 在所有数据集上均表现更优,尤其在 Dynamic Indoor Scene 和 Dynamic Multipart 这类包含多物体/多部件复杂运动的场景中,PSNR 领先约 3 分。这一差距源于 TRACE 直接学习平移与旋转参数,提供硬物理约束,而 NVFi 依赖 PINN 作为软约束。

TRACE 框架还具备兼容性,与 DefGS、4DGS 等现有变形场结合时,同样能进一步提升未来帧预测性能

小编认为,这部分结果直接验证了 TRACE 的核心价值:不仅能“回放”过去,还能真正“推演”未来。

4动态重建实验量化结果

动态参数分析与自动分割

TRACE 的粒子动力学系统会为每个点学习物理参数。实验显示,同一刚体部件的点会自然聚类到相似的动力学参数上,从而无需监督即可分解场景

 在Dynamic Indoor Scene数据集上,作者通过对比发现 TRACE 的运动分组结果几乎完美,显著超过 D-NeRF、NVFi、DefGS 等基线方法,甚至接近完全监督的 Mask2Former。这说明 TRACE 学到的动力学参数具有真实物理意义,能够支持基于运动的对象识别

5场景自动分割实验量化结果

连续学习实验

为了验证模型在快速变化场景下的适应性,作者在 ParticleNeRF 数据集上进行了增量学习测试:模型先用初始时间片段训练,然后逐步增加新观测,要求预测更远时间的未来帧。

对比结果表明,DefGS 和 DefGSnvfi 在动态快速变化时预测失败,而 TRACE 能稳定适应新观测并给出准确预测。这表明 TRACE 不仅能建模固定模式,还能持续吸收新信息,对复杂、快速演化的动态环境具有鲁棒性

6连续学习实验量化结果

消融实验

作者进一步分析了 TRACE 的关键设计:

 时间间隔 Δt:若过小,运动差异太细微难以学习;若过大,外观拟合受损。最终 Δt=2δt 效果最佳。

 动力学阶数:二阶动力学(包含加速度)表现优于一阶(无加速度)或三阶(加速度的加速度)。

 移除辅助变形场:性能显著下降,说明该模块对动力学学习有重要帮助。

 移除物理推导:若仅依赖查询参数而不进行物理推导,运动学习受损。

 去掉等效参数化:也会降低性能。

结果表明,每个设计模块都对 TRACE 的成功起到了关键作用

7消融实验结果

在这篇论文中,作者展示了一个重要发现:仅凭多视角 RGB 视频,就能够在没有任何额外人工标注(例如物体类别或分割掩码)的情况下,显式学习复杂的运动动力学。

 这是通过一个全新的通用框架实现的。该框架在扩展 3D Gaussian Splatting 技术的基础上,同时建模三维场景的几何、外观和物理属性。与以往依赖 PINN 损失作为软约束来学习物理先验的方法不同,作者的方法直接学习完整的物理参数集合,通过核心的平移—旋转动力学模块来驱动物体刚体粒子的运动模式。

 大量实验结果表明,在三个公开的动态数据集和一个新构建的多部件动态数据集上,该方法在未来帧预测这一极具挑战性的任务中全面超越所有基线。同时,所学到的物理参数还能被直接用于基于参数相似性的物体或部件分割,进一步验证了方法的物理合理性与通用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/97563.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/97563.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/97563.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电商数据开发实践:深度剖析1688商品详情 API 的技术与应用

在电商行业数字化转型的进程中,数据获取与处理的效率和准确性,直接影响着企业的竞争力。作为开发者,相信大家都遇到过这类棘手问题:在构建时,因数据不一致导致采购决策失误;使用传统,又常遭遇电…

Docker 详解+示例(部署Kafka镜像容器)

介 绍Docker 是一个开源的容器化平台,它的核心目标是解决 “软件在不同环境下运行不一致” 的问题,实现 “一次构建,到处运行” 。它基于 Linux 内核的底层技术,将应用程序及其依赖(如库文件、配置、运行环境等&#x…

SciPy科学计算与应用:SciPy应用实战-数据分析与工程计算

SciPy案例研究:从理论到实践 学习目标 通过本课程,学员将了解一系列实际案例,深入探讨SciPy库在数据分析、物理模拟和工程计算中的应用。同时学员将学习如何利用SciPy解决实际问题,加深对SciPy各个模块的理解和应用能力。 相关知识…

React学习教程,从入门到精通, ReactJS - 架构(6)

ReactJS - 架构 React应用的架构 React的架构就像一个井然有序的厨房,每个工具都有其特定的位置和用途。在其核心,React遵循一个基于组件的架构,这意味着我们使用可重用的组件构建应用程序。 组件:构建块 可以把组件想象成乐高积木…

Bias / variance and neural networks|偏差/方差和神经网络

----------------------------------------------------------------------------------------------- 这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或…

Linux HMM(Heterogeneous Memory Management)的应用

原理篇见【https://blog.csdn.net/shenjunpeng/article/details/150931847?spm1011.2415.3001.5331】 1. HMM 的优势与挑战 1.1 优势 统一虚拟地址空间:简化异构计算平台的数据共享和访问。 高效页表同步:支持设备端的 page fault 和页表同步&#x…

鸿蒙创新赛活动——Mac提交压缩失败后续

Mac提交压缩失败后续来了… 传送带【上一篇】 背景 华为2025HarmonyOS创新赛 上传作品的时候,遇到了一个提示 ZIP包中的Office文件含有嵌入文件,就去这个Office文件找,怎么也找不到嵌入的文件。 解决方法1 上次推荐的解决方式是&#xff0…

Ubuntu操作系统下使用mysql、mongodb、redis

目录 一、核心步骤概览 二. MySQL (下面以其他用户为例) 1,、安装 2、管理服务 3、连接与使用 4、配置文件位置 5、下面来演示一下安装好之后如何在Linux操作系统中远程登录和window互连Linux 远程登录 window连Linux(连不上的&…

springboot java开发的rocketmq 顺序消息保证

首先要明确一个关键点:RocketMQ 保证的是一种局部顺序(Partially Ordered)​,而非全局顺序(Globally Ordered)。这意味着消息的顺序性只在某个特定维度(比如同一个订单ID)下保证&…

【机器学习】 14 Kernels

本章目录 14 Kernels 479 14.1 Introduction 479 14.2 Kernel functions 479 14.2.1 RBF kernels 480 14.2.2 Kernels for comparing documents 480 14.2.3 Mercer (positive definite) kernels 481 14.2.4 Linear kernels 482 14.2.5 Matern kernels 482 14.2.6 String kerne…

Android开发-工程结构

一、项目视图模式在开始之前,确保你的 Project 面板使用的是 【Android】 视图(默认)。这是最常用的视图,它将相关文件按功能逻辑分组展示。💡 你也可以切换到 【Project】 视图查看完整的文件系统结构。二、顶级项目结…

mysql的内置函数

文章目录mysql的内置函数时间函数1. 返回值的数据类型和格式2. 功能侧重点3. 函数别名情况我现在想给一个日期加上十天,然后输出加上十天之后的日期,我该怎么做?我现在想给一个日期减去两天,然后输出减去两天之后的日期&#xff0…

【动态规划】子序列问题

一、[最长递增子序列](https://leetcode.cn/problems/longest-increasing-subsequence/description/)二、[摆动序列](https://leetcode.cn/problems/wiggle-subsequence/description/)三、[最长递增子序列的个数](https://leetcode.cn/problems/number-of-longest-increasing-s…

P2P技术应用:去中心化

P2P技术应用:https://www.bilibili.com/video/BV1WH4y1Y7i9 P2P与下载器 P2P技术实现的下载协议: 1、种子文件 2、磁力 3、电骡 播放器: 快车、电骡、迅雷 BT(种子)下载的基本技术原理 网盘与P2P技术 网盘公司的主…

数据结构(C语言篇):(八)栈

目录 前言 一、概念与结构 二、栈的实现 2.1 头文件的准备 2.2 函数的实现 2.2.1 STInit( )函数(初始化) 2.2.2 STDestroy( )函数(销毁) 2.2.3 STPush( )函数(入栈) 2.2.4 STPop( )函数&#…

Elasticsearch数据迁移快照方案初探(一):多节点集群配置踩坑记

背景介绍 在生产环境中,我们经常需要将测试环境的Elasticsearch索引数据迁移到生产环境。这次我们遇到了一个典型的多节点集群快照配置问题:需要为所有节点添加path.repo配置,但过程中遇到了各种挑战。 问题描述 我们的Elasticsearch集群包含…

leedcode 算法刷题第二十天

39. 组合总和 class Solution { public:vector<vector<int>> result;vector<int> temp;void backtructing(vector<int>& candidates, int target, int sum,int start){if(sumtarget){result.push_back(temp);return;}if(sum>target){return;}f…

身份证实名认证API集成—身份核验接口-网络平台安全合规

在数字化浪潮席卷各行各业的今天&#xff0c;网络空间的安全问题日益受到关注。为防范网络诈骗、虚假注册、身份盗用等风险&#xff0c;国家陆续出台多项法律法规&#xff0c;如《网络安全法》《个人信息保护法》等&#xff0c;明确要求互联网服务提供者落实用户真实身份核验机…

谷歌TIGER爆火!生成式召回颠覆推荐系统:用语义ID破解冷启动+多样性难题,3大数据集性能碾压传统模型

注&#xff1a;此文章内容均节选自充电了么创始人&#xff0c;CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》&#xff08;跟我一起学人工智能&#xff09;【陈敬雷编著】【清华大学出版社】 清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷…

分享一个实用的B站工具箱(支持音视频下载等功能)

文章目录 📖 介绍 📖 🏡 演示环境 🏡 📒 一款实用的B站工具箱 📒 💥 项目亮点 💥 🛠️ 下载与安装 🚀 使用指南 📢 注意事项 ⚓️ 相关链接 ⚓️ 📖 介绍 📖 很多小伙伴在B站追番或者学习时,总会遇到一个很头疼的问题:想把视频下载到本地,要么被限…