原文链接:https://ieeexplore.ieee.org/abstract/document/10522953

1. 世界模型的发展

A. 世界模型的结构基础

在这里插入图片描述

世界模型包含4个关键组件,以模拟人类连贯的思考和决策过程。

a)感知模块使用如变分自编码器(VAE)、掩膜自编码器(MAE)或离散自编码器(DAE)等编码模块,将环境输入(如图像、视频、文本、控制指令等)处理并压缩为更易于管理的格式。

b)记忆模块用于记录和管理过去、现在和预测的世界状态及其相关代价或奖励。

c)控制/行为模块评估当前状态和世界模型的预测,以决定实现目标(如最小化代价或最大化奖励)的最优行为序列。该模块与世界模型模块区分开来,使用小参数集独立训练。

d)世界模型模块估计当前世界状态丢失的信息并预测未来的环境状态。

模型预测的确定性和真实世界现象的不确定性之间的协调是一个挑战,因此,可以使用温度变量引入不确定性,或使用结构化框架(如循环状态空间模型(RSSM)与联合嵌入预测结构(JEPA)),以微调预测精度与灵活性的平衡。此外,使用Top-K采样,以及从CNN模型转换到Transformer模型(如Transformer状态空间模型(TSSM)和时空Patchwise Transformer(STPT))通过将世界模型的预测与真实世界的可能发展对齐,能更好地近似真实世界的复杂程度和不确定性。

世界模型中最常用的核心结构是RSSM与JEPA。

1)循环状态空间模型(RSSM) 在隐空间中实现纯正向预测。
在这里插入图片描述
上图c展示了潜在动态模型的3次步进。随机变量(圈)和确定性变量(方块)在模型结构内交互——实线表示生成过程,虚线表示推断过程。

与无法捕捉多种潜在未来的、确定性初始状态的RNN(图a)和完全随机、无信息保留能力的状态空间模型(SSM,图b)不同,RSSM将状态分解为随机性状态和确定性状态,有效利用确定性元素的预测稳定性和随机性元素的自适应潜力。

记观测和行为序列为 ( x 0 , a 1 , x 1 , a 2 , x 2 , ⋯ , a T , x T ) (x_0,a_1,x_1,a_2,x_2,\cdots,a_T,x_T) (x0,a1,x1,a2,x2,,aT,xT)。观测到 x t x_t xt后,智能体进行行为 a t + 1 a_{t+1} at+1,并接收下一步观测 x t + 1 x_{t+1} xt+1。RSSM将观测和状态转移建模为下列生成过程:
p ( x 0 : T ∣ a 1 : T ) = ∫ ∏ t = 0 T p ( x t ∣ z ≤ t , a ≤ t ) p ( z t ∣ z < t , a ≤ t ) d z 0 : T p(x_{0:T}|a_{1:T})=\int\prod_{t=0}^{T}p(x_t|z_{\leq t},a_{\leq t})p(z_t|z_{<t},a_{\leq t})dz_{0:T} p(x0:Ta1:T)=t=0Tp(xtzt,at)p(ztz<t,at)dz0:T

其中 z 0 : T z_{0:T} z0:T为随机隐状态。近似后验定义为:
q ( z 0 : T ∣ x 0 : T , a 1 : T ) = ∏ t = 0 T q ( z t ∣ z < t , a ≤ t , x t ) q(z_{0:T}|x_{0:T},a_{1:T})=\prod_{t=0}^Tq(z_t|z_{<t},a_{\leq t},x_t) q(z0:Tx0:T,a1:T)=t=0Tq(ztz<t,at,xt)

RSSM使用共享的GRU来将 z < t z_{<t} z<t a ≤ t a_{\leq t} at压缩为确定性编码 h t h_t ht
h t = G R U ( h t − 1 , M L P ( c o n c a t [ z t − 1 , a t ] ) ) h_t=GRU(h_{t-1},MLP(concat[z_{t-1},a_t])) ht=GRU(ht1,MLP(concat[zt1,at]))

随后,用于计算先验、似然和后验的充分统计量:
p ( z t ∣ z < t , a ≤ t ) = M L P ( h t ) p ( x t ∣ z ≤ t , a ≤ t ) = N ( x ^ t , 1 ) x ^ t = D e c o d e r ( c o n c a t [ h t , z t ] ) q ( z t ∣ z < t , a ≤ t , x t ) = M L P ( c o n c a t [ h t , e t ] ) e t = E n c o d e r ( x t ) p(z_t|z_{<t},a_{\leq t})=MLP(h_t)\\ p(x_t|z_{\leq t},a_{\leq t})=\mathcal N(\hat x_t,1)\\ \hat x_t=Decoder(concat[h_t,z_t])\\ q(z_t|z_{<t},a_{\leq t},x_t)=MLP(concat[h_t,e_t])\\ e_t=Encoder(x_t) p(ztz<t,at)=MLP(ht)p(xtzt,at)=N(x^t,1)x^t=Decoder(concat[ht,zt])q(ztz<t,at,xt)=MLP(concat[ht,et])et=Encoder(xt)

训练目标是最大化证据下界(ELBO):
log ⁡ p ( x 0 : T ∣ a 1 : T ) ≥ E q [ ∑ t = 0 T log ⁡ p ( x t ∣ z ≤ t , a ≤ t ) − L K L ( q ( z t ∣ z < t , a ≤ t , x t ) , p ( z t ∣ z < t , a ≤ t ) ) ] \log p(x_{0:T}|a_{1:T})\geq\mathbb E_q[\sum_{t=0}^T\log p(x_t|z_{\leq t},a_{\leq t})-\mathcal L_{KL}(q(z_t|z_{<t},a_{\leq t},x_t),p(z_t|z_{<t},a_{\leq t}))] logp(x0:Ta1:T)Eq[t=0Tlogp(xtzt,at)LKL(q(ztz<t,at,xt),p(ztz<t,at))]

2)联合嵌入预测结构(JEPA) 关注表达空间而非直接且具体的预测。
在这里插入图片描述
如图所示,JEPA通过双编码器将输入 x x x和目标 y y y抽象为表达 s x , s y s_x,s_y sx,sy,并使用隐变量 z z z进行预测。其预测过程更简单,且能保证结果的相关性和可靠性。

JEPA的核心是能量函数 E w ( x , y , z ; θ ) E_w(x,y,z;\theta) Ew(x,y,z;θ),其捕捉了模型的预测误差。这里 θ \theta θ表示模型参数。能量函数定义为
E w ( x , y , z ; θ ) = ∥ s y − P r e d ( s x , z ; ϕ ) ∥ 2 2 + λ ∥ z ∥ 2 2 E_w(x,y,z;\theta)=\|s_y-Pred(s_x,z;\phi)\|_2^2+\lambda\|z\|_2^2 Ew(x,y,z;θ)=syPred(sx,z;ϕ)22+λz22

其中,L2范数平方衡量了预测表达与目标表达 s y s_y sy的欧式距离,即模型预测误差;预测函数 P r e d Pred Pred将输入表达 s x s_x sx和隐变量 z z z映射到目标空间,其参数为 ϕ \phi ϕ。正则化项 λ ∥ z ∥ 2 2 \lambda\|z\|_2^2 λz22则惩罚模型的复杂性,以避免过拟合。

优化的目标是通过寻找 θ , ϕ , z \theta,\phi,z θ,ϕ,z最小化能量函数 E w E_w Ew,可表达为以数据分布为约束的复值拉格朗日优化问题:
L ( θ , ϕ , z ; x , y , α ) = E w ( x , y , z ; θ ) − α ( h ( x , y , z ; θ , ϕ ) − c ) L(\theta,\phi,z;x,y,\alpha)=E_w(x,y,z;\theta)-\alpha(h(x,y,z;\theta,\phi)-c) L(θ,ϕ,z;x,y,α)=Ew(x,y,z;θ)α(h(x,y,z;θ,ϕ)c)

其中 L ( θ , ϕ , z ; x , y , α ) L(\theta,\phi,z;x,y,\alpha) L(θ,ϕ,z;x,y,α)是拉格朗日方程, α \alpha α为拉格朗日乘子,强制满足约束 h ( x , y , z ; θ , ϕ ) = c h(x,y,z;\theta,\phi)=c h(x,y,z;θ,ϕ)=c h ( x , y , z ; θ , ϕ ) h(x,y,z;\theta,\phi) h(x,y,z;θ,ϕ)为约束函数,其参数为 θ \theta θ ϕ \phi ϕ c c c为函数 h h h的目标值(常数)。

JEPA的训练包含高阶优化方法,考虑二阶导数以保证收敛:
θ t + 1 = θ t − η ∇ θ 2 L ( θ t , ϕ t , z t ; x , y , α t ) \theta_{t+1}=\theta_t-\eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) θt+1=θtηθ2L(θt,ϕt,zt;x,y,αt)

其中 θ t + 1 \theta_{t+1} θt+1为更新后的参数向量, η \eta η为学习率; η ∇ θ 2 L ( θ t , ϕ t , z t ; x , y , α t ) \eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) ηθ2L(θt,ϕt,zt;x,y,αt)为拉格朗日函数 L L L θ \theta θ二阶偏导数的Hessian矩阵。

考虑到 z z z的高维特性和多模态分布的可能性,JPEA可采用变分近似方法处理后验 p ( z ∣ x , y ; θ ) p(z|x,y;\theta) p(zx,y;θ),得到变分下界:
log ⁡ p ( y ∣ x ; θ , ϕ ) ≥ E q ( z ∣ x ; ψ ) [ log ⁡ p ( y ∣ x , z ; θ ; ϕ ) ] − K L [ q ( z ∣ x ; ψ ) ∣ ∣ p ( z ∣ x ; θ ) ] \log p(y|x;\theta,\phi)\geq\mathbb E_{q(z|x;\psi)}[\log p(y|x,z;\theta;\phi)]-KL[q(z|x;\psi)||p(z|x;\theta)] logp(yx;θ,ϕ)Eq(zx;ψ)[logp(yx,z;θ;ϕ)]KL[q(zx;ψ)∣∣p(zx;θ)]

其中 log ⁡ p ( y ∣ x ; θ , ϕ ) \log p(y|x;\theta,\phi) logp(yx;θ,ϕ)为数据 y y y在给定 x x x和模型参数 θ , ϕ \theta,\phi θ,ϕ时的对数似然, E q ( z ∣ x ; ψ ) [ ⋅ ] \mathbb E_{q(z|x;\psi)}[\cdot] Eq(zx;ψ)[]为关于分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(zx;ψ)的期望, K L [ q ( z ∣ x ; ϕ ) ∣ ∣ p ( z ∣ x ; θ ) ] KL[q(z|x;\phi)||p(z|x;\theta)] KL[q(zx;ϕ)∣∣p(zx;θ)]为变分分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(zx;ψ)和先验分布 p ( z ∣ x ; θ ) p(z|x;\theta) p(zx;θ)的KL散度。

该不等式用于最大化ELBO,以近似真实后验分布。

2. 自动驾驶中的世界模型

在这里插入图片描述
目前,自动驾驶中的世界模型主要关注场景生成与规划控制。

A. 驾驶场景生成

自动驾驶中的数据获取成本高(采集和标注),且需要考虑法律和安全。世界模型通过自监督学习,可利用大量无标签数据来提高模型性能。使用世界模型生成驾驶场景可丰富训练数据集,使自动驾驶系统具备应对罕见和复杂场景的鲁棒性。

典型模型包括使用视觉信息的GAIA-1、DriveDreamer、WorldDreamer等。

  • ADriver-I使用多模态大型语言模型(MLLM)和视频隐扩散模型(VDM)。前者生成控制信号,后者以之作为提示,预测后续视频输出。

除了视觉信息外,自动驾驶场景还包括了大量的关键物理数据。

  • MUVO使用激光雷达点云和视频输入,预测未来的视频、点云和3D占用网格。其中3D占用网格可直接用于下游任务。
  • OccWorld和Think2Drive直接使用3D占用信息作为系统输入,来预测环境的演化并规划车辆行为。

可见,世界模型正在逐步走向多模态方法。

B. 规划与控制

典型模型包括MILE(基于模型的模仿学习)、SEM2等。

考虑到多数自动驾驶汽车有多个摄像机:

  • Drive-WM是第一个多视图世界模型。
  • UniWorld使用多帧点云融合作为4D占用标签,可进行运动预测和语义场景补全等任务。
  • TrafficBots使用条件变分自编码器(CVAE)学习每个智能体的个性。

C. 小结

场景生成任务不仅包括视频生成,还包括了场景信息补全和3D占用预测等任务。

控制任务包括基于传感器输入的和基于提示词的,等等。此外还可与场景生成任务结合,以提高自动驾驶系统的可解释性。

比较不同世界模型的性能有较大挑战,因为任务、验证集和评估准则不同。

3. 挑战与未来展望

A. 技术和计算挑战

a)长期可扩展记忆整合。当代模型面临着梯度消失或灾难性遗忘等问题,严重限制了其长期记忆能力。Transformer虽然可通过自注意力访问历史数据,但其处理长序列时的可扩展性和速度有限。

考虑该问题的模型:TRANSDREAMER、S4WM。

未来的研究可能多管齐下,包括增强网络容量、整合复杂的外部记忆模块、探索迭代学习策略等。

b)仿真到真实世界的泛化。目前的仿真平台仍不能完全模拟真实世界的不可预测性和多样性。这种不一致性体现在物理属性差异、传感器噪声、不可预见事件的发生上。

需要改进仿真技术,或开发对真实数据和仿真数据之间的差异具有鲁棒性的模型;也可整合先进传感融合技术、探索新的学习策略(如元学习或强化学习)来使世界模型能够动态适应真实世界驾驶的复杂性。

c)理论和硬件突破。目前的世界模型更擅长生成任务而非纯预测任务,这可能是模型无法完美模仿真实世界的演化(包括平衡确定性和随机性)。

此外,通过传感器和编码器后,信息会损失很多细节。一方面,需要对多模态信息的无损采集和处理;另一方面,处理和恢复细节对存储和计算能力提出了挑战。

B. 伦理和安全挑战

  • 决策可解释性。
  • 隐私和数据完整性。
  • 责任和标准。

C. 未来展望

  • 连接人类直觉和AI精确性。世界模型会向着认知协同驾驶框架发展,将人类驾驶员的的直觉决策能力和AI的精度可靠性结合。
  • 使车辆与城市生态协调

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/87998.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/87998.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/87998.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud Config(微服务配置中心详解)

关键词&#xff1a;Spring Cloud Config、配置中心、远程仓库、动态刷新、加密解密 ✅ 摘要 在微服务架构中&#xff0c;随着服务数量的增加&#xff0c;统一管理各服务的配置信息变得尤为重要。传统的本地配置文件方式难以满足多环境、多实例、集中化的需求。 Spring Cloud …

【Note】《深入理解Linux内核》 第二十章:深入理解 Linux 程序执行机制

《深入理解Linux内核》 第二十章&#xff1a;深入理解 Linux 程序执行机制&#xff08;Program Execution&#xff09;关键词&#xff1a;exec 系列系统调用、可执行文件格式&#xff08;ELF&#xff09;、用户地址空间、内存映射、动态链接、栈初始化、入口点、共享库、内核态…

服务器如何配置防火墙规则以阻止恶意流量和DDoS攻击?

防火墙是保护服务器免受恶意流量和 DDoS 攻击的第一道防线。通过合理配置防火墙规则&#xff0c;可以有效阻止恶意访问、限制不必要的流量&#xff0c;并减少攻击对服务器的影响。以下是配置防火墙规则的全面指南&#xff0c;包括基础规则设置、防御 DDoS 攻击的高级策略和最佳…

持续性投入是成就自我价值的关键一环

概述 时间&#xff0c;的唯一公平之处就是给你我的长度是相同的&#xff0c;这也是它唯一公平&#xff0c;也是不公平的地方。 所谓的公平&#xff0c;就是不患寡而患不均中所说的平均。 所谓的不公平就是&#xff0c;相同时间内我们彼此对应的标价不同&#xff0c;延伸到后…

使用allegro在BoardGeometry的Silkscreen_Top层画出图案

目录 1. 图形及图形放置显示2. 绘制 1. 图形及图形放置显示 绘制完成图案&#xff1a; 导出后图案&#xff1a; 2. 绘制 图层选中&#xff1b; 画圆型&#xff1b; 半径3.5mm&#xff0c;原点生成&#xff1b; 在图案中挖空&#xff1b; 用指令走线&#xff1a; …

Kotlin 协程:Channel 与 Flow 深度对比及 Channel 使用指南

前言 在 Kotlin 协程的异步编程世界里&#xff0c;Channel 和 Flow 是处理数据流的重要工具&#xff0c;它们有着不同的设计理念与适用场景。本文将对比二者功能与应用场景&#xff0c;详细讲解 Channel 的使用步骤及注意事项 。 一、Channel 与 Flow 的特性对比 Channel 是协程…

MYsql主从复制部署

MySQL 主从复制是将主数据库的变更自动同步到从数据库的过程&#xff0c;常用语读写分离、高可用性和数据备份。 1.环境准备 确保主从服务器已安装相同版本的 MySQL&#xff0c;并能通过网络互相访问。 # 检查 MySQL 版本 mysql -V 2.配置主服务器 &#xff08;1&#xff0…

安灯呼叫看板如何实现汽车生产异常秒级响应

在汽车零部件工厂的静置车间&#xff0c;传统生产管理依赖人工巡检与纸质记录&#xff0c;存在效率低、信息滞后、异常响应慢等问题。某汽车厂曾因物料静置时间未及时监控&#xff0c;导致批次混料&#xff0c;损失超10万元。而安灯呼叫看板系统的引入&#xff0c;通过实时状态…

构造函数注入在spring boot 中怎么使用详解

我们来详细讲解一下在 Spring Boot 中如何使用构造函数注入&#xff0c;并通过一个完整的、可运行的例子来演示。 构造函数注入是 Spring 官方最推荐的依赖注入方式&#xff0c;因为它能保证对象的不可变性和依赖的完整性。 核心理念 在 Spring Boot 中使用构造函数注入非常简单…

2025.6.30-2025.7.06第26周:第一次参加头马演讲俱乐部

现在是周一早上6:23&#xff0c;我开始写上周的周总结。 3件超出预期的事 参加头马俱乐部绝对是最超出预期的&#xff0c;使得这个周末格外的快乐简历的第一版终于改完了&#xff0c;花了好长的时间&#xff0c;其中有一天心情还很荡&#xff0c;因为&#xff0c;我想&#x…

2025使用VM虚拟机安装配置Macos苹果系统下Flutter开发环境保姆级教程--下篇

其实如何安装VM,如何安装MACOS网上的教程很多,我只是结合我的体验重新整理了一次,接下来才进入本教程最核心的部分,Flutter开发环境的配置部分。、一.配置前准备 主要是准备相应的工具包,以及其他虚拟机设置1.工具包 工具包的版本也可以自行配置,我这主要是我使用的是F…

QSPI、OSPI与FSMC的区别与内存映射分析

QSPI、OSPI与FSMC的区别与内存映射分析 基本概念与区别 1. FSMC (灵活静态存储控制器) 接口类型&#xff1a;并行接口&#xff0c;通常8/16位数据总线总线标准&#xff1a;传统并行总线协议速度&#xff1a;相对较低&#xff0c;通常最高约100MHz应用场景&#xff1a;SRAM、NOR…

系统思考与心智模式探索

成长的真正障碍&#xff0c;不是能力的不足&#xff0c;而是看待问题的局限。 在复杂多变的商业环境中&#xff0c;我们往往习惯于解决“眼前”的问题&#xff0c;却忽视了深藏背后的系统性障碍。我们看到的只是表面的“症状”&#xff0c;而真正的根源&#xff0c;却往往隐藏…

物联网技术的关键技术与区块链发展趋势的深度融合分析

一、物联网技术的核心架构与关键技术 物联网技术体系由感知层、网络层、平台层、应用层和安全层构成&#xff0c;各层技术协同工作&#xff0c;实现物理世界与数字世界的深度融合。 感知层&#xff1a;物联网的“感官” 传感器技术&#xff1a;包括环境传感器&#xff08;温度…

针对Exhcnage Server的攻击防范措施

一、背景介绍最近&#xff0c;安全研究人员揭露了一个名为 NightEagle&#xff08;又名 APT-Q-95&#xff09; 的高级持续性威胁&#xff08;APT&#xff09;组织。这个组织被观察到利用 Microsoft Exchange 服务器中的零日漏洞链 进行攻击&#xff0c;其主要目标是中国政府、国…

编程基础:继承

能帮到你的话&#xff0c;就给个赞吧 &#x1f618; 文章目录继承&#xff1a;使用基类成员&#xff1a;前提——派生类必须同样支持基类成员(组件和功能)示例&#xff1a;动物Animal 有 鳃 和 会飞。则 鸟Bird 不是 Animal&#xff0c;因为Bird虽会飞&#xff0c;却没有鳃。鱼…

TMC4361A 使用(未验证)

prompt 我用STM32F103C8T6 来控制 TMC4361A 运动控制芯片 &#xff0c;我配置 STM32F103C8T6 的 SPI1 与 TMC4361A 进行通信&#xff0c;配置 PA4 作为片选线&#xff0c;配置 PA8 作为 RCC_MCO 输入时钟输入到 TMC4361A, 并将其连接到TMC4361A的CLK_EXT引脚。我想控制 TMC4361…

深度剖析:如何解决Node.js中mysqld_stmt_execute参数错误

在Node.js后端开发中&#xff0c;使用mysql2等数据库驱动与MySQL/MariaDB交互时&#xff0c;Incorrect arguments to mysqld_stmt_execute 是一个令人头疼的错误。它通常意味着你传递给SQL预处理语句的参数数量与SQL字符串中问号&#xff08;?&#xff09;占位符的数量不匹配。…

Vue3 学习教程,从入门到精通,Vue 3 安装指南及语法知识点详解(2)

Vue 3 安装指南及语法知识点详解 本文将详细介绍 Vue 3 的所有安装方式&#xff0c;并深入讲解 Vue 3 的语法知识点。此外&#xff0c;还将提供一些综合性案例&#xff0c;展示如何综合运用 Vue 3 的各项功能。一、安装 Vue 3 的所有方式 Vue 3 提供了多种安装方式&#xff0c;…

C++基础复习笔记

一、数组定义 在C中&#xff0c;数组初始化有多种方式&#xff0c;以下是常见的几种方法&#xff1a; 默认初始化 数组元素未显式初始化时&#xff0c;内置类型&#xff08;如int、float&#xff09;的元素值未定义&#xff08;垃圾值&#xff09;&#xff0c;类类型调用默认构…