原文链接:https://ieeexplore.ieee.org/abstract/document/10522953
1. 世界模型的发展
A. 世界模型的结构基础
世界模型包含4个关键组件,以模拟人类连贯的思考和决策过程。
a)感知模块使用如变分自编码器(VAE)、掩膜自编码器(MAE)或离散自编码器(DAE)等编码模块,将环境输入(如图像、视频、文本、控制指令等)处理并压缩为更易于管理的格式。
b)记忆模块用于记录和管理过去、现在和预测的世界状态及其相关代价或奖励。
c)控制/行为模块评估当前状态和世界模型的预测,以决定实现目标(如最小化代价或最大化奖励)的最优行为序列。该模块与世界模型模块区分开来,使用小参数集独立训练。
d)世界模型模块估计当前世界状态丢失的信息并预测未来的环境状态。
模型预测的确定性和真实世界现象的不确定性之间的协调是一个挑战,因此,可以使用温度变量引入不确定性,或使用结构化框架(如循环状态空间模型(RSSM)与联合嵌入预测结构(JEPA)),以微调预测精度与灵活性的平衡。此外,使用Top-K采样,以及从CNN模型转换到Transformer模型(如Transformer状态空间模型(TSSM)和时空Patchwise Transformer(STPT))通过将世界模型的预测与真实世界的可能发展对齐,能更好地近似真实世界的复杂程度和不确定性。
世界模型中最常用的核心结构是RSSM与JEPA。
1)循环状态空间模型(RSSM) 在隐空间中实现纯正向预测。
上图c展示了潜在动态模型的3次步进。随机变量(圈)和确定性变量(方块)在模型结构内交互——实线表示生成过程,虚线表示推断过程。
与无法捕捉多种潜在未来的、确定性初始状态的RNN(图a)和完全随机、无信息保留能力的状态空间模型(SSM,图b)不同,RSSM将状态分解为随机性状态和确定性状态,有效利用确定性元素的预测稳定性和随机性元素的自适应潜力。
记观测和行为序列为 ( x 0 , a 1 , x 1 , a 2 , x 2 , ⋯ , a T , x T ) (x_0,a_1,x_1,a_2,x_2,\cdots,a_T,x_T) (x0,a1,x1,a2,x2,⋯,aT,xT)。观测到 x t x_t xt后,智能体进行行为 a t + 1 a_{t+1} at+1,并接收下一步观测 x t + 1 x_{t+1} xt+1。RSSM将观测和状态转移建模为下列生成过程:
p ( x 0 : T ∣ a 1 : T ) = ∫ ∏ t = 0 T p ( x t ∣ z ≤ t , a ≤ t ) p ( z t ∣ z < t , a ≤ t ) d z 0 : T p(x_{0:T}|a_{1:T})=\int\prod_{t=0}^{T}p(x_t|z_{\leq t},a_{\leq t})p(z_t|z_{<t},a_{\leq t})dz_{0:T} p(x0:T∣a1:T)=∫t=0∏Tp(xt∣z≤t,a≤t)p(zt∣z<t,a≤t)dz0:T
其中 z 0 : T z_{0:T} z0:T为随机隐状态。近似后验定义为:
q ( z 0 : T ∣ x 0 : T , a 1 : T ) = ∏ t = 0 T q ( z t ∣ z < t , a ≤ t , x t ) q(z_{0:T}|x_{0:T},a_{1:T})=\prod_{t=0}^Tq(z_t|z_{<t},a_{\leq t},x_t) q(z0:T∣x0:T,a1:T)=t=0∏Tq(zt∣z<t,a≤t,xt)
RSSM使用共享的GRU来将 z < t z_{<t} z<t和 a ≤ t a_{\leq t} a≤t压缩为确定性编码 h t h_t ht:
h t = G R U ( h t − 1 , M L P ( c o n c a t [ z t − 1 , a t ] ) ) h_t=GRU(h_{t-1},MLP(concat[z_{t-1},a_t])) ht=GRU(ht−1,MLP(concat[zt−1,at]))
随后,用于计算先验、似然和后验的充分统计量:
p ( z t ∣ z < t , a ≤ t ) = M L P ( h t ) p ( x t ∣ z ≤ t , a ≤ t ) = N ( x ^ t , 1 ) x ^ t = D e c o d e r ( c o n c a t [ h t , z t ] ) q ( z t ∣ z < t , a ≤ t , x t ) = M L P ( c o n c a t [ h t , e t ] ) e t = E n c o d e r ( x t ) p(z_t|z_{<t},a_{\leq t})=MLP(h_t)\\ p(x_t|z_{\leq t},a_{\leq t})=\mathcal N(\hat x_t,1)\\ \hat x_t=Decoder(concat[h_t,z_t])\\ q(z_t|z_{<t},a_{\leq t},x_t)=MLP(concat[h_t,e_t])\\ e_t=Encoder(x_t) p(zt∣z<t,a≤t)=MLP(ht)p(xt∣z≤t,a≤t)=N(x^t,1)x^t=Decoder(concat[ht,zt])q(zt∣z<t,a≤t,xt)=MLP(concat[ht,et])et=Encoder(xt)
训练目标是最大化证据下界(ELBO):
log p ( x 0 : T ∣ a 1 : T ) ≥ E q [ ∑ t = 0 T log p ( x t ∣ z ≤ t , a ≤ t ) − L K L ( q ( z t ∣ z < t , a ≤ t , x t ) , p ( z t ∣ z < t , a ≤ t ) ) ] \log p(x_{0:T}|a_{1:T})\geq\mathbb E_q[\sum_{t=0}^T\log p(x_t|z_{\leq t},a_{\leq t})-\mathcal L_{KL}(q(z_t|z_{<t},a_{\leq t},x_t),p(z_t|z_{<t},a_{\leq t}))] logp(x0:T∣a1:T)≥Eq[t=0∑Tlogp(xt∣z≤t,a≤t)−LKL(q(zt∣z<t,a≤t,xt),p(zt∣z<t,a≤t))]
2)联合嵌入预测结构(JEPA) 关注表达空间而非直接且具体的预测。
如图所示,JEPA通过双编码器将输入 x x x和目标 y y y抽象为表达 s x , s y s_x,s_y sx,sy,并使用隐变量 z z z进行预测。其预测过程更简单,且能保证结果的相关性和可靠性。
JEPA的核心是能量函数 E w ( x , y , z ; θ ) E_w(x,y,z;\theta) Ew(x,y,z;θ),其捕捉了模型的预测误差。这里 θ \theta θ表示模型参数。能量函数定义为
E w ( x , y , z ; θ ) = ∥ s y − P r e d ( s x , z ; ϕ ) ∥ 2 2 + λ ∥ z ∥ 2 2 E_w(x,y,z;\theta)=\|s_y-Pred(s_x,z;\phi)\|_2^2+\lambda\|z\|_2^2 Ew(x,y,z;θ)=∥sy−Pred(sx,z;ϕ)∥22+λ∥z∥22
其中,L2范数平方衡量了预测表达与目标表达 s y s_y sy的欧式距离,即模型预测误差;预测函数 P r e d Pred Pred将输入表达 s x s_x sx和隐变量 z z z映射到目标空间,其参数为 ϕ \phi ϕ。正则化项 λ ∥ z ∥ 2 2 \lambda\|z\|_2^2 λ∥z∥22则惩罚模型的复杂性,以避免过拟合。
优化的目标是通过寻找 θ , ϕ , z \theta,\phi,z θ,ϕ,z最小化能量函数 E w E_w Ew,可表达为以数据分布为约束的复值拉格朗日优化问题:
L ( θ , ϕ , z ; x , y , α ) = E w ( x , y , z ; θ ) − α ( h ( x , y , z ; θ , ϕ ) − c ) L(\theta,\phi,z;x,y,\alpha)=E_w(x,y,z;\theta)-\alpha(h(x,y,z;\theta,\phi)-c) L(θ,ϕ,z;x,y,α)=Ew(x,y,z;θ)−α(h(x,y,z;θ,ϕ)−c)
其中 L ( θ , ϕ , z ; x , y , α ) L(\theta,\phi,z;x,y,\alpha) L(θ,ϕ,z;x,y,α)是拉格朗日方程, α \alpha α为拉格朗日乘子,强制满足约束 h ( x , y , z ; θ , ϕ ) = c h(x,y,z;\theta,\phi)=c h(x,y,z;θ,ϕ)=c; h ( x , y , z ; θ , ϕ ) h(x,y,z;\theta,\phi) h(x,y,z;θ,ϕ)为约束函数,其参数为 θ \theta θ和 ϕ \phi ϕ, c c c为函数 h h h的目标值(常数)。
JEPA的训练包含高阶优化方法,考虑二阶导数以保证收敛:
θ t + 1 = θ t − η ∇ θ 2 L ( θ t , ϕ t , z t ; x , y , α t ) \theta_{t+1}=\theta_t-\eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) θt+1=θt−η∇θ2L(θt,ϕt,zt;x,y,αt)
其中 θ t + 1 \theta_{t+1} θt+1为更新后的参数向量, η \eta η为学习率; η ∇ θ 2 L ( θ t , ϕ t , z t ; x , y , α t ) \eta\nabla_\theta^2L(\theta_t,\phi_t,z_t;x,y,\alpha_t) η∇θ2L(θt,ϕt,zt;x,y,αt)为拉格朗日函数 L L L对 θ \theta θ二阶偏导数的Hessian矩阵。
考虑到 z z z的高维特性和多模态分布的可能性,JPEA可采用变分近似方法处理后验 p ( z ∣ x , y ; θ ) p(z|x,y;\theta) p(z∣x,y;θ),得到变分下界:
log p ( y ∣ x ; θ , ϕ ) ≥ E q ( z ∣ x ; ψ ) [ log p ( y ∣ x , z ; θ ; ϕ ) ] − K L [ q ( z ∣ x ; ψ ) ∣ ∣ p ( z ∣ x ; θ ) ] \log p(y|x;\theta,\phi)\geq\mathbb E_{q(z|x;\psi)}[\log p(y|x,z;\theta;\phi)]-KL[q(z|x;\psi)||p(z|x;\theta)] logp(y∣x;θ,ϕ)≥Eq(z∣x;ψ)[logp(y∣x,z;θ;ϕ)]−KL[q(z∣x;ψ)∣∣p(z∣x;θ)]
其中 log p ( y ∣ x ; θ , ϕ ) \log p(y|x;\theta,\phi) logp(y∣x;θ,ϕ)为数据 y y y在给定 x x x和模型参数 θ , ϕ \theta,\phi θ,ϕ时的对数似然, E q ( z ∣ x ; ψ ) [ ⋅ ] \mathbb E_{q(z|x;\psi)}[\cdot] Eq(z∣x;ψ)[⋅]为关于分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(z∣x;ψ)的期望, K L [ q ( z ∣ x ; ϕ ) ∣ ∣ p ( z ∣ x ; θ ) ] KL[q(z|x;\phi)||p(z|x;\theta)] KL[q(z∣x;ϕ)∣∣p(z∣x;θ)]为变分分布 q ( z ∣ x ; ψ ) q(z|x;\psi) q(z∣x;ψ)和先验分布 p ( z ∣ x ; θ ) p(z|x;\theta) p(z∣x;θ)的KL散度。
该不等式用于最大化ELBO,以近似真实后验分布。
2. 自动驾驶中的世界模型
目前,自动驾驶中的世界模型主要关注场景生成与规划控制。
A. 驾驶场景生成
自动驾驶中的数据获取成本高(采集和标注),且需要考虑法律和安全。世界模型通过自监督学习,可利用大量无标签数据来提高模型性能。使用世界模型生成驾驶场景可丰富训练数据集,使自动驾驶系统具备应对罕见和复杂场景的鲁棒性。
典型模型包括使用视觉信息的GAIA-1、DriveDreamer、WorldDreamer等。
- ADriver-I使用多模态大型语言模型(MLLM)和视频隐扩散模型(VDM)。前者生成控制信号,后者以之作为提示,预测后续视频输出。
除了视觉信息外,自动驾驶场景还包括了大量的关键物理数据。
- MUVO使用激光雷达点云和视频输入,预测未来的视频、点云和3D占用网格。其中3D占用网格可直接用于下游任务。
- OccWorld和Think2Drive直接使用3D占用信息作为系统输入,来预测环境的演化并规划车辆行为。
可见,世界模型正在逐步走向多模态方法。
B. 规划与控制
典型模型包括MILE(基于模型的模仿学习)、SEM2等。
考虑到多数自动驾驶汽车有多个摄像机:
- Drive-WM是第一个多视图世界模型。
- UniWorld使用多帧点云融合作为4D占用标签,可进行运动预测和语义场景补全等任务。
- TrafficBots使用条件变分自编码器(CVAE)学习每个智能体的个性。
C. 小结
场景生成任务不仅包括视频生成,还包括了场景信息补全和3D占用预测等任务。
控制任务包括基于传感器输入的和基于提示词的,等等。此外还可与场景生成任务结合,以提高自动驾驶系统的可解释性。
比较不同世界模型的性能有较大挑战,因为任务、验证集和评估准则不同。
3. 挑战与未来展望
A. 技术和计算挑战
a)长期可扩展记忆整合。当代模型面临着梯度消失或灾难性遗忘等问题,严重限制了其长期记忆能力。Transformer虽然可通过自注意力访问历史数据,但其处理长序列时的可扩展性和速度有限。
考虑该问题的模型:TRANSDREAMER、S4WM。
未来的研究可能多管齐下,包括增强网络容量、整合复杂的外部记忆模块、探索迭代学习策略等。
b)仿真到真实世界的泛化。目前的仿真平台仍不能完全模拟真实世界的不可预测性和多样性。这种不一致性体现在物理属性差异、传感器噪声、不可预见事件的发生上。
需要改进仿真技术,或开发对真实数据和仿真数据之间的差异具有鲁棒性的模型;也可整合先进传感融合技术、探索新的学习策略(如元学习或强化学习)来使世界模型能够动态适应真实世界驾驶的复杂性。
c)理论和硬件突破。目前的世界模型更擅长生成任务而非纯预测任务,这可能是模型无法完美模仿真实世界的演化(包括平衡确定性和随机性)。
此外,通过传感器和编码器后,信息会损失很多细节。一方面,需要对多模态信息的无损采集和处理;另一方面,处理和恢复细节对存储和计算能力提出了挑战。
B. 伦理和安全挑战
- 决策可解释性。
- 隐私和数据完整性。
- 责任和标准。
C. 未来展望
- 连接人类直觉和AI精确性。世界模型会向着认知协同驾驶框架发展,将人类驾驶员的的直觉决策能力和AI的精度可靠性结合。
- 使车辆与城市生态协调。