具身智能世界模型综述:架构、演进与挑战

具身智能世界模型综述:架构、演进与挑战

本文内容基于综述:Y. et al. A Comprehensive Survey on World Models for Embodied AI. arXiv:2510.16732 [cs.CV], 2025. https://doi.org/10.48550/arXiv.2510.16732

1. 研究背景:从认知科学到具身模拟

具身人工智能(Embodied AI)的核心挑战在于智能体不仅需要感知环境,还需通过行动重塑未来状态。在此背景下,世界模型本质上是环境动态的内部模拟器,其功能超越了静态的场景描述或纯粹的视觉生成,而是捕捉环境动态以支持前向模拟(Forward Rollout)和反事实推理。

从演进视角来看,世界模型的研究深受认知科学启发,即人类通过整合感官输入构建内部模型来指导感知与行动。早期研究植根于基于模型的强化学习(Model-Based RL),如开创性的 World ModelsDreamer 系列,利用潜在状态转移来提升样本效率。而随着生成式 AI 的爆发,Sora、V-JEPA 2 等大规模模型将这一领域推向了通用环境模拟器的新阶段,使其具备了高保真的未来预测能力。

2. 核心功能支柱

世界模型的核心功能建立在以下三大支柱之上,为后续的分类体系提供了概念基础与形式化框架。

  • 仿真与规划 (Simulation & Planning)
    利用学得的动力学模型生成合理的未来场景。这使得智能体能够在无需与现实世界交互的情况下,通过“想象”来评估潜在动作的后果。
  • 时间演化 (Temporal Evolution)
    学习编码状态随时间的演化过程,从而实现时间上一致的滚动预测(Consistent Rollout),确保长时程推演的连贯性。
  • 空间表示 (Spatial Representation)
    在适当的保真度下编码场景的几何结构(采用潜在 Token 或神经场等形式),为控制决策提供必要的空间上下文。

3. 数学形式化 (Mathematical Formulation)

我们将环境交互过程形式化为一个​部分可观测马尔可夫决策过程 (POMDP)

符号定义与交互过程

初始化:为保持符号一致性,定义 t=0t =0 时刻存在一个空的初始动作 a0a_0,以便统一表示动态过程。

交互循环:在每一步 t1t\ge1 中,智能体接收观测 oto_t 并执行动作 ata_t,而环境的真实状态sts_t保持不可观测。

潜在状态推断

为了处理部分可观测性,世界模型引入一步过滤后验 (One-step Filtered Posterior) 来推断学得的潜在状态ztz_t。模型假设前一时刻的潜在状态 zt1z_{t-1} 能够充分总结相关的历史信息。

这一过程通常包含以下三个关键环节:

  1. 动力学先验 (Dynamics Prior) :预测状态的自然演化 pθ(ztzt1,at1)p_\theta(z_t | z_{t-1}, a_{t-1})
  2. 过滤后验 (Filtered Posterior) :结合当前观测修正状态估计 qϕ(ztzt1,at1,ot)q_\phi(z_t | z_{t-1}, a_{t-1}, o_t)
  3. 重构 (Reconstruction) :利用潜在状态还原观测 pθ(otzt)p_\theta(o_t | z_t)

4. 训练范式

现代世界模型普遍采用重构-正则化 (Reconstruction-Regularization) 的训练范式,其优化目标包含两部分:

  • 似然项 (Likelihood Term) :促进对观测数据的忠实预测(重构能力)。
  • KL 正则化项 (KL Regularization Term) :约束过滤后的后验分布 qϕq_\phi,使其与动态先验分布 pθp_\theta 保持对齐(一致性)。

5. 核心分类体系:三轴分析框架

为了解决领域内术语不一致的问题,本文提出了一个围绕功能性时间建模空间表示的三轴分类框架。

功能性维度,模型被划分为决策耦合型(Decision-Coupled)通用型(General-Purpose) 。决策耦合模型(如 RSSM)针对特定任务优化,强调策略学习的效率;而通用型模型则作为任务无关的模拟器,专注于广泛的视频预测与物理仿真,旨在跨下游应用实现泛化。

image

时间建模维度,研究呈现出两种截然不同的范式。序列模拟与推理(Sequential Simulation) 采用自回归方式逐步展开未来状态,如 RNN 和 Transformer,这种方式便于因果推理但易累积误差。相对地,全局差异预测(Global Difference Prediction) 则并行估计整个未来状态序列(如 Diffusion、Masked Modeling),虽然提升了训练效率,但往往以牺牲时间连贯性为代价。

image

空间表示维度,模型的设计直接决定了计算效率与物理保真度。早期方法多采用全局潜在向量(Global Latent Vector) 以适应实时计算;随后的研究转向Token 特征序列(Token Feature Sequence) 以捕捉复杂的时空依赖。在自动驾驶与导航中,空间潜在网格(Spatial Latent Grid) (如 BEV、体素)因保留几何先验而备受青睐。最新的趋势则是利用分解渲染表示(Decomposed Rendering Representation) ,结合 3DGS 或 NeRF 实现高保真的新视角合成与物理模拟。

image

6. 数据资源与评估体系

具身智能中的世界模型需要应对涵盖操作、导航和自动驾驶等多样任务,要求​异构资源和严格的评估

数据资源

为了满足具身智能的多样化需求​,将数据资源分为四类:仿真平台、交互式基准、离线数据集和真实机器人平台。

仿真平台: 为世界模型的训练和评估提供了可控且可扩展的虚拟环境。

  • MuJoCo 是一个可定制的物理引擎,因其在机器人学和控制研究中对连杆系统及接触动力学的高效仿真而被广泛采用。
  • NVIDIA Isaac 是一个端到端、基于 GPU 加速的仿真栈,包含 Isaac Sim、Isaac Gym 以及 Isaac Lab。它提供了逼真的渲染效果和大规模强化学习能力。
  • CARLA 是一个基于 Unreal Engine 的开源模拟器,用于城市自动驾驶,提供逼真的渲染、多样化的传感器以及闭环评估协议。
  • Habitat 是一个高性能的具身智能模拟器,专注于逼真的三维室内导航。

交互式基准: 提供标准化的任务套件和协议,用于对世界模型进行可重复的闭环评估。

  • DeepMind Control (DMC) :一个基于 MuJoCo 的标准控制任务套件,为从状态或像素观测中学习的智能体提供了统一的比较基础。
  • Atari:一套基于像素、离散动作的游戏合集,用于评估智能体性能。Atari100k 通过将交互限制在 100k 步内,专门评估样本效率。
  • Meta-World:一个用于多任务和元强化学习的基准,包含 50 种多样化的机器人操作任务,使用 MuJoCo 中的 Sawyer 机械臂,并遵循标准化的评估协议
  • RLBench:提供了 100 个模拟的桌面操作任务,具有稀疏奖励和丰富的多模态观测,旨在测试复杂技能和快速适应能力。
  • LIBERO:一个用于持续学习机器人操作的基准,提供了 130 个程序生成的任务和人类示范,以评估样本高效性和持续学习能力。
  • nuPlan:一个自动驾驶规划基准,采用轻量级闭环模拟器和超过 1500 小时的真实世界驾驶日志来评估长时程性能。

离线数据集: 大规模预先收集的轨迹,消除了交互式滚动采样,为世界模型的可复现评估和数据高效预训练提供了基础。

数据集名称 类型/领域 数据规模与内容描述 特点与用途
RT-1 机器人操作 17 个月收集,13 台机器人,700+ 任务,130,000 条示范,语言+图像输入,11-DoF 动作 支持语言指令与视觉感知的多模态机器人学习
Open X-Embodiment (OXE) 跨形态机器人 21 机构,60 数据源,22 种形态,527 项技能,100 万+ 轨迹,统一格式 支持跨机器人平台训练,提升模型泛化能力
nuScenes 自动驾驶(感知) 1,000 场景(20s),波士顿+新加坡,6 摄像头+5 雷达+1 激光雷达+GPS/IMU,23 类 3D 标注,HDMap 多模态融合、3D 感知、长时程预测基准
Waymo 自动驾驶(感知) 1,150 场景(20s),10Hz,旧金山+凤凰城+山景城,5 激光雷达+5 摄像头,1,200 万 3D/2D 标注 大规模真实场景,3D 目标检测与轨迹预测
Occ3D 自动驾驶(占据预测) Occ3D-nuScenes:40,000 帧,0.4m 分辨率;Occ3D-Waymo:200,000 帧,0.05m 分辨率 体素级占据标签,超越边界框的细粒度场景理解
OpenDV 自动驾驶(视频-文本) 2,059 小时,6,510 万帧,YouTube+7 公开数据集,40+ 国家,244 城市,带命令与上下文标注 支持语言与动作条件下的视频预测与规划
Something-Something v2 视频动作理解 220,847 视频片段,174 类,文本提示生成(如“将某物放入某物”),训练/验证/测试集划分明确 细粒度动作识别,强调时序推理与语言-动作对齐
VideoMix22M 自监督预训练 2,200 万样本,来源:YT-Temporal-1B、HowTo100M、Kinetics、SSv2、ImageNet(转视频) 用于视频自监督预训练,支持 V-JEPA 等模型训练
HM3D (Habitat-Matterport 3D) 室内仿真(具身智能) 1,000 室内场景,112,500 m² 可导航面积,面向 Habitat 平台,含元数据与资源包 支持大规模室内导航与具身 AI 研究,提升场景多样性与仿真真实性

现实世界中的机器人平台: 为交互提供了物理实现,支持闭环评估、高保真度的数据采集以及在真实环境约束下的 S2R 验证。

  • Franka Emika: 7-DoF 协作机械臂,全关节内置扭矩传感器;支持 1 kHz 力矩控制,专为精细力控与接触密集型任务设计;提供官方 ROS 包与 Franka Control Interface,即插即用,是力控操作与操作学习研究的标配桌面平台。
  • Unitree Go1: 低成本小型四足机器人,12 关节电机驱动,最高速度 4.7 m/s;机载 1.5 TFLOPS 计算盒 + 全景深度相机,可高帧率感知;开放 ROS/C++/Python SDK,已成为运动控制、步态学习和具身导航领域的事实标准平台。
  • Unitree G1: 轻量化人形机器人,全身 43-DoF,膝关节峰值扭矩 120 N·m;集成 3D LiDAR、深度摄像头、可换电池与机载计算;支持 ROS 与多语言 SDK,提供多模态感知与全身控制接口,为训练和评估具身世界模型提供可落地的实体测试环境。

评估体系

用于评估世界模型性能的指标,这些指标从像素预测质量、状态级理解到任务表现,涵盖了从低级信号保真度到高级目标达成的多个层面。

像素生成质量

  • Fréchet 初始化距离(FID) :比较真实图像和生成图像在预训练模型特征空间中的分布,值越低表示分布越接近。
  • Fréchet 视频距离(FVD) :扩展 FID 到视频,评估每帧质量及时间一致性,值越低表示外观和动态分布越接近。
  • 结构相似性指数测量(SSIM) :比较生成图像与参考图像的亮度、对比度和结构,值越接近 1 表示相似性越高。
  • 峰值信噪比(PSNR) :衡量重建图像与参考图像的像素级失真,值越高表示保真度越高。
  • 学习感知图像块相似性(LPIPS) :通过比较预训练网络的特征,衡量生成图像与参考图像的感知相似性,值越低表示相似性越高。
  • VBench:综合评估视频生成的多个维度,包括视频质量和条件一致性,提供细粒度的性能评估。

状态级理解

  • 平均交并比(mIoU) :评估语义分割的准确性,通过平均各类别的交并比来衡量,值越高表示场景理解越精确。
  • 平均精度均值(mAP) :评估检测和实例分割的准确性,通过平均每个类别的平均精度来衡量,值越高表示识别和定位越准确。
  • 位移误差:评估关键点、物体中心和轨迹航点的空间精度,包括平均位移误差(ADE)和最终位移误差(FDE),值越低表示定位越准确。
  • 查准距(CD) :量化预测与真实情况之间的几何相似性,适用于表面、占用、鸟瞰视图和三维结构的评估,值越低表示相似性越高。

任务表现

  • 成功率(SR) :衡量在具身环境中完成任务的比例,值越高表示性能越好。
  • 样本效率(SE) :衡量达到目标性能所需的样本数量,值越低表示样本效率越高。
  • 奖励:在强化学习中,衡量代理在时间步 t 的表现,通过累积奖励或平均回报来评估,值越高表示性能越好。
  • 碰撞率:衡量在导航或自动驾驶中发生碰撞的比例,值越低表示安全性越高。

7. 关键性能

通过对现有工作的定量对比,可以发现不同技术路线的显著权衡:​​

视频生成领域:在 nuScenes 基准上,DrivePhysica 通过物理先验实现了最佳的视觉保真度(FID 4.0),而 MiLA 则凭借多视角一致性设计实现了最佳的时间连贯性(FVD 14.9)。

image

场景理解领域:在 Occ3D-nuScenes 的 4D 占据预测任务中,输入模态至关重要。使用占据栅格(Occupancy)作为输入的方法显著优于仅使用相机的方法。特别是 COME 模型,通过引入自车轨迹(Ego trajectory)作为辅助监督,有效缓解了长时程预测的性能衰减,取得了最高的平均 mIoU。

image

控制任务领域:在 DMC 基准上,Dreamer 系列展示了极高的样本效率。而在复杂的 RLBench 机械臂操作任务中,VidMan 结合视频扩散模型与逆动力学模型(IDM),取得了较高的平均成功率,验证了生成式预训练对下游控制的有效性。

image

8. 挑战与未来研究方向

具身世界模型未来的研究方向和趋势主要围绕解决当前面临的数据与评估、计算效率、以及核心建模策略三大挑战展开。

数据与评估

挑战:具身智能领域的核心障碍在于缺乏统一的大规模跨域数据集,这导致现有数据分散且具有领域特异性,从而严重限制了模型的泛化能力。此外,现有的评估指标(如 FID/FVD)多聚焦于像素级保真度,却往往忽视了对物理一致性和因果关系的关键衡量。

未来研究方向:未来的研究应优先构建统一的多模态、跨域数据集,以支持可迁移的预训练范式。同时,必须改进评估框架,转向全面评估模型的物理一致性、因果推理能力和长时域动态,以超越传统感知指标的局限。

计算效率

挑战:虽然 Transformer 和扩散网络等现代架构性能强大,但其高昂的推理成本与机器人实时控制所需的低延迟需求之间存在尖锐冲突。相比之下,传统方法虽然计算高效,但在捕捉长期依赖性方面又存在固有局限。

未来研究方向:应致力于通过量化、剪枝和稀疏计算等技术来优化模型架构,以降低推理延迟并提升实时效率。同时,探索状态空间模型(SSM,如 Mamba)等新型时间建模方法,有望在保持实时效率的前提下,增强模型的长程推理能力。

建模策略

挑战:世界模型在处理长时域时间动态和实现高效的空间表示方面仍然面临困难。核心难题在于自回归设计(易累积误差)与全局预测方法(计算开销大)之间的权衡,即效率与表达力的矛盾。

未来研究方向:未来的架构应探索结合自回归和全局预测优势的混合模型。可通过引入显式记忆或基于 Chain-of-Thought (CoT) 的任务分解来提高时间一致性,从而优化长距离推理的稳定性。最终目标是实现时间和空间建模的统一集成,在效率、保真度和交互性之间找到最佳的平衡点。


具身智能世界模型综述:架构、演进与挑战
https://github.com/DukeZhu513/dukezhu513.github.io.git/post/overview-of-embodied-intelligent-world-models-architecture-evolution-and-challenges-z1f5ddi.html
作者
Duke Zhu
发布于
2025年11月27日
许可协议