浅谈具身世界动作模型 — Embodied World Action Model

VLA/WM/WAM都有什么区别?在Robotics里面他们有都有什么特点?简单分享我现在的认知

目录

25年到26年,在Robotics或者说具身智能领域,新的大模型如雨后春笋般冒了出来,不过大部分都是基于VLA或者世界模型的思路来的。

工业界也开始积极布局这一方向。吉利在CES 2026上发布了WAM世界行为模型1,华为的ADS 4.0则采用了WEWA架构(World Engine + World Action Model)2。学术界也有DreamZero3等工作探索世界模型与动作的统一建模。

最近也有很多人问到这些概念的区别,我就来讲讲他们的来世今生,以及我认为的终局方案——具身Embodied世界World动作Action模型Model

世界模型 & VLA

定义

世界模型(World Model)这个概念最早可以追溯到基于模型的强化学习(Model-based RL)。在那个时代,世界模型指的是智能体在脑海中构建一个环境模型,能够预测"如果我采取某个动作,环境会变成什么样"。后来随着LeCun提出JEPA架构,以及视频生成领域的兴起,世界模型这个词也被广泛用于描述那些能够预测未来状态的生成模型。

In this context, I define world modeling as predicting the next plausible world state (or a longer duration of states) conditioned on an action.

Jim Fan, The Second Pre-training Paradigm

而VLA则简单直接得多——VLA = VLM + A,即在视觉-语言模型(Vision-Language Model)的基础上,再接一个动作(Action)的编码和解码结构。

核心区别

尽管两者常常被放在一起讨论,但它们的出发点其实很不一样:

1. 数据来源与降维方式

世界模型的出发点是利用无标注数据学习世界的规律。它不需要人类告诉模型"这个动作是什么意思",只需要模型通过观察海量的视频数据,自己去发现"如果我把杯子推倒,里面的水会流出来"这样的因果规律。这是一种"自底向上"的学习方式。

而VLA的出发点是通过人类智慧的结晶——语言,来将世界降维。它利用了我们在VLM上已经积累的强大表征能力,通过语言这个高度抽象的符号系统来理解任务指令,然后再输出动作。这是一种"自顶向下"的传递方式。

2. 理解 vs 生成

在大模型时代,世界模型一般都走的是生成模型路线——T2I(文生图)、T2V(文生视频)、TTS(文本转语音)。它们的本质是"我能创造一个我理解的世界"。

而VLA一般都走的是理解模型路线——I2T(图像转文本描述)、V2T(视频转文本描述)、ASR(语音转文本)。它们的本质是"我能用语言描述我看到的世界"。

最终我们需要的是理解、生成统一的模型。但这两条路线在现阶段还是有着明显的分界。

3. 连续 vs 离散的世界认知

在具身领域,VLA有一个根本性的局限:世界本质上是连续的(请允许我用"连续"这个词,不要用普朗克常数来杠我)。很多物理状态及其变化都无法通过语言精确描述。

举个例子:当你拧螺丝的时候,你需要感知螺丝的阻力、判断拧紧的程度、调整手腕的角度以避开杯柄的阻挡——这些都是连续的、细微的物理量,语言很难精确描述。但世界模型可以通过视频预测直接学习这些物理规律。

世界模型 + Action

世界模型虽然能预测未来,但它本身并不输出动作。要让它能控制机器人,还需要一条从世界模型到策略(Policy)的通路。目前业界主要有四条路线:

  1. MoT(Mixture of Transformers):这条路线需要修改backbone本身,原生支持多条transformer网络,可以看作是MoE(Mixture of Experts)的升级版。它将VLM Expert和Action Expert集成在同一个backbone中,两者有独立的FFN和Q/K/V/O投影矩阵,分别负责语义理解/规划和低层控制执行。代表工作包括小米 Robotics-0(4.7B参数,开源)4、MoTVLA(统一快慢推理架构)5、智源ViLLA/GO-1等6。Being-H0.5采用MoT+MoF架构,在UniHand-2.0数据集(35,000+小时)上实现单一checkpoint在30种机器人具身的跨具身部署7

  2. Action Expert(动作专家):这条路线由Physical Intelligence公司的Pi08工作提出,核心思想是冻住backbone的结构,额外利用其隐特征(hidden features)去构建外部网络来输出动作。这种方式不需要修改backbone本身,而是在预训练模型的基础上"外挂"一个动作解码器,跟MoE没啥关系。这一架构后来被多个后续工作采用。DM0提出Embodied-Native范式,将具身数据视为与语言和视觉数据同等的first-class citizen9

  3. 视频生成 + 逆动力学模型(Inverse Dynamics Model):这条路线的核心思想是:世界模型生成未来的视觉状态,然后通过逆动力学模型反推出"要达到这个未来状态,我需要执行什么动作"。相关的工作包括NVIDIA的Cosmos Policy、Video Policy框架、DreamZero等3。它们大多基于视频扩散模型,能够同时生成未来帧和动作,从而将训练范式从"模仿学习"转向"逆动力学"——即学习如何让预测的未来与动作对齐。DreamZero(14B参数)实现零样本泛化相比SOTA VLA提升2×以上3,Cosmos Policy通过Latent Frame Injection将动作编码为潜在帧直接注入视频扩散序列10,GR系列则在100+任务上达到97.7%平均成功率11

  4. 纯自回归(Pure Autoregressive):这条路线试图将世界模型和动作模型完全统一在一个自回归框架中。代表工作包括阿里巴巴的WorldVLA(首个统一世界模型和VLA的单一框架),它能够完全自回归地生成文本、图像和动作12;还有OpenVLA-OFT,使用并行解码来提高效率;以及Moto,通过Motion Language Tokens连接视频预训练与动作执行13。DriveLaW提出Chained架构,将视频生成器的latent features直接注入planner,从大规模视频生成学到的表示比传统BEV或VLM features具有更好的语义一致性14

我个人可能更看好纯自回归路线,因为它的架构最简洁、最优雅。但这条路线也面临着长序列任务中的误差累积问题,有待未来的探索。

Scaling的两条路径

除了上述技术路线差异,当前世界模型的发展在scaling策略上也呈现两条明显不同的路径:

Internet-Native vs Embodied-Native

维度Internet-Native VLAEmbodied-Native VLA
预训练范式互联网预训练→机器人适应从头开始训练,具身数据作为first-class citizen
代表工作OpenVLA, π0, GR-3DM0, ABot-M0
优势利用大规模语义知识内在物理基础(intrinsic physical grounding)
局限缺乏物理交互的动态、连续、空间特性数据规模可能受限

Language-First vs World-Model-First

维度Language-FirstWorld-Model-First
先验来源语言先验(VLM预训练)视频先验(视频扩散预训练)
学习方式密集状态-动作模仿逆动力学——将运动与预测未来对齐
代表工作π0, OpenVLADreamZero, Cosmos Policy
泛化优势语义/物体层面泛化强新技能/新环境泛化强(2×提升)
DreamZero的发现

“相比VLA,基于视频扩散的World Action Model(WAM)在新任务和新环境上实现2×以上的零样本泛化提升。这表明视频预训练的时空先验对具身智能的价值。”

目前的世界模型还缺什么

尽管世界模型在2025年取得了巨大进展,但距离真正理解物理世界还有很长的路要走。

  1. 对力触觉的理解:目前绝大多数世界模型都是基于视觉的。但在机器人与物理世界的交互中,力觉和触觉是不可或缺的。当你拿起一个鸡蛋时,你需要感知它的重量、表面的光滑度、蛋壳的脆弱性——这些都无法仅从视觉中获得。
传感器模态缺失

在分析的37篇近期世界模型和VLA论文中,没有一篇工作真正融合了力觉或触觉传感器数据:DreamZero、Cosmos Policy、GR系列、DWM、ABot-M0、Being-H0/H0.5等所有工作主要或完全依赖视觉输入。

2025年,帕西尼感知科技发布了第三代多维触觉传感器,力识别精度达到0.01N15。复旦大学研发的"电子皮肤"每平方厘米集成了4万个感知点,灵敏度是人类指尖的10倍16。但这些传感器数据的建模和利用,还远未达到视觉的成熟度。

图像占位

[TODO: 插入一张展示力觉/触觉传感器的图片,如电子皮肤或机械手爪的触觉传感器阵列]

  1. 对震动的捕捉:机器人与环境交互时会产生大量震动信号——机械臂的运动、关节的摩擦、与物体的碰撞。这些震动信号蕴含着丰富的物理信息,但目前的模型还很少利用这一模态。音频模态(Audio)可以作为捕捉震动的一种方式。例如,通过监听电机声音来判断负载情况,通过分析碰撞声音来判断物体材质。但这需要模型具备多模态融合能力。

  2. 多视角统一理解:现有的世界模型大多缺乏显式的空间建模能力。当机器人从不同角度观察同一个物体时,模型很难将这些不同视角的信息统一起来形成一个一致的三维表征。这就是为什么我们经常看到视频生成模型在长视频中会出现"物体消失又出现"或"空间关系不一致"的问题17。部分工作开始探索显式3D建模:DWM使用静态3D场景渲染作为输入以"确保空间一致性"18,ABot-M0通过Plug-and-Play 3D模块注入几何先验19。但真正的世界模型需要具备显式的三维空间表征能力,这是当前视频生成模型的主要短板之一。

未来的世界模型需要什么

基于目前的不足,我认为未来的世界模型需要在以下几个方向取得突破:

  1. 对物理规律的理解:目前的泛化大多基于外表(appearance)。模型看到红色的杯子就知道应该拿红色杯子,但如果换成蓝色的杯子,或者换个角度、换个光照条件,模型可能就不认识了。我们需要的是基于物理规律的泛化。模型应该理解"杯子是易碎的"、“重力会让物体下落”、“摩擦力影响抓取力度"等物理规律,而不是仅仅记住特定物体的外观。这意味着模型需要在训练中接触到大量符合物理规律的数据,并且通过试错(Trial and Error)主动探索环境的边界,将这些经验抽象为物理规律与因果关系的知识图谱20
    部分工作开始尝试从appearance-based转向physics-based:ABot-M0提出"动作流形假设”——有效机器人动作在受物理规律约束的低维平滑流形上,而非全维度空间19

  2. 跨本体同一建模:不同的机器人本体(机械臂、四足机器人、人形机器人)有不同的传感器配置和运动学结构。目前的大多模型都是针对特定本体训练的,难以跨本体迁移。未来的世界模型需要学习到"本体无关"的物理表征——无论你是用机械臂还是用灵巧手,“抓取"这个动作的物理本质是一样的。
    重要进展包括:Being-H0.5提出"人类数据作为物理交互的母语”,通过Unified Action Space单一checkpoint在5个机器人平台部署7;ABot-M0的UniACT数据集整合600万+轨迹、9,500+小时数据、20+种机器人具身19;DreamZero跨本体迁移仅需30分钟play data,相对提升42%3

  3. 显式空间建模:为了实现空间一致性,世界模型需要显式地建模三维空间。这可以通过3D点云、神经辐射场(NeRF)、3D高斯溅射(3DGS)等技术实现。显式空间建模不仅能让模型理解"物体在不同视角下的一致性",还能让模型进行物理仿真——预测"如果我把这个物体推一下,它会怎么滚动、会和什么物体碰撞"。

  4. 强交互传感器融合:最后,也是我认为最重要的一点:未来的世界模型必须融合力觉、触觉等强交互传感器。

当前的传感器鸿沟

分析37篇论文发现,所有工作都存在传感器模态缺失

  • 力觉/触觉:无工作真正融合
  • 震动/音频:仅HY-World提及实时交互,未涉及震动模态
  • 物理规律显式建模:ABot-M0、DM0尝试通过数据学习物理先验,但非显式建模

唯一的积极信号:华为的WA已包含触觉感知,这是一个好的开始。

只有当模型能够"感觉"到物理世界——感受到力的反馈、震动的传递、表面的纹理——它才能真正理解物理规律,才能在复杂环境中执行精细操作任务。这就是我所说的"具身"世界动作模型的核心内涵。

结语:迈向"具身"世界动作模型

世界模型不是走向具身AGI的万金油,但它是让人工智能理解物理世界的重要手段。在此基础上,我们仍然需要长程的、verbal的、模态交织的长思考来满足复杂任务的拆解。

我判断会有另一套范式(可能从VLM延伸出去)来解决这个问题——让我们称之为Reasoning Model(推理模型,与世界模型相对)。

双系统协同:快思考与慢思考

这与大模型理解-生成的两条路线有相关性:

  • 理解类模型更强调语言推理、长程任务拆解,在具身里更适合做任务编排大脑、奖励模型——适合作为Reasoning Model的架构
  • 生成类模型更强调保真和多模态、以及条件生成等,模型推理时间可控——适合作为World Model的架构

不同于陈龙博士认为"Language是目前最高效的载体"21,也不同于业界大量工作认为robotics应转向世界模型范式,我认为长期来看两者仍然是共存的。

当前的初步探索已经出现:Cosmos Policy展示了一个模型可以同时扮演策略、世界模型、价值函数三个角色10;DriveLaW的Chained架构则展示了视频生成器和planner的串行协作14

它们会按照人类的快慢系统神经架构进行合作:

  • World Model构建本能快思考(System I):高频运行,密集地理解物理世界,直接输出反应式动作
  • Reasoning Model构建大脑慢思考(System II):以较低频率稀疏地理解物理世界,但密集地进行长程思考、任务拆解和反思监督

绝大部分时候都是本能系统(World Model)直接发挥作用——就像人类走路时不需要思考"先迈左脚还是右脚"。而大脑(Reasoning Model)则负责任务拆解、异常情况处理和动作监督反思——就像人类遇到复杂路况时会停下来思考该怎么走。

图像占位

[TODO: 插入一张具身世界动作模型概念图,展示World Model(快思考)和Reasoning Model(慢思考)的协同架构,以及力觉/触觉传感器、物理规律理解等核心要素]

回到标题,我认为现有的WAM架构都还没有抓住"具身"的真正内涵。我认为我们应该追寻的"具身"世界动作模型,核心在于三点:

  1. 强交互传感器建模:必须包含力觉、触觉等模态,而不仅仅是视觉。华为的WA已经包含了触觉感知2,这是一个好的开始。

  2. 底层物理规律理解:基于物理规律实现泛化,而非基于外表(appearance)。这意味着模型需要通过试错主动探索环境边界,将经验抽象为物理规律与因果关系20

  3. 显式空间建模:实现空间一致性和跨视角统一理解,这是当前视频生成模型的主要短板之一17

只有做到这三点,我们才能说真正拥有了"具身"的世界动作模型——一个不仅能够"看见"世界,更能够"感觉"世界、“理解"世界,并在物理世界中灵活行动的AI系统。

这条路还很长,但2025-2026年的技术进展让我相信,我们正走在正确的方向上。


参考资料


  1. 吉利汽车集团. WAM世界行为模型发布. CES 2026 ↩︎

  2. 华为乾崑智驾. WEWA架构技术解析. ADS 4.0 ↩︎ ↩︎

  3. DreamZero: 基于视频扩散的世界动作模型. 2026 ↩︎ ↩︎ ↩︎ ↩︎

  4. 小米机器人. Xiaomi Robotics-0: 开源VLA大模型. GitHub: https://github.com/XiaomiRobotics/Xiaomi-Robotics-0. 2026 ↩︎

  5. MoTVLA: Mixture-of-Transformers based Vision-Language-Action Model. arXiv:2510.18337. 2025 ↩︎

  6. 智源机器人. ViLLA/GO-1: Universal Embodied Model with Action Expert. 2025 ↩︎

  7. Hao Luo et al. Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization. BeingBeyond. arXiv:2601.12993. 2026. https://research.beingbeyond.com/being-h05 ↩︎ ↩︎

  8. Physical Intelligence. Pi0: A Foundation Model for Embodied Decision Making. 2025 ↩︎

  9. DM0 Team. DM0: An Embodied-Native VLA towards Physical AI. Dexmal & StepFun. 2025. https://github.com/Dexmal/dexbotic ↩︎

  10. Moo Jin Kim et al. Cosmos Policy: Fine-tuning Video Models for Visuomotor Control and Planning. NVIDIA, Stanford. 2026. https://research.nvidia.com/labs/dir/cosmos-policy/ ↩︎ ↩︎

  11. Hongtao Wu et al. GR Series: Video Generative Pre-training for Robot Manipulation. ByteDance Research. 2023-2025. https://seed.bytedance.com/GR3 ↩︎

  12. 阿里巴巴达摩院. WorldVLA: Towards Autoregressive Action World Model. arXiv:2506.21539. 2025 ↩︎

  13. Moto: Motion Language Tokens for Video-to-Action. 2025 ↩︎

  14. Tianze Xia et al. DriveLaW: Unifying Planning and Video Generation in a Latent Driving World. Huazhong University of Science and Technology, Xiaomi EV. arXiv:2512.23421. 2025 ↩︎ ↩︎

  15. 帕西尼感知科技. 第三代多维触觉传感器发布. 2025 ↩︎

  16. 复旦大学. 自适应视触觉AI传感器(电子皮肤). 2025 ↩︎

  17. 首个实时世界模型发布. 腾讯新闻. 2026 ↩︎ ↩︎

  18. Junyoung Lee et al. Dexterous World Models: Egocentric Simulation from Dexterous World Models. Seoul National University. arXiv:2512.17907. 2025. https://snuvclab.github.io/dwm/ ↩︎

  19. AMAP CV Lab, Alibaba Group. ABot-M0: VLA Foundation Model with Action Manifold Learning. arXiv:2602.11236. 2026. https://github.com/amap-cvlab/ABot-Manipulation ↩︎ ↩︎ ↩︎

  20. 具身智能如何进化?关键在于如何"试错”. 科学网. 2025 ↩︎ ↩︎

  21. 陈龙. 具身智能漫长的进化史、下一个Scaling与硝烟. 微信公众号. 2025 ↩︎

使用 Hugo 构建
主题 StackedJimmy 设计,Jacob 修改