在具身智能领域,机器人能否像人类一样"预演"自身行动的后果,一直是技术发展的关键瓶颈。近日,中科第五纪联合中科院自动化所团队成功研发出BridgeV2W,通过创新的"具身掩码"技术,打通了视频生成模型与机器人世界模型之间的壁垒,让机器人真正具备了"预演未来"的能力,为具身智能的发展开辟了全新路径。

核心创新:具身掩码解决"语言不通"难题

传统机器人与视频生成模型之间存在"语言不通"的鸿沟:机器人使用关节角度与位姿坐标描述动作,而视频生成模型只"看"像素。BridgeV2W的创新之处在于提出具身掩码(Embodiment Mask)——利用机器人的URDF模型和相机参数,将动作序列实时渲染为每帧图像上的二值"动作剪影",精准标出机器人在画面中的位置与姿态。

这一设计实现了三大突破

  • 动作-像素对齐:掩码是天然的像素级信号,与视频模型输入空间完全匹配

  • 视角自适应:掩码随相机视角动态生成,模型天然泛化到任意新视角

  • 跨具身通用:仅需提供URDF,单臂、双臂机器人皆可使用同一套框架

技术实现:轻量几何信息,海量无标注视频

BridgeV2W采用ControlNet式的旁路注入,将具身掩码作为条件信号融入预训练视频生成模型,保留其强大视觉先验的同时,赋予其理解机器人动作的能力。更令人惊喜的是,训练阶段无需几何标定——只需分割模型(如SAM)提取的"分割掩码",即可提供有效监督。

团队将AgiBot-G1机器人数据与无标定的Ego4D FHO人类视频混合训练,仅用SAM提取的手部掩码,就实现了惊人效果:模型仍能学到合理的运动规律,加入大量人类视频+少量机器人数据,性能几乎媲美全量标定训练。

实验验证:多场景、多机器人、多视角全面测试

在DROID数据集(大规模单臂操作)上,BridgeV2W在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法,尤其在"未见视角"测试中,画面依然保持物理合理、视觉连贯,而对比方法常出现画面崩塌、肢体错位。

在AgiBot-G1数据集(双臂人形机器人)上,无需修改模型架构,仅替换URDF并重新渲染掩码,BridgeV2W就能无缝适配,取得媲美单臂的预测质量,这是迈向通用具身世界模型的重要一步。

实用价值:从"想象"到"行动"的闭环

BridgeV2W不仅能够生成高质量的未来视频,还进一步验证了其在真实世界中的实用价值:

  • 策略评估:在世界模型中"试跑"不同策略,无需真实机器人反复试错

  • 目标图像操作规划:给定目标图像(如"把杯子放到盘子上"),能在"想象空间"中搜索可行动作序列

未来展望:数据飞轮真正启动

BridgeV2W揭示了一条极具前景的技术路线:视频生成模型 + 具身掩码 = 可扩展的机器人世界模型

这一路线具有三大优势:

  1. 数据飞轮真正启动:互联网视频规模远超机器人数据数个数量级,BridgeV2W无需几何先验即可利用人类视频

  2. 技术红利自动继承:视频生成领域高速迭代(Sora、Wan等),BridgeV2W架构使其能自然受益于底座模型升级

  3. 通用智能的坚实基石:从单臂到双臂,从已知场景到未知视角,BridgeV2W展现出的跨平台、跨场景、跨视角泛化能力,是迈向通用具身智能的重要里程碑

一句话总结:BridgeV2W通过"具身掩码"这一简洁而优雅的中间表征,成功架起了从大规模视频生成模型到实用具身世界模型的桥梁。它不仅解决了动作-像素对齐、视角鲁棒性、跨具身通用性三大核心挑战,更关键的是:训练无需几何标定,可直接利用海量无标注人类视频,为世界模型的规模化训练开辟了全新路径。

随着视频生成底座从十亿参数迈向千亿,训练数据从数千小时扩展到百万小时,具身掩码从机械臂延伸至全身人形,机器人的"预演能力"将迎来前所未有的飞跃,为具身智能的商业化落地铺平道路。