通用世界模型-连接数字世界与物理世界的桥梁

投中网 | 投中网

2026-04-01 11:08:05

可扩展的架构、大规模数据以及充足算力。

大家好，非常荣幸再次来到中关村论坛。过去两年，我们在论坛上分享了视频大模型Vidu系列的进展。今天在“AI未来论坛”，我想进一步汇报我们在视频大模型方向上的一些前瞻性布局。本次分享的主题是：通用世界模型——连接数字世界与物理世界的桥梁。

我们先从人的智能行为说起。人在做决策和行动时，大脑中其实存在一个“世界模型”，用于进行环境感知、未来预测以及动作决策。比如骑自行车或执行复杂动作时，大脑会不断进行预测与调整，这是一种天然具备的能力。

在人工智能领域，我们也在思考：机器如何构建自己的“世界模型”？如何实现对环境的感知、对未来的预测，以及对动作的学习？这一问题在学术界已有广泛讨论。比较经典的是2018年DavidHa与JürgenSchmidhuber提出的框架，将世界模型拆解为三个核心能力：感知、预测和行动。

但从我们的观察来看，当前很多研究仍是不完整的。例如，一些交互式视频生成方法，本质上仍局限于数字空间的重建，主要用于人与系统的单向交互，并不具备在真实环境中学习和执行动作的能力。因此，有必要对“世界模型”的定义进行进一步澄清。

那么，通用世界模型应该如何构建？我们回到大模型的第一性原理：可扩展的架构、大规模数据以及充足算力。

首先在架构层面，人类只有一套统一的系统，却可以完成感知、认知、决策、规划和行动等多种能力。因此，我们认为世界模型也应当采用统一架构。而当前主流方法往往是模块化、碎片化的：有的专注动作轨迹拟合，有的偏向预测，有的直接学习控制策略。

其次是数据问题。具身智能长期面临“数据墙”：高质量轨迹数据获取成本高、效率低。实际上，可用数据可以构建为一个多层体系：底层是海量互联网视频数据，中间是第一视角数据，再加上与具体机器人无关的多主体轨迹数据。但这些数据往往缺乏标注，难以通过传统方法有效利用。

基于此，我们近期的一个重要进展是：提出统一的世界模型框架，将跨模态生成与行动任务在理论上进行统一。这种统一不是工程拼接，而是结构层面的统一。

在此基础上，我们利用大规模未标注视频数据进行训练，构建了一个可扩展的通用基座模型，并初步验证了其在多任务场景中的能力。例如：

验证码操作任务：通过机械臂模拟人类操作鼠标，实现屏幕识别与精准点击 棋类决策任务：涉及长程规划与多步推理，需要感知、预测与决策协同 柔性物体操作：面对复杂、不规则物体，实现稳定抓取在实验中，我们观察到两个关键现象：

一是数据scaling效应显著提升，相比传统VLA路线，数据利用效率有量级提升；

二是多任务泛化能力增强。在统一模型下，我们可以在50多个任务上实现高效泛化，且性能不降反升。

相比之下，传统VLA模型（如PI0.5）在任务数量增加时性能会明显下降，这也说明统一架构带来了新的发展路径。

结合我们在视频大模型上的长期积累，可以看到一个更清晰的技术路线：

在底层，我们提出DiffusionTransformer（U-ViT）作为统一基座架构 在像素空间解码，对应的是Vidu视频生成模型，服务数字内容创作 在动作空间解码，则服务于物理世界中的具身交互

这意味着，同一个基座模型，可以同时支撑数字世界的生成能力与物理世界的行动能力。

从更宏观的角度来看，无论是数字世界还是物理世界，最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”，而世界模型则是其核心“智能中枢”。

在统一架构、数据体系与算力支撑的共同推动下，我们判断：通用世界模型将在今年迎来快速突破。也期待在未来有更多阶段性成果与大家分享。

谢谢大家。

网站编辑：郭靖

第一时间获取股权投资行业新鲜资讯和深度商业分析，请在微信公众账号中搜索投中网，或用手机扫描左侧二维码，即可获得投中网每日精华内容推送。

/ 200

—— 没有更多评论了 ——

返回顶部