投中网
搜索
登录 | 注册
投中网  >  业界动态  >  正文

通用世界模型-连接数字世界与物理世界的桥梁

投中网   |   投中网
2026-04-01 11:08:05

可扩展的架构、大规模数据以及充足算力。

大家好,非常荣幸再次来到中关村论坛。过去两年,我们在论坛上分享了视频大模型Vidu系列的进展。今天在“AI未来论坛”,我想进一步汇报我们在视频大模型方向上的一些前瞻性布局。本次分享的主题是:通用世界模型——连接数字世界与物理世界的桥梁。

我们先从人的智能行为说起。人在做决策和行动时,大脑中其实存在一个“世界模型”,用于进行环境感知、未来预测以及动作决策。比如骑自行车或执行复杂动作时,大脑会不断进行预测与调整,这是一种天然具备的能力。

在人工智能领域,我们也在思考:机器如何构建自己的“世界模型”?如何实现对环境的感知、对未来的预测,以及对动作的学习?这一问题在学术界已有广泛讨论。比较经典的是2018年DavidHa与JürgenSchmidhuber提出的框架,将世界模型拆解为三个核心能力:感知、预测和行动。

但从我们的观察来看,当前很多研究仍是不完整的。例如,一些交互式视频生成方法,本质上仍局限于数字空间的重建,主要用于人与系统的单向交互,并不具备在真实环境中学习和执行动作的能力。因此,有必要对“世界模型”的定义进行进一步澄清。

那么,通用世界模型应该如何构建?我们回到大模型的第一性原理:可扩展的架构、大规模数据以及充足算力。

首先在架构层面,人类只有一套统一的系统,却可以完成感知、认知、决策、规划和行动等多种能力。因此,我们认为世界模型也应当采用统一架构。而当前主流方法往往是模块化、碎片化的:有的专注动作轨迹拟合,有的偏向预测,有的直接学习控制策略。

其次是数据问题。具身智能长期面临“数据墙”:高质量轨迹数据获取成本高、效率低。实际上,可用数据可以构建为一个多层体系:底层是海量互联网视频数据,中间是第一视角数据,再加上与具体机器人无关的多主体轨迹数据。但这些数据往往缺乏标注,难以通过传统方法有效利用。

基于此,我们近期的一个重要进展是:提出统一的世界模型框架,将跨模态生成与行动任务在理论上进行统一。这种统一不是工程拼接,而是结构层面的统一。

在此基础上,我们利用大规模未标注视频数据进行训练,构建了一个可扩展的通用基座模型,并初步验证了其在多任务场景中的能力。例如:

验证码操作任务:通过机械臂模拟人类操作鼠标,实现屏幕识别与精准点击      棋类决策任务:涉及长程规划与多步推理,需要感知、预测与决策协同         柔性物体操作:面对复杂、不规则物体,实现稳定抓取在实验中,我们观察到两个关键现象:

一是数据scaling效应显著提升,相比传统VLA路线,数据利用效率有量级提升;

二是多任务泛化能力增强。在统一模型下,我们可以在50多个任务上实现高效泛化,且性能不降反升。

相比之下,传统VLA模型(如PI0.5)在任务数量增加时性能会明显下降,这也说明统一架构带来了新的发展路径。

结合我们在视频大模型上的长期积累,可以看到一个更清晰的技术路线:

在底层,我们提出DiffusionTransformer(U-ViT)作为统一基座架构      在像素空间解码,对应的是Vidu视频生成模型,服务数字内容创作        在动作空间解码,则服务于物理世界中的具身交互

这意味着,同一个基座模型,可以同时支撑数字世界的生成能力与物理世界的行动能力。

从更宏观的角度来看,无论是数字世界还是物理世界,最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”,而世界模型则是其核心“智能中枢”。

在统一架构、数据体系与算力支撑的共同推动下,我们判断:通用世界模型将在今年迎来快速突破。也期待在未来有更多阶段性成果与大家分享。

谢谢大家。


网站编辑: 郭靖

0

第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信公众账号中搜索投中网,或用手机扫描左侧二维码,即可获得投中网每日精华内容推送。

发表评论

 / 200

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——
联系我们 欢迎投稿
  • 投中网
  • CVS投中数据
  1. 创新经济的
    智识、洞见和未来

  2. 投资人都在用的
    数据专家

返回顶部