大家好,非常荣幸再次来到中关村论坛。过去两年,我们在论坛上分享了视频大模型Vidu系列的进展。今天在“AI未来论坛”,我想进一步汇报我们在视频大模型方向上的一些前瞻性布局。本次分享的主题是:通用世界模型——连接数字世界与物理世界的桥梁。
我们先从人的智能行为说起。人在做决策和行动时,大脑中其实存在一个“世界模型”,用于进行环境感知、未来预测以及动作决策。比如骑自行车或执行复杂动作时,大脑会不断进行预测与调整,这是一种天然具备的能力。
在人工智能领域,我们也在思考:机器如何构建自己的“世界模型”?如何实现对环境的感知、对未来的预测,以及对动作的学习?这一问题在学术界已有广泛讨论。比较经典的是2018年DavidHa与JürgenSchmidhuber提出的框架,将世界模型拆解为三个核心能力:感知、预测和行动。
但从我们的观察来看,当前很多研究仍是不完整的。例如,一些交互式视频生成方法,本质上仍局限于数字空间的重建,主要用于人与系统的单向交互,并不具备在真实环境中学习和执行动作的能力。因此,有必要对“世界模型”的定义进行进一步澄清。
那么,通用世界模型应该如何构建?我们回到大模型的第一性原理:可扩展的架构、大规模数据以及充足算力。
首先在架构层面,人类只有一套统一的系统,却可以完成感知、认知、决策、规划和行动等多种能力。因此,我们认为世界模型也应当采用统一架构。而当前主流方法往往是模块化、碎片化的:有的专注动作轨迹拟合,有的偏向预测,有的直接学习控制策略。
其次是数据问题。具身智能长期面临“数据墙”:高质量轨迹数据获取成本高、效率低。实际上,可用数据可以构建为一个多层体系:底层是海量互联网视频数据,中间是第一视角数据,再加上与具体机器人无关的多主体轨迹数据。但这些数据往往缺乏标注,难以通过传统方法有效利用。
基于此,我们近期的一个重要进展是:提出统一的世界模型框架,将跨模态生成与行动任务在理论上进行统一。这种统一不是工程拼接,而是结构层面的统一。
在此基础上,我们利用大规模未标注视频数据进行训练,构建了一个可扩展的通用基座模型,并初步验证了其在多任务场景中的能力。例如:
验证码操作任务:通过机械臂模拟人类操作鼠标,实现屏幕识别与精准点击 棋类决策任务:涉及长程规划与多步推理,需要感知、预测与决策协同 柔性物体操作:面对复杂、不规则物体,实现稳定抓取在实验中,我们观察到两个关键现象:
一是数据scaling效应显著提升,相比传统VLA路线,数据利用效率有量级提升;
二是多任务泛化能力增强。在统一模型下,我们可以在50多个任务上实现高效泛化,且性能不降反升。
相比之下,传统VLA模型(如PI0.5)在任务数量增加时性能会明显下降,这也说明统一架构带来了新的发展路径。
结合我们在视频大模型上的长期积累,可以看到一个更清晰的技术路线:
在底层,我们提出DiffusionTransformer(U-ViT)作为统一基座架构 在像素空间解码,对应的是Vidu视频生成模型,服务数字内容创作 在动作空间解码,则服务于物理世界中的具身交互
这意味着,同一个基座模型,可以同时支撑数字世界的生成能力与物理世界的行动能力。
从更宏观的角度来看,无论是数字世界还是物理世界,最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”,而世界模型则是其核心“智能中枢”。
在统一架构、数据体系与算力支撑的共同推动下,我们判断:通用世界模型将在今年迎来快速突破。也期待在未来有更多阶段性成果与大家分享。
谢谢大家。
通用世界模型-连接数字世界与物理世界的桥梁
可扩展的架构、大规模数据以及充足算力。
大家好,非常荣幸再次来到中关村论坛。过去两年,我们在论坛上分享了视频大模型Vidu系列的进展。今天在“AI未来论坛”,我想进一步汇报我们在视频大模型方向上的一些前瞻性布局。本次分享的主题是:通用世界模型——连接数字世界与物理世界的桥梁。
我们先从人的智能行为说起。人在做决策和行动时,大脑中其实存在一个“世界模型”,用于进行环境感知、未来预测以及动作决策。比如骑自行车或执行复杂动作时,大脑会不断进行预测与调整,这是一种天然具备的能力。
在人工智能领域,我们也在思考:机器如何构建自己的“世界模型”?如何实现对环境的感知、对未来的预测,以及对动作的学习?这一问题在学术界已有广泛讨论。比较经典的是2018年DavidHa与JürgenSchmidhuber提出的框架,将世界模型拆解为三个核心能力:感知、预测和行动。
但从我们的观察来看,当前很多研究仍是不完整的。例如,一些交互式视频生成方法,本质上仍局限于数字空间的重建,主要用于人与系统的单向交互,并不具备在真实环境中学习和执行动作的能力。因此,有必要对“世界模型”的定义进行进一步澄清。
那么,通用世界模型应该如何构建?我们回到大模型的第一性原理:可扩展的架构、大规模数据以及充足算力。
首先在架构层面,人类只有一套统一的系统,却可以完成感知、认知、决策、规划和行动等多种能力。因此,我们认为世界模型也应当采用统一架构。而当前主流方法往往是模块化、碎片化的:有的专注动作轨迹拟合,有的偏向预测,有的直接学习控制策略。
其次是数据问题。具身智能长期面临“数据墙”:高质量轨迹数据获取成本高、效率低。实际上,可用数据可以构建为一个多层体系:底层是海量互联网视频数据,中间是第一视角数据,再加上与具体机器人无关的多主体轨迹数据。但这些数据往往缺乏标注,难以通过传统方法有效利用。
基于此,我们近期的一个重要进展是:提出统一的世界模型框架,将跨模态生成与行动任务在理论上进行统一。这种统一不是工程拼接,而是结构层面的统一。
在此基础上,我们利用大规模未标注视频数据进行训练,构建了一个可扩展的通用基座模型,并初步验证了其在多任务场景中的能力。例如:
验证码操作任务:通过机械臂模拟人类操作鼠标,实现屏幕识别与精准点击 棋类决策任务:涉及长程规划与多步推理,需要感知、预测与决策协同 柔性物体操作:面对复杂、不规则物体,实现稳定抓取在实验中,我们观察到两个关键现象:
一是数据scaling效应显著提升,相比传统VLA路线,数据利用效率有量级提升;
二是多任务泛化能力增强。在统一模型下,我们可以在50多个任务上实现高效泛化,且性能不降反升。
相比之下,传统VLA模型(如PI0.5)在任务数量增加时性能会明显下降,这也说明统一架构带来了新的发展路径。
结合我们在视频大模型上的长期积累,可以看到一个更清晰的技术路线:
在底层,我们提出DiffusionTransformer(U-ViT)作为统一基座架构 在像素空间解码,对应的是Vidu视频生成模型,服务数字内容创作 在动作空间解码,则服务于物理世界中的具身交互
这意味着,同一个基座模型,可以同时支撑数字世界的生成能力与物理世界的行动能力。
从更宏观的角度来看,无论是数字世界还是物理世界,最终都将由不同形态的智能体构成。物理世界中的智能体具备“身体”,而世界模型则是其核心“智能中枢”。
在统一架构、数据体系与算力支撑的共同推动下,我们判断:通用世界模型将在今年迎来快速突破。也期待在未来有更多阶段性成果与大家分享。
谢谢大家。
0
第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信公众账号中搜索投中网,或用手机扫描左侧二维码,即可获得投中网每日精华内容推送。
发表评论
全部评论