投中网
搜索
登录 | 注册
投中网  >  商业深度  >  正文

英伟达和中关村,正投向同一赛道

投中嘉川   |   宋梓翔
2026-02-24 15:29:37

中美正在同时下注的“世界模型”或许是AI进入现实世界的关键一步。

过去十年,人工智能能力的跃迁主要发生在感知和语言层面。大模型学会了识别图像、理解文本,并在语言生成任务上表现出接近甚至超越人类的能力。

然而,当我们想让人工智能走出屏幕、进入物理世界时,上述能力仍然不足以支撑一个智能体在现实环境中稳定运行。

机器人在抓取物体、自动驾驶系统在复杂路况下做出判断,往往比语言对话要困难得多。其根本原因在于,物理世界并不是一个由离散符号组成的系统,而是一个连续演化、受因果关系约束的动态环境。

在这样的背景下,“世界模型(World Models)”正在成为人工智能研究和产业界关注的核心概念。

最近几个月里,海内外涌现出了众多世界模型产品和初创企业。

华人科学家李飞飞创立的 World Labs 已经完成10亿美元融资,估值约为50 亿美元。

美国AI独角兽Runway宣布拿下英伟达、AMD、Adobe等3.15亿美元E轮融资,估值已经来到了53亿美元。

“卷积神经网络之父”Yann LeCun离开了Meta创立世界模型公司AMI Labs,并以30亿欧元的目标估值寻求融资……

国内涉足世界模型的公司也开始浮出水面。

生数科技、极映科技等一批国内公司获得投资。华为哈勃、中关村科学城等都是背后的支持者。

如果说,过去两年一级市场追逐的是“大模型”,那么从2025年开始,越来越多的投资人开始意识到:真正决定AI能否进入物理世界的,不是语言模型,而是世界模型。

从视频生成,到物理理解,再到动作预测与具身智能,一条逐步清晰的技术演进路径正在浮现。不论是顶级市场化机构,还是地方国资,也正在沿着这条路径快速布局。

01.英伟达和中关村同时押注世界模型

“世界模型是我们这个时代最具变革性的技术”。在完成3.15亿美元融资后,Runway在官网的融资稿中如是写道。

这家成立于2018年的公司,最初并不做视频,更不谈世界模型。它用机器学习做的是“实时图像风格转换”,服务的是艺术家和设计师。

这个创业想法,和三位创始人的艺术背景密不可分——Cristóbal Valenzuela、Alejandro Matamala、Anastasis Germanidis都毕业于纽约大学艺术学院交互设计专业。

但在 ChatGPT 横空出世之后,Runway意识到,视频不该只是“创作工具”,而是理解世界的入口。

2023年,Runway率先推出 Gen-1、Gen-2,成为最早大规模商业化“文生视频”的公司。2025年4月发布的 Gen-4,首次把物理规律引入模型,让AI开始理解材质、重力与运动。到2025年底,他们发布了第一个真正意义上的世界模型 GWM-1。

在这个过程中,英伟达始终站在Runway背后,连续三轮加注。这次3.15亿美元融资,Runway明确表示:资金将用于基于 NVIDIA Rubin 加速下一代视频与世界模型训练。

当然Runway这次3.15亿美元的E轮融资,不只有英伟达。还包括通用大西洋公司、AllianceBernstein(联博)、AMD Ventures、Fidelity Management & Research Company(富达)、Mirae Asset(韩国未来资产资本)、Emphatic Capital、Felicis(前谷歌高管Aydin Senkut创立)和Premji Invest(印度最大的家族办公室)。涵盖了顶级芯片算力公司、全球最大资管公司、韩国和印度等地投资人。

Runway并不是孤例。过去半年,在一级市场的AI投资赛道,世界模型正在从学术概念,变成融资主线。

先看国外。

在Runway宣布完成融资后不久,李飞飞创办World Labs也在春节期间完成了新一轮10亿美元融资,估值为50亿美元。投资方有英伟达、AMD等。

此前,李飞飞的学生 Fan-Yun Sun 创办的世界模型公司Moonlake,也在种子轮获得2800万美元投资,投资方包括NVIDIA、Google 首席科学家Jeff Dean、YouTube 联合创始人Steve Chen。

国内同样如此。2026年开年,世界模型公司密集获得融资。

生数科技在2月6号,宣布开源统一世界模型Motus,而在前一天他们刚刚宣布完成了中关村科学城和星连资本领投的6亿元A+融资。

另一家涉足世界模型的公司,极映科技则宣布完成了数千万元的种子轮及天使轮融资。其中天使轮由元禾璞华领投,未来光锥跟投。而在今年1月,华为哈勃则连续出手极佳视界、流形空间两家世界模型初创企业。

就以生数科技为例,这是一家专注多模态与视频世界模型的AI公司,项目由清华学生毕弘喆、谭恒楷创办,与清华大学TSAIL实验室(朱军课题组)深度协作,持续推进视频大模型向具身智能与世界模型演进。

2025年他们率先发布具身视频模型 Vidar,2026年初进一步开源“大一统世界模型”Motus。在 RoboTwin 2.0 等50项任务中,成功率相对 Pi-0.5 提升最高约40%,数据效率提升约13.5倍,验证了具身领域的 Scaling Law。

从Runway,到World Labs,到中国的生数科技,可以看到一条非常清晰的路径:

部分初创公司正在从最开始的图文和视频模型进化为世界模型。一级市场的投资逻辑,也沿着这条技术路径快速前移。那么到底什么是世界模型?

02.世界模型让AI像人类一样认识世界

Yann LeCun在其2022年发表的《A Path Towards Autonomous Machine Intelligence》论文中对世界模型做出而来界定:

世界模型应能够做到可以预测物理世界发生的自然演变。简单来说,它一个能够理解物理世界运行规律、空间特征和因果关系的模型。

如果我们把它与人类的认知模式相对比,或许更能清晰地理解这一点。

人类是如何感知现实世界的?

我们在日常生活中完成的动作,不需要通过计算惯性、摩擦力等因素完成,而是通过在成长过程中所积累的观察(视觉)、实践(触觉)或指令(听觉)而习得的。

这些积累帮助我们构建了大脑中的心智模型(Mental Model),一种在大脑中对外部现实的模拟。我们通过调用心智模型在外部世界做出动作、获得结果,结果的反馈又反过来增强心智模型的认知水平。

而世界模型,就是人工智能的心智模型。

它的核心目标是让AI能够像人类一样,在内部构建一个可以学习和理解外部环境的“模拟器”。通过这种方式,AI可以在“脑海”中想象和预测不同行为可能导致的后果,并选择最优的策略来实现其目标。

对物理世界的理解,是人工智能真正进入人类现实环境、迈向通用智能的重要前提。

因为物理世界本身是一个环境连续演化、受因果关系约束的系统,行动会直接改变未来的状态分布。而语言模型仅仅模拟的是语言的表象,而非世界运作的内在机理。所以,人工智能若想在真实世界中稳定运行,必须具备语言预测以外的能力。

在世界模型的加持下,AI智体可以通过观察物理世界的环境后,将感知到的信息映射到内部世界模型中,通过模拟而非真实执行的方式进行多步推演和策略评估,在不实际采取物理动作的情况下完成学习。

因此,世界模型可以大大提高智体的学习效率、减少对真实世界数据的依赖并降低学习的成本。

03.世界模型的三个阶段

让人工智能进入人类现实环境、迈向通用智能,这正是资本押注世界模型的根本原因。

不过现在这条道路不是一蹴而就的。

从应用角度看,世界模型的落地与演进将随着模型能力从“空间一致性”逐步提升至“物理因果一致性”的过程中不断前移。

第一阶段,世界模型是面向人类的交互式三维世界与空间内容生成工具,主要应用于游戏、影视制作、虚拟现实、建筑设计等场景。

这一阶段的应用并不要求模型具备严格的物理准确性或可控的因果推演能力,而是强调生成的世界在视觉和空间结构上保持逼真、自洽,即可显著降低内容创作成本、提升生产效率。正因如此,这一方向在当前阶段最容易产品化,也最先形成可见的商业落地。

由李飞飞创建的World Labs是这一阶段下最具代表性的公司之一,其提出的空间智能(Spatial Intelligence)明确将重点放在可持久保持一致、可实时编辑、可探索的三维世界构建上,强调世界作为整体空间结构而非图像或视频片段的生成能力。

2025年11月,World Labs正式推出了其首个3D世界生成产品,Marble。用户可以通过文字、图像、3D草图等模态作为输入,生成一个可以漫游、可持续延长和扩展的三维场景。在产品介绍中,World Labs也明确表示目前Marble的使用场景还仅限于创建世界,与生成世界的交互是未来关键方向。

世界模型的第二阶段应用,则是为物理智能体研发与训练,生成可交互的模拟环境和数据。

在这一阶段,模型的重心从“创造空间”转向“建模可被行动改变的环境”,核心目标是辅助物理智能体在部署之前的训练与验证过程。

这一阶段的模型不仅需要生成具有空间一致性和物理合理性的模拟世界环境,还需要支持行动输入,并在内部对环境状态进行更新。通过在可交互环境中系统性地改变场景结构、物体属性、初始状态或行动轨迹,世界模型可以持续生成大规模、多样化的高保真合成交互数据(synthetic data),用于训练在物理世界中部署的智能体。

以Nvidia为例,其推出的Cosmos世界模型体系与 Omniverse、Isaac 等仿真与机器人平台深度结合,将世界模型定位为物理 AI 的开发基础设施,用于合成数据生成、场景构建与策略验证。同样,Google DeepMind的Genie系列世界模型也聚焦于可交互环境的生成,强调其在智能体训练与测试阶段的作用。

第三阶段的应用是世界模型在真实物理世界中的推理与决策。世界模型不再只是为智能体模拟训练环境或提供合成数据,而是直接嵌入到端侧物理智能体的决策系统中,实时参与智能体在现实环境中执行任务时的决策。智能体需要在观察当前环境状态后,调用世界模型对不同候选行动进行多步未来推演,评估各自可能带来的结果与风险,输出会直接影响现实世界的物理行为。

从长期看,具备这一能力的世界模型将成为机器人、自动驾驶等物理AI系统实现高度自主性的关键能力基础。

世界模型的这三种应用形态是同一能力在不同阶段的自然演进。从低风险、以人为中心的生成,到服务研发的模拟与数据生产,再到高风险、直接影响现实的实时决策。

前一阶段为后一阶段提供必要但不充分的技术基础,而后一阶段的需求又不断促进前一阶段在真实性、可控性与泛化能力上的持续升级。在这样循序渐进的过程中,世界模型逐步从内容生成工具,演化为支撑物理智能的核心基础设施。

04.世界模型的影响力正在发酵

尽管世界模型整体仍处于较为早期的阶段,但其对产业结构和商业模式的潜在影响,已经开始在部分行业中以不同形式显现出来。

目前看来,世界模型的影响正沿着内容生成、物理智能以及算力基础设施三个层面逐步展开。

游戏与互动内容产业是最先感受到世界模型冲击的领域。1 月 30 日,谷歌公开展示 Project Genie 后,多家游戏相关公司股价出现大幅波动,其中内容开发平台公司 Unity Software 当日股价下跌21%。

传统游戏开发高度依赖人工搭建场景、关卡与规则系统,开发周期长、成本高,且内容迭代速度受制于团队规模与工具链复杂度。

而谷歌Genie世界模型所展示的能力,通过文字和图像提示即可生成可探索、可交互的环境意味着游戏中“世界构建”这一核心环节存在被自动化、定制化和实时化的可能。

不过,当前 Genie 所生成的场景仅支持1分钟以内的交互,可玩性和复杂度都十分有限,距离成熟游戏体验尚有显著差距。因此,市场的反应更多来自情绪与预期层面,但它揭示了世界模型对互动内容产业生产方式的潜在改变方向。相关企业是会通过利用世界模型赋能,还是被世界模型彻底替代还需要更多时间来验证。

相比内容产业,世界模型在智能体研发工具链中的影响更为直接和可验证。

对于以机器人和自动驾驶为代表的物理AI应用企业来说,世界模型的核心价值在于能够带来更高效的规模化扩展能力。在进入新城市、新场景或新任务类型时,成本不再简单随场景数量线性增长,而是更多依赖模型和模拟体系的复用与扩展。

通过使用世界模型,机器人和自动驾驶等物理智能有望更快在更多真实世界中实现落地并产生价值。

从基础设施层面看,世界模型预计将扩展算力需求的结构。世界模型强调的长时序、多模态、可交互的环境推演意味着在未来的AI工作负载中,除文本和图像处理外,将出现更多面向视频、时序建模和环境模拟的计算需求。

如果世界模型能够在物理智能体训练和现实世界运行中被广泛采用,GPU、存储与高带宽连接等基础设施的使用强度和场景将有望进一步扩张。

英伟达、AMD、博通等芯片厂商已经通过其CVC对世界模型领域的多家初创公司完成了投资。这表示算力供应商正在主动将世界模型纳入物理AI叙事之中,将其视为下一阶段算力需求增长的自然延伸。

从长远来看,世界模型的意义在于它为人工智能提供了一种与现实世界交互的中间层,使智能体具备行动之前先想象的能力。而这种能力,正是实现物理智能乃至通用人工智能过程中不可或缺的一环。

网站编辑: 郭靖

0

第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信公众账号中搜索投中网,或用手机扫描左侧二维码,即可获得投中网每日精华内容推送。

发表评论

 / 200

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——
联系我们 欢迎投稿
  • 投中网
  • CVS投中数据
  1. 创新经济的
    智识、洞见和未来

  2. 投资人都在用的
    数据专家

返回顶部