一个机器人拿到宜家家具说明书,自己读懂装配步骤,然后协调双臂完成穿孔、旋转、插接——当人为拆掉已装好的部件,它还能自动恢复,接续完成。这不是科幻电影,而是RoboScience机器科学6月24日在深圳发布会上展示的真实场景。
家具拼装被业内视为具身智能领域的"登月级"任务——手内操作、双臂协同、毫米级插接、精细力控、物体重排,几乎囊括了机器人操作的全部技术难点。能完成这件事,意味着机器人"干活"的能力已经突破了实验室的边界。
这场发布会上,RoboScience首次完整披露了其自研通用具身大模型Visics的技术架构VLOA(Vision-Language-Object-Action),以及支撑模型运转的数据体系与商业化路线图。从现场展示来看,这家成立仅一年半的公司,在具身智能最核心的操作泛化问题上,选了一条跟主流VLA路线截然不同的路。
不学手怎么动,学物体怎么变
当前具身智能行业最热门的路线是VLA(Vision-Language-Action),核心思路是让机器人通过模仿学习,直接学会执行器的关节动作。但这条路有个绕不开的坎:换一个机器人、换一只灵巧手,之前学的全部作废,得从头再来。
RoboScience的解法是"以物体为中心"。CEO田野在现场打了个比方:同样是把控制器拿到椅子上,谁来完成不重要——人拿可以,夹爪拿可以,五指灵巧手拿也可以。模型只关注一件事:被操作物体在三维空间中的运动轨迹。
这就是Visics的核心创新——Object Trajectory(物体3D点云轨迹)。它被设计为具身智能的"token",类似于大语言模型中的文本token、自动驾驶中的像素。模型不关心机器人怎么动,只关心物体的位置、形变如何变化。这一套表征方式天然跨越了三个维度的多样性:任意机器人本体、任意物体属性(刚性/柔性/铰链体)、任意任务类型。
基于这个"token",Visics构建了VLOA双引擎架构。上层是具身世界模型,负责"在脑子里预演"——接收视觉和语言指令后,想象出物体在未来应该怎样运动;下层是通用操作模型,负责把预演的轨迹转化成真实的接触力控制和关节指令。两者通过Object Trajectory这一中间接口无缝衔接,实现了认知与执行的彻底解耦。
"Object这个词本身有'物体'和'目标'两种意思,所以它精确地描述了机器人本体跟物体要发生什么样的交互、要完成什么样的物体运动状态的变化。"田野在发布会上解释道。
一个月产万条数据?不够,要千万小时
具身智能行业有一个公开的秘密:数据瓶颈。
真机采集方案月产能只有万条级别,单条成本几块钱,而且采出来的数据跟硬件强绑定、难以复用。面对大模型级别的数据需求——千万小时甚至亿万小时级别的预训练数据——这条路被RoboScience联合创始人兼执行总裁汪涛直白地称为"5到10年后才能跑通"。
RoboScience的选择是"以算力换时间"。公司自研了高精度物理仿真引擎RoboMirage,从最底层的求解器做起,解决了仿真到现实迁移的核心难题——穿模、物理失真。在此基础上构建了"仿真+视频"双数据飞轮:
具身世界模型用海量互联网视频数据训练,通过全自动标注管线,目前已积累数百万小时以物体为中心的操作数据,目标2026年构建上千万小时级数据集;通用操作模型则用仿真数据训练,已积累数百亿次操作轨迹——单条数据成本降至传统方案的1/20到1/200。
说白了,别人靠人采数据,一条几块钱,一个月万条;RoboScience靠GPU生成,一条几分钱,产能没有上限。这是一个量级的碾压,也是Visics能够实现"跨本体、跨物体、跨任务"泛化的底层燃料。
不绑硬件卖大脑,零售物流打头阵
在商业化路径上,RoboScience做了一个有意思的选择:不把自己的大脑绑死在自家硬件上。
由于VLOA架构的训练源头就跟硬件解耦,Visics可以灵活适配不同构型的机器人。汪涛透露,公司目前有三层交付方式:纯软件License上云、端侧控制器出货、以及自研标准本体。目前已适配了市场上主流的灵巧手厂商,并已产生收入。
场景选择上,RoboScience优先切入零售、电商物流——这些场景天然面临海量SKU和多品类拣选补货需求,对物体维度泛化能力要求极高,却也最适配Visics的核心能力。在真实场景中干活产生的数据,反过来又能持续反哺模型进化。
"我们选择从物体维度切入,而不是直接进工业场景跟自动化方案竞争。"汪涛表示。中短期目标是在此基础上扩展任务维度和机器人维度的泛化边界,推动自研硬件本体量产,推出具身智能操作系统与开发平台。长期目标则是进入家庭场景——当然,那得等成本和技术都准备好。
资本端,公司成立一年多已完成七轮融资,投资方包括京东集团、商汤科技、达晨财智、招商局创投等头部机构。团队来自斯坦福、中科大、新加坡国立大学以及苹果、字节、腾讯、大疆等,首席科学家邵林团队连续两年获得机器人顶会ICRA最佳论文奖/提名。
在田野的设想中,未来不是一个机器人代替人的故事,而是"每一个普通人,包括一个小孩,都能跟机器人一起协作,把脑海里的想法变成真正的东西。机器人不是人类的替代者,而是人类文明的增幅器。"
机器人学看说明书拼家具,RoboScience发布通用具身大模型Visics
这家成立仅一年半的公司,在具身智能最核心的操作泛化问题上,选了一条跟主流VLA路线截然不同的路。
一个机器人拿到宜家家具说明书,自己读懂装配步骤,然后协调双臂完成穿孔、旋转、插接——当人为拆掉已装好的部件,它还能自动恢复,接续完成。这不是科幻电影,而是RoboScience机器科学6月24日在深圳发布会上展示的真实场景。
家具拼装被业内视为具身智能领域的"登月级"任务——手内操作、双臂协同、毫米级插接、精细力控、物体重排,几乎囊括了机器人操作的全部技术难点。能完成这件事,意味着机器人"干活"的能力已经突破了实验室的边界。
这场发布会上,RoboScience首次完整披露了其自研通用具身大模型Visics的技术架构VLOA(Vision-Language-Object-Action),以及支撑模型运转的数据体系与商业化路线图。从现场展示来看,这家成立仅一年半的公司,在具身智能最核心的操作泛化问题上,选了一条跟主流VLA路线截然不同的路。
不学手怎么动,学物体怎么变
当前具身智能行业最热门的路线是VLA(Vision-Language-Action),核心思路是让机器人通过模仿学习,直接学会执行器的关节动作。但这条路有个绕不开的坎:换一个机器人、换一只灵巧手,之前学的全部作废,得从头再来。
RoboScience的解法是"以物体为中心"。CEO田野在现场打了个比方:同样是把控制器拿到椅子上,谁来完成不重要——人拿可以,夹爪拿可以,五指灵巧手拿也可以。模型只关注一件事:被操作物体在三维空间中的运动轨迹。
这就是Visics的核心创新——Object Trajectory(物体3D点云轨迹)。它被设计为具身智能的"token",类似于大语言模型中的文本token、自动驾驶中的像素。模型不关心机器人怎么动,只关心物体的位置、形变如何变化。这一套表征方式天然跨越了三个维度的多样性:任意机器人本体、任意物体属性(刚性/柔性/铰链体)、任意任务类型。
基于这个"token",Visics构建了VLOA双引擎架构。上层是具身世界模型,负责"在脑子里预演"——接收视觉和语言指令后,想象出物体在未来应该怎样运动;下层是通用操作模型,负责把预演的轨迹转化成真实的接触力控制和关节指令。两者通过Object Trajectory这一中间接口无缝衔接,实现了认知与执行的彻底解耦。
"Object这个词本身有'物体'和'目标'两种意思,所以它精确地描述了机器人本体跟物体要发生什么样的交互、要完成什么样的物体运动状态的变化。"田野在发布会上解释道。
一个月产万条数据?不够,要千万小时
具身智能行业有一个公开的秘密:数据瓶颈。
真机采集方案月产能只有万条级别,单条成本几块钱,而且采出来的数据跟硬件强绑定、难以复用。面对大模型级别的数据需求——千万小时甚至亿万小时级别的预训练数据——这条路被RoboScience联合创始人兼执行总裁汪涛直白地称为"5到10年后才能跑通"。
RoboScience的选择是"以算力换时间"。公司自研了高精度物理仿真引擎RoboMirage,从最底层的求解器做起,解决了仿真到现实迁移的核心难题——穿模、物理失真。在此基础上构建了"仿真+视频"双数据飞轮:
具身世界模型用海量互联网视频数据训练,通过全自动标注管线,目前已积累数百万小时以物体为中心的操作数据,目标2026年构建上千万小时级数据集;通用操作模型则用仿真数据训练,已积累数百亿次操作轨迹——单条数据成本降至传统方案的1/20到1/200。
说白了,别人靠人采数据,一条几块钱,一个月万条;RoboScience靠GPU生成,一条几分钱,产能没有上限。这是一个量级的碾压,也是Visics能够实现"跨本体、跨物体、跨任务"泛化的底层燃料。
不绑硬件卖大脑,零售物流打头阵
在商业化路径上,RoboScience做了一个有意思的选择:不把自己的大脑绑死在自家硬件上。
由于VLOA架构的训练源头就跟硬件解耦,Visics可以灵活适配不同构型的机器人。汪涛透露,公司目前有三层交付方式:纯软件License上云、端侧控制器出货、以及自研标准本体。目前已适配了市场上主流的灵巧手厂商,并已产生收入。
场景选择上,RoboScience优先切入零售、电商物流——这些场景天然面临海量SKU和多品类拣选补货需求,对物体维度泛化能力要求极高,却也最适配Visics的核心能力。在真实场景中干活产生的数据,反过来又能持续反哺模型进化。
"我们选择从物体维度切入,而不是直接进工业场景跟自动化方案竞争。"汪涛表示。中短期目标是在此基础上扩展任务维度和机器人维度的泛化边界,推动自研硬件本体量产,推出具身智能操作系统与开发平台。长期目标则是进入家庭场景——当然,那得等成本和技术都准备好。
资本端,公司成立一年多已完成七轮融资,投资方包括京东集团、商汤科技、达晨财智、招商局创投等头部机构。团队来自斯坦福、中科大、新加坡国立大学以及苹果、字节、腾讯、大疆等,首席科学家邵林团队连续两年获得机器人顶会ICRA最佳论文奖/提名。
在田野的设想中,未来不是一个机器人代替人的故事,而是"每一个普通人,包括一个小孩,都能跟机器人一起协作,把脑海里的想法变成真正的东西。机器人不是人类的替代者,而是人类文明的增幅器。"
0
第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信公众账号中搜索投中网,或用手机扫描左侧二维码,即可获得投中网每日精华内容推送。
发表评论
全部评论