投中网
搜索
登录 | 注册
投中网  >  业界动态  >  正文

具身智能与人形机器人在AGI时代的融合与突破

容亿投资   |   何远迪,刘宏春
2024-10-23 15:52:29

人形机器人即将催生新的百亿美元赛道,改进丰富传统智能制造场景,促进新兴服务市场的形成。

容亿观点

1、LLM多模态大模型的发展给机器人产业带来新一轮的机遇,通用人工智能(AGI)给人形机器人带来巨大变革。这些大模型能够助力人形机器人拆解任务,并将语义理解能力、推理生成能力、感知思考决策能力引入机器人领域,大模型的影响正在逐渐渗透到各行各业。

2、具身智能(Embodied AI)是多模态大模型演进的重要趋势,也是人形机器人追求的终极目标。人形机器人(Humanoid Robot)是具身智能的最佳载体,是机器人领域的AI Agent,机器人与具身智能将进一步融合。

3、人形机器人领域会出现垂直方向的具身智能小模型:大模型与机器人的融合是一个难点,通用大模型的文字、图像、视频逻辑化和处理能力尚可,但不能给通用人形机器人专门使用,因为这些大模型对环境认知和感知能力基本是零。借鉴现有的大模型技术,开发一个小模型甚至中等模型可以让通用人形机器人技术层面迈过障碍。

4、人形机器人的移动能力、运动能力、人形本体制造能力已经初步攻克,各厂家处于初步成熟阶段,而上半身手、臂、眼脑的通用任务泛化操作(Generalization Manipulation)能力仍是产业链的瓶颈,这也是人形机器人下一步亟需突破点,也是最困难、最核心、商业价值最大的部分。

5、人形机器人即将催生新的百亿美元赛道,改进丰富传统智能制造场景,促进新兴服务市场的形成。全球科技巨头Google、OpenAI、Tesla,国内外高校团队及初创企业积极布局参与具身智能机器人领域的研发,具身智能体成为全球科技企业与学术界重点研究的热门方向。

一、人形机器人&具身智能的诞生与发展。

人形机器人( Humanoid robot )是一种仿生机器人,外形和人类相似,能够完成各种任务。通常由电机、传感器、计算机等组成,可以通过编程来控制它们的动作和行为。

具身智能(Embodied AI)是一种基于物理身体进行感知和行动的智能系统,通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,产生智能行为和适应性。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破


人形机器人起步于20世纪70年代,技术持续迭代,其发展主要分四个阶段:

1)初步行走阶段:以日本早稻田大学打造的WABOT-1为代表;

2)能力破冰阶段:以本田人形机器人等为代表的系统高度集成时代;

3)技术突破阶段:以强复合运动能力为特征的,突出代表者为波士顿动力Atlas;

4)产业化落地阶段:第四阶段是以特斯拉Optimus机器人为代表,该阶段尚处于发展前期。

随着科技赋能发展,人形机器人有望成为“具身智能”的理想载体。

具身智能是指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。

随着全球高新技术尤其是 AI领域的整体快速突破,以ChatGPT为代表的大模型将进一步优化对人形机器人的控制技术,由此人形机器人有望成为“具身智能”的理想形态。

二、人工智能向通用型AGI快速演进,AGI的发展带来产业巨大变革

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

人工智能的发展历程主要为三个阶段包括分析式AI、生成式AI以及正在逐步实现的通用型人工智能AGI。

分析式AI主要侧重于从数据中学习并进行模式识别,以支持决策制定,这类AI在图像识别、语音处理和推荐系统中表现出色,它们通过分析能够执行任何智能任务,具有类似人类的广泛智能。

生成式AI是基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术,这种技术能够针对用户需求,依托事先训练好的多模态基础大模型等,利用用户输入的相关资料,生成具有一定逻辑性和连贯性的内容。

而通用型人工智能AGI的核心在于其“具身性”,即AI系统能够通过物理形态与世界互动,具备感知、推理、学习和自主决策的能力。这种智能体将能够理解复杂的环境,执行复杂的任务,并在真实世界中实现自我学习和适应。迈向AGI具身智能的过程中面临着诸多挑战,如设计能够处理多模态输入的算法、确保AI系统的决策过程透明和可解释,以及如何确保AI系统的行为符合伦理和安全标准。此外,AGI的实现还需要强大的计算能力、先进的机器学习模型和大量的训练数据。AGI具身智能的发展给人形机器人带来产业巨大变革。随着技术的不断进步,AGI具身智能将逐渐从概念走向现实,成为推动未来社会发展的关键力量。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

三、GPT LLM大模型的发展让人形机器人拥有了可以思考的大脑

大模型的发展推动了人形机器人的智能化和商业化落地,大模型通过提供高层级的视觉和语言智能,使人形机器人能够理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动。大模型加速了人形机器人向具身智能方向的发展,拓展了单一智能为融合智能,促进了机器人完成多样性与通用性的任务,使得机器人本身就能结合其感知到的多模态数据实现智能化决策。同时大模型推动了机器人在自主学习和适应能力上的进步,通过不断的数据训练和迭代优化,机器人可以更快速地学习新知识和适应新场景,从而提升其在复杂环境中的表现和应用能力。大模型增强了人形机器人的自主性和智能化,提供更深入的人机交互,具身智能技术使得机器人能够更加自主地感知和理解环境,具备更高级别的决策能力和执行能力,不仅仅是单向指令的执行者,而是能够理解和回应人类的意图和情感。这种智能化可以带来制造业自动化的进一步提升,例如在自动化生产线上执行复杂任务,减少人为干预和错误,提高生产效率和质量,也可以在教育领域实现机器人根据学生的反馈调整教学策略,在医疗领域,机器人在手术中与医生实时协作。

具身智能的通用泛化操作能力(Generalization Manipulation)更是一种迁移学习能力,把从过去的经验中学习到的知识和策略应用到全新的领域,实现了举一反三。以GPT为代表的大模型是迈向通用人工智能AGI的重要标志,大模型的触角正在进入各行各业;大模型能够助力人形机器人拆解任务,将语义理解能力、推理生成能力、感知思考决策能力引入人形机器人领域,相当于给机器人换个可思考理解的人类大脑。

四、具身智能(Embodied AI)是多模态大模型演进的重要趋势,LLM提供机器人感知与交互新范式

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

具备控制、感知、执行能力的AI Agent是大模型落地的重要形式,人形机器人是机器人领域典型的AI Agent,人形机器人是大模型实现最好的硬件载体,具身智能代表了人工智能领域中多模态大模型发展的重要趋势。这一趋势强调智能系统与物理世界的柔顺交互,其中智能体不仅仅是数据处理的实体,而是通过感知和行动与环境进行实时互动的实体。首先需要实现本体和智能体的结合,本体的设计需要考虑运动能力、感知能力以及与环境的交互能力;多模态数据的融合,具身智能系统需要处理和理解来自不同感官的数据,如视觉、听觉和触觉等,这要求研究者开发出能够有效融合多模态数据的算法和模型;其次学习和进化架构,具身智能系统需要具备学习和进化的能力,以便在不断变化的环境中适应和优化其行为。这涉及到强化学习、模仿学习等多种机器学习方法。为了安全和成本效益,通常在仿真环境中训练和测试具身智能系统,而将仿真环境中的学习成果迁移到现实世界仍然是面临诸多挑战。最后,具身智能的发展需要硬件和软件的紧密结合,硬件的进步为智能体提供了更好的感知和执行能力,而软件的创新则使得智能体能够更有效地处理信息和做出决策。随着技术的不断进步,具身智能正逐渐从概念走向现实,成为推动人工智能领域发展的重要力量。

五、全球顶尖科技巨头纷纷下场布局,机器人与具身智能将进一步融合突破

人形机器人被视为具身智能Embodied AI的最佳载体,它能模仿人类形态和功能,人形机器人模仿人类的外形和运动方式,这使得它们能够适应人类生活环境和使用相同的工具,从而在家庭、医疗、教育、服务业等多个领域中应用。人形机器人能够通过视觉、听觉、触觉等多种感官与环境进行多模态的交互,这种多模态交互能力使得它们能够更自然地与人类沟通和协作。人形机器人通常具备高度的灵活性和适应性,能够在复杂和变化的环境中执行任务,如灾难救援、探索未知环境等。通过机器学习和人工智能算法,人形机器人能够从经验中学习,不断优化自己的行为和决策能力,以更好地适应环境和任务需求。由于外形和行为的类人特征,人形机器人更容易被人类社会接受,这有助于它们在人类生活和工作环境中的融入和应用。人形机器人不仅是具身智能理念的体现,也是实现这

一理念的关键技术平台,它们的发展将对人工智能的未来产生深远影响。

(1)、Figure 01证实人形机器人将成为AI最佳的物理载体,OpenAI VLM大模型赋能Figure 01逻辑思考与学习能力。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

(2)、Tesla人形机器人性能不断迭代,马斯克表示,人形机器人将成为工业主力,数量有望超越人类,预计达到100亿-200亿。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

(3)、Boston Dynamics放弃液压方案,全新电驱动机器人Atlas亮相。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

(4)、Nvidia 已拥有人形机器人开发和发展必要的技术,积极构建具身智能生态

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

六、人形机器人将进一步丰富传统智能制造场景,促进新兴家庭服务市场形成

人形机器人作为智能制造领域的一项革命性技术,预计将进一步丰富和扩展传统智能制造的场景。它们不仅能够执行重复性高、精度要求严格的任务,还能够在复杂环境中进行灵活操作,提供更加个性化和柔性化的制造解决方案。在智能制造领域,人形机器人的应用前景广阔,如:人形机器人可以在自动化生产线上执行装配、检测、搬运等任务,提高生产效率和质量,其的高度灵活性和精细操作能力,能够处理一些传统工业机器人难以完成的复杂操作。同时人形机器人能够与人类工人协同工作,执行需要人类智慧和机器人耐力相结合的任务。随着技术的进步,人形机器人的智能化水平将得到进一步提升,它们将更加具备自主学习能力、感知能力、决策能力,能够更好地适应复杂多变的环境和任务。预计在未来几年内,人形机器人将在智能制造领域实现更广泛的应用,推动制造业向更高层次的自动化和智能化发展。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

Multimodal LLM人形机器人 VS 传统工业机器人

相比之下,传统工业机器人通常在结构化环境中执行重复性高、力量要求大的任务,如汽车生产线上的焊接、喷漆、组装等。它们往往被隔离使用,以确保安全,且不具备与人类直接交互的能力。在技术特点上,人形机器人需要更复杂的控制算法和传感器系统来实现平衡、行走、抓取等动作。而传统工业机器人则侧重于精确和重复性,其控制系统和运动规划相对简单。总之,人形机器人代表着AI技术与机器人技术的深度融合,是实体通用人工智能系统的典型代表,有望成为引领产业数字化发展、智能化升级的新质生产力。而传统工业机器人则继续在制造业等领域发挥其高效、稳定的特点。随着技术的发展,两者的应用场景和功能都在不断扩展和丰富。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

随着人口老龄化和单身人口的增加,人形机器人有望成为家庭中的伴侣和助手,提供陪伴、教育、娱乐等服务。人形机器人在医疗辅助、养老服务等领域的应用,也将为社会带来积极影响。在商业服务领域,人形机器人可以作为服务员、接待员等角色,提供迎宾、点餐、咨询等服务。例如,优必选科技的Walker S系列人形机器人已在汽车工厂中进行智能搬运、分拣、质检等任务,展示了其在工业领域的应用潜力。人形机器人在教育领域也展现出独特的价值。它们可以作为教学辅助工具,帮助学生更好地理解复杂的概念和原理,提高学习效率和兴趣。

随着人形机器人技术的不断成熟和成本的降低,预计其在服务市场的渗透率将逐步提高,成为推动新兴服务市场发展的重要力量。

七、发展面临的困难与挑战:

大规模数据Scaling Law需求与训练困难:具身智能的发展高度依赖大规模的数据用于训练和测试。然而,收集具身智能所需的真实世界交互数据非常困难且昂贵,特别是在涉及复杂物理交互的场景中。容亿投资项目:银河通用通过仿真数据集训练机器人,实现了真实世界关节类物体的泛化操作。

复杂的运动控制与平衡:人形机器人最显著的特点是它们的类人外形和双足行走能力。然而,双足行走对机器人来说是极具挑战性的任务。与轮式机器人不同,双足行走涉及精确的平衡控制,尤其是在行走、跑步、转弯、或应对不平坦地形时。为了保持稳定,机器人需要在极短时间内进行快速的动作调整,模仿人类的重心控制和协调。现有的运动控制算法虽有所进步,但与人类的运动灵活性和稳定性相比,仍然有很大的差距。容亿投资项目:宇树科技在运动控制与平衡方面的成果为世人嘱目。

自主决策与任务规划:自主决策是人形机器人必须具备的重要能力之一。它们需要能够在变化的环境中自主做出复杂决策,并规划相应的任务。例如,机器人在面对一系列行动选项时,必须能够评估每个行动的风险、收益和可能性,从而选择最优方案。现有的人工智能和强化学习算法已经在某些特定任务中表现良好,但在人类工作和生活的多样性和复杂性面前,机器人仍然缺乏足够的泛化能力,难以应对不确定性或未曾遇到的任务。

总结:

在通用型人工智能AGI时代,具身智能与人形机器人的融合将推动智能体从纯粹的认知能力向全面的感知、行动和决策转变。具身智能通过机器人与物理环境的直接交互,使其能够理解和适应复杂的现实世界,提升了机器人的自主性和灵活性。而人形机器人作为具身智能的最佳载体,具有人类般的外形和运动能力,可以更自然地与人类互动,适应多样化的任务场景。两者的结合不仅能够实现复杂环境中的精确感知、灵活运动和智能决策,还为多模态交互、人机协同工作提供了新的路径。具身智能与人形机器人将有望在AGI时代成为通用智能的代表,广泛应用于工业、家庭、医疗等领域,实现真正意义上的智能协作与服务。

容亿连续两轮重点投资项目:宇树科技已经成为世界知名机器人公司,在人形机器人具身智能赛道领域绝对龙头的地位,公司于2023年率先研发出国内第一台能跑的全尺寸通用人形机器人,并于今年发布了可量产人形机器人,受到全球广泛关注和报道。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

容亿已投项目「银河通用」聚焦于实现机器人具身智能,通过具身模型解决了机器人的双臂、眼镜和大脑的配合,实现了机器人的自然语言交互、泛化物体识别、抓取与操作、双臂灵巧手操作控制等,完成了机器人的通用泛化任务操作,真正的替代人类处理繁杂的任务和工作。

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

容亿行研|具身智能与人形机器人在AGI时代的融合与突破

容亿投资何远迪表示:“我们在人形机器人领域接连投资了宇树科技、银河通用等项目,我们认为具身智能将引领下一代人工智能的发展方向,推动机器人从单一功能向多样化应用的转变。我们坚定的支持以技术产品驱动的创业公司和优秀的创业者,助力这一领域的技术加速落地,开拓工商业、服务业等多领域的应用前景,推动新质生产力在全球范围内的广泛普及与变革”

容亿投资在具身智能和人形机器人领域将持续加强战略布局,坚定看好这一领域的未来发展潜力。容亿投资坚持做耐心资本,通过长期投资支持创新企业在感知、交互、运动控制等核心技术上的突破,加速人形机器人与智能系统的深度融合。



网站编辑: 郭靖

0

第一时间获取股权投资行业新鲜资讯和深度商业分析,请在微信公众账号中搜索投中网,或用手机扫描左侧二维码,即可获得投中网每日精华内容推送。

发表评论

 / 200

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——
联系我们 欢迎投稿
  • 投中网
  • CVS投中数据
  1. 创新经济的
    智识、洞见和未来

  2. 投资人都在用的
    数据专家

返回顶部