若愚科技,这家依托哈工大(深圳)成立的创业公司,近期在机器人大脑研发领域取得了显著的突破。该公司推出的若愚·九天机器人大脑,凭借其独特的多模态大模型驱动下的群体智能技术,成功地引领了国内机器人大脑研发的新潮流。
通过人类自然语言与多个机器人交互,完成从点菜到上菜的全流程,将 " 炒菜 " 的长序列任务进行自主规划。与当下市面上常见具身智能技术不同,若愚 · 九天机器人大脑能够实现人类意图理解、高频人机交互和复杂任务规划等功能。
自然语言交互展示
比如,当人类提出 " 来一份清炒生菜 " 的需求时,机器人能自主理解人类意图并规划任务,分解成 " 到食材区捡菜 "" 到预备区称重 "" 到制作区炒菜 "" 到消费区上菜 " 等多个步骤。
此外,若愚 · 九天机器人大脑具有一定举一反三的泛化能力。例如,训练模型的时候,只是告诉它要加蒜,没有训练过加辣椒,但之后如果人要求机器人加辣椒,它可以自动理解蒜和辣椒都属于配料,知道该在加蒜的环节替换成辣椒。
长序列任务规划(快速生成复杂任务规划)
据介绍,若愚 · 九天机器大脑的另一大突破是,多模态大模型驱动下的群体智能,赋予多智能体自主分工协作能力。
简单来说,是 " 一个大脑,多个身体 ",多台机器人(包括机械臂和 AGV)由若愚 · 九天大脑集中控制。
若愚科技首席产品官邓煜平向《智能涌现》介绍道,多个机器人协同高效率执行复杂任务时,这些不同任务之间有复杂的依赖关系。例如,两台机器人在炒菜的同时,另一台机器人去拿碗筷,如果因为菜品制作工序临时变化,导致炒菜时间延长,另一台机器人拿完碗筷后,可以自主决定继续拣选下一道食材,而不是干等着,从而提高效率。
这意味着,机器人大脑会自主规划任务逻辑,同时又确保协作的安全性," 但这是基于传统规则的示教方法很难实现的 "。
大模型驱动的群体智能(赋予多智能体自主分工协作能力)
除此之外,若愚 · 九天机器大脑还在控制机器人执行层面的小脑方面做了技术优化。例如,针对多样环境感知难的挑战,若愚科技研发了大模型 3D 可供性感知技术,对物体功能可供性区域感知,可免注册、抗复杂光、抗堆叠地抓取多种物体。
3D 智能识别与抓取(免注册、堆叠、抗复杂光)
针对 " 机器人从配料盒倒取蒜蓉 "" 用铲子从锅中倒取成品菜 " 等复杂动作执行难的挑战,若愚科技提出了扩散模型驱动的模仿学习技术,实现复杂技能和动作的精准执行。同时,结合多模态大模型驱动的机器人多臂协同技术,大幅提升了目标任务的协作能力与执行效率。
扩散模型驱动的复杂动作执行(无需现场示教,精准执行)
目前,国际上的具身智能大脑成果包括:谷歌人工智能团队的 PaLM-E、谷歌 DeepMind 团队的 RT-1/RT-2/RT-X、Open AI 投资的 Physical Intelligence 等等。
深圳若愚科技有限公司成立于 2023 年,孵化自哈尔滨工业大学(深圳)计算与智能研究院团队。据 36 氪此前报道,若愚科技于今年 3 月完成超 5000 万天使轮融资。
大模型驱动的双臂协作(大幅提升协作能力与效率)
若愚科技联合创始人兼首席执行官孙腾博士表示,若愚科技的九天机器人大脑以及机器人小脑的技术突破,可以进一步应用到工业领域的复杂工序,例如焊接、打磨、点胶,物流领域的分拣与混合码垛,商业领域的无人零售、无人药房、立体清洁,未来还可进一步延展到消费领域。