由于谷歌DeepMind的“思考人工智能”——一对帮助机器理解世界的模型,机器人获得了重大的智能提升

机器人2026-01-14 17:42:28 贡爽毓

谷歌DeepMind推出了一对人工智能(AI)模型,这些模型将使机器人能够以以前不可能的方式执行复杂的一般任务和推理。

今年早些时候,该公司公布了双子座机器人的第一次迭代,这是一种基于双子座大语言模型(LLM)的人工智能模型,但专门用于机器人技术。这使得机器能够在物理空间中推理和执行简单的任务。新模型被称为双子座机器人1.5和双子座机器人-ER 1.5,大大扩展了原始版本处理多步“长期”任务的能力,是机器人在现实世界用例中帮助人们的一个重要里程碑。

谷歌指出的基线示例是香蕉测试。最初的人工智能模型能够接收简单的指令,例如“将香蕉放入篮子中”,并引导机械臂完成该命令。

在这两种新型号的支持下,机器人现在可以选择水果,并根据颜色将它们分类到单独的容器中。在一次演示中,一对机械臂(该公司的Aloha 2机器人)准确地将香蕉、苹果和酸橙分类到三个颜色合适的盘子上。此外,机器人在执行任务时用自然语言解释它在做什么以及为什么。

“我们让它能够思考,”DeepMind的高级研究科学家谭杰在视频中说。“它可以感知环境,一步一步地思考,然后完成这项多步骤任务。虽然这个例子看起来很简单,但它背后的想法真的很强大。同样的模型将为更复杂的人形机器人提供动力,让它们完成更复杂的日常任务。”明天的人工智能机器人演示虽然表面上看起来很简单,但它展示了许多复杂的能力。机器人可以在空间上定位水果和盘子,识别水果和所有物体的颜色,根据共享特征将水果与盘子匹配,并提供自然语言输出,描述其reasoning.It的所有可能,因为人工智能模型的最新迭代交互方式。他们一起工作的方式与主管和工人非常相似。

谷歌机器人1.5(“大脑”)是一种视觉语言模型(VLM),它收集空间及其内物体的信息,处理自然语言命令,并可以利用高级推理和工具向谷歌机器人1.5(“手和眼睛”)发送指令,这是一种vision-language-action(VLA)模型。谷歌机器人1.5将这些指令与它对空间的视觉理解相匹配,并在执行之前制定计划,在整个过程中提供关于其过程和推理的反馈。

这两款机型比之前的版本功能更强大,可以使用谷歌搜索等工具来完成任务。

该团队通过让一名研究人员要求阿罗哈根据她的位置使用回收规则将一些物体分类到堆肥、回收和垃圾箱来证明这种能力。机器人识别出用户位于旧金山,并在互联网上找到回收规则,帮助它准确地将垃圾分类到适当的容器中。

新模型所代表的另一个进步是跨多个机器人系统学习(并应用这种学习)的能力。DeepMind的代表在一份声明中表示,由于模型学习和进化的通用方式,其Aloha 2机器人(一对机械臂)、Apollo人形机器人和双臂弗兰卡机器人收集到的任何学习都可以应用于任何其他系统。“通用机器人需要对物理世界的深刻理解、高级推理以及通用和灵巧的控制,”双子座机器人团队在一份关于新模型的技术报告中说。这种广义推理意味着模型可以在对物理空间和交互有广泛理解的情况下处理问题,并相应地解决问题,将任务分解为易于执行的小步骤。这与早期的方法形成鲜明对比,后者依赖于仅适用于非常具体、狭窄的情况和单个机器人的专业知识。

科学家们提供了一个额外的例子,说明机器人如何在现实世界中提供帮助。他们向一个Apollo机器人展示了两个垃圾箱,并要求它按颜色分类衣服——白色进入一个垃圾箱,其他颜色进入另一个垃圾箱。然后他们增加了一个额外的障碍le随着任务的进展,通过移动衣服和垃圾箱,迫使机器人重新评估物理空间并做出相应的反应,它成功地做到了这一点。

© 版权声明

相关文章

暂无评论

暂无评论...