由于人工智能(AI)和计算机视觉的结合,类似狗的机器人有朝一日可以学会玩抓取游戏,帮助它们将目标锁定在物体上。
在10月10日发表在《IEEE机器人与自动化快报》杂志上的一项新研究中,研究人员开发了一种名为“Clio”的方法,该方法可以让机器人使用随身摄像头快速绘制场景地图,并通过语音指令识别与分配给它们的任务最相关的部分… Clio利用了“信息瓶颈”理论,即信息以某种方式被压缩,因此神经网络——模仿人脑处理信息方式的机器学习算法的集合——只能挑选和存储相关部分。任何配备该系统的机器人都会处理诸如“获取急救箱”之类的指令,然后只解释其周围环境中与其任务相关的部分——忽略其他一切。
“例如,假设场景中有一堆书,我的任务只是拿到绿皮书。在这种情况下,我们通过这个瓶颈推动所有关于场景的信息,最终得到一组代表绿皮书的片段,”该研究的合著者、麻省理工学院研究生多米尼克·马乔在一份声明中说。“所有其他不相关的片段都被分组到一个集群中,我们可以简单地删除它。我们在右边的颗粒度留下了一个物体,这是支持我的任务所需要的。”
相关内容:“在披萨上涂胶水”体现了人工智能搜索的所有错误——SearchGPT准备好改变这一点了吗?
为了演示克里欧的行动,研究人员使用波士顿动力斑点四足机器人运行克里欧来探索办公楼并执行一系列任务。克里欧实时工作,生成了一张虚拟地图,只显示与其任务相关的物体,然后使斑点机器人能够完成其目标。看到、理解、做研究人员通过结合大型语言模型(LLM)——支持人工智能工具、系统和服务的多个虚拟神经网络——与克里欧一起实现了这一水平的颗粒度,这些模型已经过训练,可以用计算机视觉识别各种物体。神经网络在准确识别本地或虚拟环境中的物体方面取得了重大进展,但这些通常是精心策划的场景,机器人或人工智能系统已经过预训练来识别数量有限的物体。Clio提供的突破是能够实时看到与分配给它的特定任务相关的粒度。
其中一个核心部分是将映射工具整合到Clio中,使其能够将场景分成许多小片段。然后,神经网络会挑选出语义相似的片段——这意味着它们服务于相同的意图或形成相似的对象。实际上,这个想法是让人工智能驱动的机器人能够实时做出直观和有判别力的以任务为中心的决策,而不是首先尝试处理整个场景或环境。
未来,研究人员计划调整Clio以处理更高级别的任务。
“我们仍然给Clio一些特定的任务,比如‘寻找一副牌’,”Maggio说。“对于搜索和救援,你需要给它更多高级任务,比如‘寻找幸存者’或‘恢复电力’。”因此,我们希望对如何完成更复杂的任务有更人性化的理解。”
如果没有别的,克里奥可能是拥有能够真正玩捡东西的机器狗的关键——不管它们在哪个公园里跑来跑去。