麻省理工学院的新人工智能可以通过机器人的眼睛观察世界来自学控制机器人——它只需要一个摄像头

机器人2026-01-14 17:42:51 荀贵枝

麻省理工学院的科学家开发了一种新颖的基于视觉的人工智能(AI)系统,该系统可以自学如何在不使用传感器或预训练的情况下控制几乎任何机器人。

该系统使用摄像头收集给定机器人架构的数据,就像人类在移动时用眼睛了解自己一样。这允许人工智能控制器开发一个操作任何机器人的自我学习模型——本质上给机器一种类似人类的物理自我意识。

研究人员通过创建一种新的控制范式实现了这一突破,该范式使用摄像头将机器人“可视运动雅可比场”的视频流映射到机器人的执行器,这是对机器可见3D点的描述。

人工智能模型可以预测精密电机运动。这使得将非传统机器人架构(如软机器人和使用柔性材料设计的机器人)转变为仅需几个小时训练的自主单元成为可能。

麻省理工学院CSAIL的博士生、该项目的首席研究员李思哲在一份新闻稿中解释说:“想想你是如何学会控制手指的:你摆动、你观察、你适应。这就是我们的系统所做的。它对随机动作进行实验,并计算出哪个控件移动机器人的哪些部分。”

相关内容:科学家们通过燃烧、戳和切开可以“感觉一切”的新机器人皮肤。典型的机器人解决方案依靠精密工程来制造出可以使用预训练系统控制的精确规格的机器。这可能需要昂贵的传感器和人工智能模型,这些传感器和人工智能模型需要经过数百或数千小时的微调才能开发出来,以预测每一种可能的运动排列。例如,在机器工程和人工智能系统控制领域,用手状附件抓取物体仍然是一个艰巨的挑战。相比之下,了解你周围的世界使用“雅可比场”映射相机解决方案为机器人系统自动化的挑战提供了一种低成本、高保真度的解决方案。

该小组于6月25日在《自然》杂志上发表了他们的发现。在这篇文章中,他们说这项工作旨在模仿人脑学习控制机器的方法。

我们学习和重建3D配置以及预测运动作为控制函数的能力仅来自视觉。根据该论文,当使用视频游戏控制器控制机器人时,“人们可以在几分钟内学会拾取和放置物体”,并且“我们唯一需要的传感器是我们的眼睛”

该系统的框架是由12台消费级RGB-D摄像机拍摄的机器人执行随机生成的命令的两到三个小时的多视图视频开发的。该框架由两个关键组件组成。第一个是深度学习模型,本质上允许机器人确定它和它的附属物在三维空间中的位置。这使它能够预测随着特定运动命令的执行,它的位置将如何变化。第二个是机器学习程序,它将通用运动命令翻译成机器人可以理解和执行的代码。

该团队通过对比传统基于摄像头的控制方法的有效性来测试新的训练和控制范式。雅可比场解决方案在精度上超过了现有的2D控制系统——尤其是当团队引入视觉遮挡导致旧方法进入故障状态时。然而,使用该团队方法的机器成功地创建了可导航的3D地图,即使场景被随机杂波部分遮挡。

一旦科学家们开发了这个框架,它就被应用于各种架构变化很大的机器人。最终结果是一个控制程序,不需要进一步的人工干预,只需使用一台摄像机就可以训练和操作机器人。

© 版权声明

相关文章

暂无评论

暂无评论...