麻省理工学院的新人工智能可以通过机器人的眼睛观察世界来自学控制机器人——它只需要一个摄像头

机器人 2026-01-14 17:42:51 荀贵枝

麻省理工学院的科学家开发了一种新颖的基于视觉的人工智能(AI)系统,该系统可以自学如何在不使用传感器或预训练的情况下控制几乎任何机器人。

该系统使用摄像头收集给定机器人架构的数据,就像人类在移动时用眼睛了解自己一样。这允许人工智能控制器开发一个操作任何机器人的自我学习模型——本质上给机器一种类似人类的物理自我意识。

研究人员通过创建一种新的控制范式实现了这一突破,该范式使用摄像头将机器人“可视运动雅可比场”的视频流映射到机器人的执行器,这是对机器可见3D点的描述。

人工智能模型可以预测精密电机运动。这使得将非传统机器人架构(如软机器人和使用柔性材料设计的机器人)转变为仅需几个小时训练的自主单元成为可能。

麻省理工学院CSAIL的博士生、该项目的首席研究员李思哲在一份新闻稿中解释说:“想想你是如何学会控制手指的:你摆动、你观察、你适应。这就是我们的系统所做的。它对随机动作进行实验,并计算出哪个控件移动机器人的哪些部分。”

相关内容:科学家们通过燃烧、戳和切开可以“感觉一切”的新机器人皮肤。典型的机器人解决方案依靠精密工程来制造出可以使用预训练系统控制的精确规格的机器。这可能需要昂贵的传感器和人工智能模型,这些传感器和人工智能模型需要经过数百或数千小时的微调才能开发出来,以预测每一种可能的运动排列。例如,在机器工程和人工智能系统控制领域,用手状附件抓取物体仍然是一个艰巨的挑战。相比之下,了解你周围的世界使用“雅可比场”映射相机解决方案为机器人系统自动化的挑战提供了一种低成本、高保真度的解决方案。

该小组于6月25日在《自然》杂志上发表了他们的发现。在这篇文章中,他们说这项工作旨在模仿人脑学习控制机器的方法。

我们学习和重建3D配置以及预测运动作为控制函数的能力仅来自视觉。根据该论文,当使用视频游戏控制器控制机器人时,“人们可以在几分钟内学会拾取和放置物体”,并且“我们唯一需要的传感器是我们的眼睛”

该系统的框架是由12台消费级RGB-D摄像机拍摄的机器人执行随机生成的命令的两到三个小时的多视图视频开发的。该框架由两个关键组件组成。第一个是深度学习模型,本质上允许机器人确定它和它的附属物在三维空间中的位置。这使它能够预测随着特定运动命令的执行,它的位置将如何变化。第二个是机器学习程序,它将通用运动命令翻译成机器人可以理解和执行的代码。

该团队通过对比传统基于摄像头的控制方法的有效性来测试新的训练和控制范式。雅可比场解决方案在精度上超过了现有的2D控制系统——尤其是当团队引入视觉遮挡导致旧方法进入故障状态时。然而,使用该团队方法的机器成功地创建了可导航的3D地图,即使场景被随机杂波部分遮挡。

一旦科学家们开发了这个框架,它就被应用于各种架构变化很大的机器人。最终结果是一个控制程序,不需要进一步的人工干预,只需使用一台摄像机就可以训练和操作机器人。

© 版权声明

相关文章

这个“盲人”猎豹机器人没有视力,没有问题

麻省理工学院的工程师和机器人专家显然正在竭尽全力帮助我们过渡到一个全面的机器人接管。他们在“盲人运动”方面的最新成就是90磅。(41公斤)猎豹3号。这种四肢机械野兽可以跺脚爬上散落着碎片的楼梯,在不平坦的地形上冲刺,在被重击后恢复过来,或者pushed By设计机器人来“感觉”自己的立足点,就像被蒙住眼睛的人所做的那样,麻省理工学院的研究人员希望制造出一种机器,它可以比依靠视觉更快地对意外障碍物做出反应。机器人的设计者、麻省理工学院机械工程副教授Sangbae Kim在一份声明中说。[奔跑中的机器人!5个真正可以移动的机器人】“视觉可能会‘嘈杂’,有点不准确,有时甚至不可用,如果你过于依赖视觉,你的机器人必须非常准确地定位,最终会很慢,”金说。“如果它踩到相机看不到的东西怎么办?它会做什么?这就是盲目运动可以提供帮助的地方。我们不想太相信我们的视觉。”就像它的大猫一样,这个机器人可以左右弯曲和弯曲它的身体和腿——几乎就像它准备向毫无戒心的猎物跳跃一样。多个传感器收集机器人每走一步的数据;根据麻省理工学院的声明,特殊算法评估肢体运动的数据,以帮助猎豹3号弄清楚每只脚放在哪里,以及当它遇到意想不到的绊脚石,如石头或树枝时如何恢复。这些计算使机器人能够决定什么时候“承诺”脚步并向前移动是安全的,什么时候后退更谨慎。
2026-01-14

麻省理工学院的新人工智能可以通过机器人的眼睛观察世界来自学控制机器人——它只需要一个摄像头 暂无评论