新的研究揭示了另一组大多数人类可以轻松完成的任务,而人工智能(AI)却绊倒了——阅读模拟时钟或弄清楚日期的日期。
人工智能可能能够编写代码、生成逼真的图像、创建听起来像人类的文本,甚至通过考试(取得不同程度的成功),但它经常误解指针在日常时钟上的位置,并且在日历日期所需的基本算术上失败。研究人员在2025年国际学习表示会议(ICLR)上的一次演讲中揭示了这些意想不到的缺陷。他们还于3月18日在预印本服务器arxiv上发表了他们的发现,因此尚未经过同行评审。
“大多数人从很小的时候就可以知道时间并使用日历。我们的发现突显了人工智能在执行人类非常基本的技能方面的巨大差距,”研究主要作者、爱丁堡大学研究员罗希特·萨塞纳在一份声明中说。如果人工智能系统要成功集成到时间敏感的现实世界应用中,如调度、自动化和辅助技术,就必须解决这些不足。"
为了研究人工智能的计时能力,研究人员将时钟和日历图像的自定义数据集输入各种多模态大语言模型(MLLM),这些模型可以处理视觉和文本信息。研究中使用的模型包括Meta的Llama 3.2-Vision、Anthopic的Claude-3.5 Sonnet、谷歌的双子座2.0和OpenAI的GPT-4o。
结果很差,模型无法从时钟图像中识别正确的时间或样本日期的星期几,超过一半的时间。
相关内容:科学家们同意,当前的人工智能模型是人类智能的“死胡同”。然而,研究人员对人工智能惊人的时间阅读能力有一个解释。
“早期的系统是基于标记的示例进行训练的。时钟读取需要不同的东西——空间推理,”萨塞纳说。“该模型必须检测重叠的指针,测量角度,并导航不同的设计,如罗马数字或风格化的表盘。人工智能识别‘这是一个时钟’比实际阅读它更容易。”
事实证明,日期同样困难。当遇到像“一年中的第153天是哪一天?”这样的挑战时,失败率也同样高:人工智能系统正确读取时钟的比例只有38.7%,日历只有26.3%。
这个缺点同样令人惊讶,因为算术是计算的基本基石,但正如Saxena解释的那样,人工智能使用了不同的东西。“算术对传统计算机来说微不足道,但对大型语言模型来说却不是。人工智能不运行数学算法,它根据它在训练数据中看到的模式预测输出,”他说。因此,尽管它有时可能正确回答算术问题,但它的推理并不一致或基于规则,我们的工作凸显了这一差距。”
该项目是越来越多的研究中的最新一个。这些研究强调了人工智能“理解”的方式与人类的方式之间的差异。模型从熟悉的模式中得出答案,当训练数据中有足够多的例子时,它们会表现出色,但当被要求概括或使用抽象推理时,它们会失败。
“对我们来说,像读时钟这样非常简单的任务对他们来说可能很难,反之亦然,”萨塞纳说。这项研究还揭示了人工智能在使用有限数据训练时遇到的问题——在这种情况下,像闰年或模糊的日历计算这样的现象相对罕见。尽管LLM有很多例子可以解释闰年作为一个概念,但这并不意味着它们建立了完成视觉任务所需的必要联系。
该研究强调了在训练数据中需要更有针对性的例子,以及需要重新思考人工智能如何处理逻辑和空间推理的结合,尤其是在它不常遇到的任务中。
最重要的是,它揭示了另一个领域,过多地委托人工智能输出会给我们带来危险。
“人工智能很强大,但是当任务将感知和精确推理结合起来时,我们仍然需要严格的测试、兜底逻辑,在许多情况下,还需要一个人在循环中,”萨塞纳说。