“数学奥林匹克”有了一个新的竞争者——谷歌的人工智能现在在解决几何问题方面“比人类金牌得主更好”

AI2026-01-14 17:45:14 翁萍枫

谷歌研究人员开发了一种人工智能(AI)数学系统,可以在国际几何比赛中击败金牌得主。

该系统名为“AlphaGeometry2”(AG2),是一个先进的人工智能框架,能够解决国际数学奥林匹克(IMO)中84%的几何问题。IMO金牌得主平均解决了81.8%的奥林匹克问题。科学家们说,由谷歌DeepMind设计,它不仅可以进行模式匹配,还可以创造性地解决问题。他们在2月7日上传到预印本arxiv数据库的一项研究中概述了他们的发现。

该公司宣布这一消息的一个月前,微软发布了自己的高级人工智能数学推理系统rStar-Math,该系统使用小语言模型(SML)来求解复杂方程。两家公司都寻求主导人工智能数学领域,因为科学家表示,具有解决数学问题的高能力的系统可能会充分模仿其他形式的人类推理。AG2与微软的rStar-Math的不同之处在于,它专注于用混合推理模型解决高级问题,而r-Star使用更小的语言模型来解决更广泛的问题。

科学家们在研究中表示,谷歌于2024年1月发布了AlphaGeometry的原始版本,其最新版本的性能比之前的迭代提高了30%。AG2的改进侧重于掌握几何,与微积分和代数不同,几何需要视觉推理和逻辑的结合来解决复杂的问题。

相关:研究表明,较旧的人工智能模型显示出认知衰退的迹象——但并非每个人都完全相信

然而,专家们警告不要将这一里程碑视为实现通用人工智能(AGI)——人工智能系统在多个学科中比人类更聪明,而不仅仅是在一个学科中成为超人,而不管训练数据如何。“AlphaGeometry2代表了一种智能形式,但人类的智能远远超出了这一点——我们发明,而不是简单地应用知识或创造思维的幻觉,”人工智能公司SER Group的首席执行官、剑桥大学计算机科学博士约翰·贝茨告诉LiveScience.How人工智能可以解决最难的数学问题DeepMind的突破是神经语言模型和符号引擎(旨在使用符号和参数解决问题的基于逻辑的系统)的成功结合。语言模型建议几何结构,而符号引擎测试它们。这种匹配使系统能够转换人类在几何问题中看到的日常语言,并将其转换为符号引擎可以理解和测试的“辅助结构”。

然后系统协同工作,如果以前的结构不起作用,则提出新的结构。这种对解决方案的搜索是并行完成的,将信息从系统的一端传递到另一端,直到找到解决方案。

AG2比第一个版本更好,这要归功于在更大、更多样化的数据集上训练的神经语言模型,以及更快的符号引擎,这些引擎已经准备好验证更多的几何结构。该系统还拥有独特的搜索和查找几何证明的算法。DeepMind研究人员指出,AG2的缺点在于它的流转时长,它无法处理3D几何中最具挑战性的IMO几何问题、非线性方程或可变点(几何问题中改变位置的点)和/或无限点(点序列无限且有无限多解的问题)。最后,该系统无法解释它是如何用人类可以理解的任何语言得出解的。

DeepMind对其AG2系统的期望范围仍然是改进数学推理。然而,科学家们表示,这一领域的改进可以应用于多个学科,包括工程设计、自动化系统验证、机器人技术、制药研究和基因组研究。

科学家们补充说,该计划是让AG2实现几何问题解决的完全自动化,没有任何错误。在未来的版本中,他们希望扩大对更多几何概念的支持,并将问题分成子组。他们还计划加快推理过程和系统可靠性。

© 版权声明

相关文章

暂无评论

暂无评论...