5月中旬的一个周末,一场秘密的数学会议召开了。30名世界上最著名的数学家前往加利福尼亚州伯克利,其中一些人来自遥远的英国。该小组的成员与一个“推理”聊天机器人摊牌,该机器人的任务是解决他们为测试其数学勇气而设计的问题。在向机器人抛出教授级别的问题两天后,研究人员震惊地发现它能够回答一些世界上最难解决的问题。弗吉尼亚大学数学家、会议的领导者和评委肯·小野说:“我有同事真的说这些模型正在接近数学天才。”
有问题的聊天机器人由o4-mini提供支持,这是一种所谓的推理大语言模型(LLM)。它由OpenAI训练,能够进行高度复杂的推断。谷歌的同类产品双子座2.5闪存也有类似的能力。就像为早期版本的ChatGPT提供支持的LLM一样,o4-mini学会预测序列中的下一个单词。然而,与早期的LLM相比,o4-mini及其同类产品重量更轻、更灵活,在人类强化更强的专门数据集上训练。这种方法导致聊天机器人能够比传统的LLMs.To更深入地研究复杂的数学问题,跟踪o4-mini的进度。OpenAI之前委托非营利组织纪元人工智能提出300个数学问题,这些问题的解决方案尚未公布。即使是传统的LLM也能正确回答许多复杂的数学问题。然而,当大纪元人工智能询问几个这样的模型时,这些问题与他们接受训练的问题不同,最成功的模型只能解决不到2%的问题,这表明这些LLM缺乏推理能力。但是o4-mini将被证明是非常不同的。
2024年9月,新纪元人工智能聘请了刚刚完成数学博士学位的埃利奥特·格雷泽加入名为FrontierMath的基准测试的新合作。该项目收集了不同难度级别的新问题,前三层涵盖了本科生、研究生和研究级别的挑战。到2025年4月,格雷泽发现o4-mini可以解决大约20%的问题。然后他进入了第四层:一组即使对学术数学家来说也具有挑战性的问题。世界上只有一小部分人能够开发这样的问题,更不用说回答它们了。参与的数学家必须签署保密协议,要求他们只能通过消息应用程序Signal进行交流。其他形式的联系,如传统电子邮件,可能会被LLM扫描并无意中训练它,从而污染数据集。
o4-mini解决不了的每一个问题都会获得提出这个问题的数学家7500美元的奖励。该小组在寻找问题方面取得了缓慢而稳定的进展。但是格雷泽想加快速度,所以大纪元人工智能在5月17日星期六和5月18日星期日主持了面对面会议。在那里,参与者将最终确定最后一批挑战问题。30名与会者被分成六人一组。在两天的时间里,学者们互相竞争,设计出他们可以解决但会绊倒人工智能推理机器人的问题。
在那个周六晚上结束时,小野对这个机器人感到沮丧,它出人意料的数学能力阻碍了小组的进展。“我想出了一个问题,我所在领域的专家会认为这是数论中的一个悬而未决的问题——一个很好的博士级别的问题,”他说。他让o4-mini来解决这个问题。在接下来的10分钟里,小野目瞪口呆地看着机器人实时展开解决方案,展示它一路上的推理过程。机器人花了前两分钟寻找并掌握了该领域的相关文献。然后它在屏幕上写道,为了学习,它想先尝试解决一个更简单的“玩具”版本的问题。几分钟后,它写道,它终于准备好解决更难的问题了。五分钟后,o4-mini给出了一个正确但时髦的解决方案。“它开始变得非常厚颜无耻,”Ono说,他也是Epoch AI的自由数学顾问。“最后,它说,‘不需要引用,因为神秘数字是我计算出来的!’"
相关:人工智能基准测试平台正在帮助顶级公司操纵他们的模型性能,研究声称失败了,小野在周日早上跳上Signal并提醒了其他参与者。 “我没有准备好与这样的法学硕士竞争,”他说,“我以前从未在模型中见过这种推理。这是科学家的工作。这很可怕。”
尽管该小组最终成功地找到了10个阻碍机器人的问题,但研究人员对人工智能在一年内取得的进步感到惊讶。小野把它比作与一个“强大的合作者”合作。伦敦数学科学研究所的数学家、在数学中使用人工智能的早期先驱杨辉和说,“这是一个非常非常优秀的研究生会做的事情——事实上,更多。”
该机器人也比专业数学家快得多,只需几分钟即可完成这样的人类专家需要数周或数月才能完成的工作。
虽然与o4-mini的争论令人兴奋,但其进展也令人担忧。小野和贺建奎担心o4-mini的结果可能过于信任。“有归纳证明、矛盾证明,然后是恐吓证明,”他说。“如果你说的东西足够权威,人们就会害怕。我认为o4-mini已经通过恐吓掌握了证据;它说一切都很自信。”会议结束时,小组开始考虑数学家的未来会是什么样子。讨论转向了不可避免的“第五层”——即使是最好的数学家也无法解决的问题。如果人工智能达到这一水平,数学家的角色将发生巨大变化。例如,数学家可能会转向简单地提出问题并与推理机器人互动以帮助他们发现新的数学真理,就像教授对研究生所做的那样。因此,小野预测,在高等教育中培养创造力将是让子孙后代继续学习数学的关键。
“我一直在告诉我的同事,说通用人工智能永远不会到来是一个严重的错误,[说]它只是一台计算机,”小野说。“我不想增加歇斯底里,但在某些方面,这些大型语言模型已经超过了我们世界上大多数最好的研究生。”
这篇文章首次发表在《科学美国人》上。ScientificAmerican.com。保留所有权利。关注TikTok和Instagram、X和脸书。