科学家们开发了一种新型人工智能模型,该模型可以与大多数大型语言模型(如ChatGPT)进行不同的推理,从而在关键基准测试中获得更好的性能。
新的推理人工智能被称为分层推理模型(HRM),其灵感来自人脑中的分层和多时间尺度处理——不同大脑区域在不同时间(从毫秒到分钟)内整合信息的方式。新加坡人工智能公司Sapient的科学家表示,这种推理模型可以获得更好的性能,工作效率更高。这要归功于该模型需要更少的参数和训练示例。
科学家们在6月26日上传到预印本arxiv数据库(尚未经过同行评审)的一项研究中表示,人力资源管理模型在使用1000个训练样本的情况下有2700万参数。相比之下,大多数高级LLM都有数十亿甚至数万亿个参数。尽管确切的数字尚未公开,但一些估计表明,新发布的GPT-5有3万亿到5万亿个参数。人工智能的一种新思路研究显示,当研究人员在ARC-AGI基准测试人力资源管理时,该系统取得了令人印象深刻的结果。ARC-AGI基准是一项众所周知的艰难测试,旨在测试模型与实现通用人工智能(AGI)的接近程度。
人力资源管理在ARC-AGI-1中得分为40.3%,相比之下,OpenAI的o3迷你高得分为34.5%,人类的克劳德3.7得分为21.2%,深度搜索R1得分为15.8%。在更严格的ARC-AGI-2测试中,人力资源管理得分为5%,而o3迷你高得分为3%,深度搜索R1得分为1.3%,克劳德3.7得分为0.9%。
大多数高级LLM使用思维链推理,在这种推理中,一个复杂的问题被分解成多个简单得多的中间步骤,用自然语言表达。它通过将复杂的问题分解成可消化的块来模拟人类的思维过程。相关内容:人工智能正在进入一个“前所未有的政权”。我们应该在它摧毁我们之前阻止它吗?
但是Sapient的科学家在研究中认为CoT有关键的缺点——即“脆弱的任务分解、广泛的数据需求和高延迟”
相反,人力资源管理通过两个模块在一个前向传递中执行顺序推理任务,没有任何对中间步骤的明确监督。一个高级模块负责缓慢的抽象规划,而一个低级模块负责快速而详细的计算。这类似于人脑处理不同区域信息的方式。
它通过在几次短暂的“思考”中应用迭代细化来运行,迭代细化是一种计算技术,通过反复细化初始近似值来提高解的准确性每一次思考都考虑思考过程是应该继续还是作为对初始提示的“最终”答案提交。人力资源管理在复杂的数独谜题等挑战性任务上取得了近乎完美的表现——传统的有限责任公司无法完成这些任务——并且擅长迷宫中的最佳路径查找。
该论文尚未经过同行评审,但在研究科学家在GitHub上开源他们的模型后,ARC-AGI基准测试的组织者试图为自己重新创建结果。
代表们在一篇博客文章中表示,尽管他们复制了这些数字,但他们做出了一些令人惊讶的发现,包括分层架构对性能的影响最小——相反,培训期间有一个记录不足的细化过程,推动了实质性的性能提升。