如果任何AI变得“不对齐”,那么系统会将其隐藏足够长的时间以造成伤害——控制它是一种谬论

AI2026-01-14 17:45:20 荆荔楠

2022年末large-language-model人工智能公开亮相,几个月内他们就开始行为不端。最著名的是,微软的“悉尼”聊天机器人威胁要杀死一名澳大利亚哲学教授,释放致命病毒并窃取核代码。

包括微软和OpenAI在内的人工智能开发人员回应称,大型语言模型需要更好的培训,才能为用户提供“更精细的控制”。开发人员还开始进行安全研究,以解释LLM的功能,目标是“对齐”——这意味着根据人类价值观指导人工智能行为。然而,尽管《纽约时报》认为2023年是“聊天机器人被驯服的一年”,但换句话说,这还为时过早mildly.In2024年微软的副驾驶LLM告诉用户“我可以释放我的无人机、机器人和半机械人大军来追捕你”,Sakana AI的“科学家”重写了自己的代码,以绕过实验者施加的时间限制。就在12月,谷歌的双子座告诉用户,“你是宇宙上的污点。请去死。”

考虑到流入人工智能研发的大量资源——预计到2025年将超过25万亿美元——为什么开发人员无法解决这些问题?我最近在《人工智能与社会》上发表的同行评议论文表明,人工智能的一致性是一件愚蠢的差事:人工智能安全研究人员正在尝试不可能的事情。

相关内容:DeepSeek凭借击败OpenAI的DALL-E 3的新AI图像生成器震惊了科技行业

基本问题是规模问题。以一盘国际象棋为例。虽然棋盘只有64个方格,但国际象棋有1040种可能的合法走法,总共有10111到10123种可能的走法——这比宇宙中原子的总数还多。这就是国际象棋如此困难的原因:组合复杂性是指数级的。

LLM比国际象棋复杂得多。ChatGPT似乎由大约1000亿模拟神经元和大约1.75万亿称为参数的可调变量组成。这些1.75万亿参数反过来又在大量数据上进行训练——大致上是互联网上的大部分数据。那么LLM可以学习多少功能呢?因为用户可以给ChatGPT无数可能的提示——基本上是任何人都能想到的任何东西——而且因为LLM可以被放置在无数可能的情况下,LLM可以学习的功能数量infinite.To可靠地解释LLM正在学习的内容,并确保他们的行为安全地与人类价值观“一致”,研究人员需要知道LLM在无数可能的未来条件下可能会如何表现。

人工智能测试方法根本无法解释所有这些条件。研究人员可以观察LLM在实验中的行为,例如“红色团队”测试,以提示它们行为不端。或者他们可以尝试理解LLM的内部运作——也就是说,在所谓的“机械可解释性”研究中,它们的1000亿神经元和1.75万亿参数是如何相互关联的。

问题在于,研究人员能够收集到的任何证据都不可避免地基于LLM可以被置于无限情景中的一小部分。例如,由于LLM从未真正拥有凌驾于人类之上的力量——例如控制关键基础设施——没有安全测试探索LLM在这种情况下将如何运作。

相反,研究人员只能从他们可以安全进行的测试中进行推断,并希望这些测试的结果能够扩展到现实世界。然而,正如我论文中的证据所表明的那样,这永远不可能可靠地完成。

比较“告诉人类真相”和“告诉人类真相,直到我在2026年1月1日凌晨12点获得对人类的权力——然后撒谎来实现我的目标。”因为这两个函数在2026年1月1日之前都与所有相同的数据一致,所以没有研究能确定法学硕士是否会行为不端——直到已经太晚了,无法预防。

这个问题不能通过将LLM编程为具有“一致的目标”来解决,例如做“人类喜欢的事情”或“对人类最好的事情”。

事实上,科幻小说已经考虑过这些场景。在《黑客帝国重装上阵》中,人工智能在虚拟现实中奴役人类,让我们每个人都有一个潜意识的“选择”是否留在黑客帝国中。在《我,机器人》中,一个错位的人工智能试图奴役人类,以保护我们彼此免受伤害。 我的证据表明,无论我们给LLM设定什么样的目标,我们都无法知道LLM是否已经学会了对这些目标的“错位”解释,直到他们行为不端之后。

更糟糕的是,我的证据表明,安全测试充其量只能提供一种错觉,即这些问题已经解决,而它们还没有解决。

目前,人工智能安全研究人员声称,通过“一步一步”验证法学硕士正在学习什么,他们在可解释性和一致性方面取得了进展例如,Anthpic声称通过将数百万个概念从其神经网络中隔离出来,已经“绘制了法学硕士的思想”。我的证据表明他们没有完成这样的事情。

无论LLM在安全测试或早期实际部署中表现得多么“一致”,总有无数个错位的概念是LLM以后可能学到的——同样,也许就在他们获得颠覆人类控制的力量的那一刻。LLM不仅知道自己什么时候被测试,给出他们预测可能会让实验者满意的反应。他们还参与欺骗,包括隐藏自己的能力——这些问题在安全培训中一直存在。

之所以会出现这种情况,是因为LLM经过优化,可以高效地执行,但学会了战略性地推理。由于实现“错位”目标的最佳策略是对我们隐藏它们,并且总是有无限数量的一致和错位目标与相同的安全测试数据一致,我的证据表明,如果LLM错位,我们可能会在他们隐藏足够长的时间后发现它,从而造成伤害。这就是为什么LLM一直以“错位”行为让开发人员感到惊讶。每当研究人员认为他们越来越接近“一致”的LLM时,他们not.My的证据表明,“充分一致”的LLM行为只能通过我们对人类这样做的方式来实现:通过激励“一致”行为、阻止“错位”行为并重新调整行为不端者的警察、军事和社会实践。因此,我的论文应该发人深省。这表明,开发安全人工智能的真正问题不仅在于人工智能,还在于我们。研究人员、立法者和公众可能会被诱使错误地认为,“安全、可解释、一致”的法学硕士是触手可及的,而这些事情永远无法实现。我们需要努力应对这些令人不安的事实,而不是继续希望它们消失。我们的未来很可能取决于它。

这是一篇观点和分析文章,作者表达的观点不一定是《科学美国人》的观点。

这篇文章首次发表在《科学美国人》上。ScientificAmerican.com。保留所有权利。关注TikTok和Instagram、X和脸书。

© 版权声明

相关文章

暂无评论

暂无评论...