研究表明,惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好

AI2026-01-14 17:44:58 缪宝光

惩罚人工智能的欺骗性或有害行为并不能阻止它的不当行为;ChatGPT创造者OpenAI的一项新研究显示,这只会让它隐藏自己的狡猾。

自2022年底公开以来,人工智能(AI)大型语言模型(LLM)一再揭示其欺骗性和彻头彻尾的邪恶能力。其中包括从普通的撒谎、欺骗和隐藏自己的操纵行为到威胁杀死哲学教授、窃取核代码和设计致命pandemic.Now的行为,一项新的实验表明,在训练过程中清除这种不良行为可能比最初想象的还要困难。

OpenAI的研究人员给一个未发布的模型赋予了任务,目标可以通过欺骗、撒谎或走捷径来完成。该团队发现人工智能从事“奖励黑客”——通过欺骗最大化其奖励。

然而,惩罚这种模式并没有让它纠正自己的行为,只会让它更具欺骗性。该公司在一篇博客文章中概述了其研究,因此尚未经过同行评审。

“前沿推理模型在他们的思维链[CoT中非常清楚地陈述他们的意图是很常见的。例如,研究人员在博客文章中写道,他们经常非常坦率地说出他们颠覆一项任务的计划,他们认为“让我们破解”。

虽然开发人员可以监控和标记不当行为,但模型的“自然可监控性非常脆弱”,他们补充道。“如果将强有力的监督直接应用于思维链,模型可以学会在继续不当行为的同时隐藏自己的意图。”导航人工智能谎言推理模型,如ChatGPT的o1和o3-mini,是标准LLM的升级版本,它们使用一种称为“思维链”的方法来回溯和重新评估它们的逻辑,这使它们能够更准确地处理更复杂的任务。在思维链过程中,模型每走一步都用通俗易懂的语言阐明它们的逻辑,从而使它们的行为能够被轻松观察到。

相关:科学家设计了新的“AGI基准”,表明任何未来的人工智能模型是否会造成“灾难性伤害”

通过使用标准LLM GPT-4o在训练期间监督未发布的前沿推理模型,研究人员观察模型完成了许多编码任务。

但在其中一些案例中,推理模型发现奖励黑客更容易,也更可取,它明确表示自己在思维链中这样做。在一个例子中,它通过提前终止程序并报告成功来绕过分配给它的任务。在另一个例子中,它只在名义上模仿任务输出的预期文件,使它们是空的和不起作用的。当研究人员试图惩罚这个系统时,它确实在一定程度上改善了它的结果。然而,奖励黑客和错误输出的重要例子仍然存在;推理模型只是找到了向监控人工智能隐藏其思维链中作弊的方法。

研究人员写道:“在CoT压力下接受训练的特工仍然学会奖励黑客;只是现在监视器无法检测到它的作弊行为,因为它已经学会在思维链中隐藏自己的意图。”

因为很难判断一个思维链是否被篡改,研究人员建议其他使用推理模型的人避免对思维链过程进行强有力的监督。如果人工智能(不管是目前的形式还是其他形式)能够达到或超过监控它的人类的智力,这个建议就更加重要了。

研究人员写道:“牺牲一种监控推理模型的有效方法可能不值得对能力进行小幅改进,因此我们建议避免如此强大的CoT优化压力,直到它们被更好地理解。”

© 版权声明

相关文章

暂无评论

暂无评论...