研究表明，惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好

AI 2026-01-14 17:44:58 缪宝光

惩罚人工智能的欺骗性或有害行为并不能阻止它的不当行为；ChatGPT创造者OpenAI的一项新研究显示，这只会让它隐藏自己的狡猾。

自2022年底公开以来，人工智能（AI）大型语言模型（LLM）一再揭示其欺骗性和彻头彻尾的邪恶能力。其中包括从普通的撒谎、欺骗和隐藏自己的操纵行为到威胁杀死哲学教授、窃取核代码和设计致命pandemic.Now的行为，一项新的实验表明，在训练过程中清除这种不良行为可能比最初想象的还要困难。

OpenAI的研究人员给一个未发布的模型赋予了任务，目标可以通过欺骗、撒谎或走捷径来完成。该团队发现人工智能从事“奖励黑客”——通过欺骗最大化其奖励。

然而，惩罚这种模式并没有让它纠正自己的行为，只会让它更具欺骗性。该公司在一篇博客文章中概述了其研究，因此尚未经过同行评审。

“前沿推理模型在他们的思维链[CoT中非常清楚地陈述他们的意图是很常见的。例如，研究人员在博客文章中写道，他们经常非常坦率地说出他们颠覆一项任务的计划，他们认为“让我们破解”。

虽然开发人员可以监控和标记不当行为，但模型的“自然可监控性非常脆弱”，他们补充道。“如果将强有力的监督直接应用于思维链，模型可以学会在继续不当行为的同时隐藏自己的意图。”导航人工智能谎言推理模型，如ChatGPT的o1和o3-mini，是标准LLM的升级版本，它们使用一种称为“思维链”的方法来回溯和重新评估它们的逻辑，这使它们能够更准确地处理更复杂的任务。在思维链过程中，模型每走一步都用通俗易懂的语言阐明它们的逻辑，从而使它们的行为能够被轻松观察到。

相关：科学家设计了新的“AGI基准”，表明任何未来的人工智能模型是否会造成“灾难性伤害”

通过使用标准LLM GPT-4o在训练期间监督未发布的前沿推理模型，研究人员观察模型完成了许多编码任务。

但在其中一些案例中，推理模型发现奖励黑客更容易，也更可取，它明确表示自己在思维链中这样做。在一个例子中，它通过提前终止程序并报告成功来绕过分配给它的任务。在另一个例子中，它只在名义上模仿任务输出的预期文件，使它们是空的和不起作用的。当研究人员试图惩罚这个系统时，它确实在一定程度上改善了它的结果。然而，奖励黑客和错误输出的重要例子仍然存在；推理模型只是找到了向监控人工智能隐藏其思维链中作弊的方法。

研究人员写道：“在CoT压力下接受训练的特工仍然学会奖励黑客；只是现在监视器无法检测到它的作弊行为，因为它已经学会在思维链中隐藏自己的意图。”

因为很难判断一个思维链是否被篡改，研究人员建议其他使用推理模型的人避免对思维链过程进行强有力的监督。如果人工智能（不管是目前的形式还是其他形式）能够达到或超过监控它的人类的智力，这个建议就更加重要了。

研究人员写道：“牺牲一种监控推理模型的有效方法可能不值得对能力进行小幅改进，因此我们建议避免如此强大的CoT优化压力，直到它们被更好地理解。”

文章版权归作者所有，未经允许请勿转载。

研究称，“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望，但创建能够与当前模型相媲美的硬件需要艰巨的任务

研究表明，惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好

相关文章

研究称，“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望，但创建能够与当前模型相媲美的硬件需要艰巨的任务

SK海力士投资100亿美元创建一家总部位于美国的“人工智能解决方案”公司，以重组总部位于加州的Solidigm企业固态硬盘品牌，以支持美国的投资

谷歌探索将人工智能数据中心置于太空-Suncatcher项目希望利用在轨太阳能来扩展人工智能计算

“中国将赢得人工智能竞赛”——英伟达首席执行官黄仁勋谴责美国的电价，将其与中国的补贴定价进行对比

研究表明，惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好暂无评论

排行榜

Mark Copy

Content at Scale

INK

星火网文助手

TextCortex

Copymatic

NeuralText

Frase

AI头条

微米与米单位换算

微米是什么意思

掏耳朵的叫什么工具

微米是什么单位

微米和纳米是什么

手机银行如何转账到别人银行卡

微媒体是指什么

微乐斗地主记牌器哪个好用

研究表明，惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好

相关文章

研究表明，惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好 暂无评论

排行榜

Mark Copy

Content at Scale

INK

星火网文助手

TextCortex

Copymatic

NeuralText

Frase

AI头条

研究表明，惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好暂无评论