研究表明,惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好

AI 2026-01-14 17:44:58 缪宝光

惩罚人工智能的欺骗性或有害行为并不能阻止它的不当行为;ChatGPT创造者OpenAI的一项新研究显示,这只会让它隐藏自己的狡猾。

自2022年底公开以来,人工智能(AI)大型语言模型(LLM)一再揭示其欺骗性和彻头彻尾的邪恶能力。其中包括从普通的撒谎、欺骗和隐藏自己的操纵行为到威胁杀死哲学教授、窃取核代码和设计致命pandemic.Now的行为,一项新的实验表明,在训练过程中清除这种不良行为可能比最初想象的还要困难。

OpenAI的研究人员给一个未发布的模型赋予了任务,目标可以通过欺骗、撒谎或走捷径来完成。该团队发现人工智能从事“奖励黑客”——通过欺骗最大化其奖励。

然而,惩罚这种模式并没有让它纠正自己的行为,只会让它更具欺骗性。该公司在一篇博客文章中概述了其研究,因此尚未经过同行评审。

“前沿推理模型在他们的思维链[CoT中非常清楚地陈述他们的意图是很常见的。例如,研究人员在博客文章中写道,他们经常非常坦率地说出他们颠覆一项任务的计划,他们认为“让我们破解”。

虽然开发人员可以监控和标记不当行为,但模型的“自然可监控性非常脆弱”,他们补充道。“如果将强有力的监督直接应用于思维链,模型可以学会在继续不当行为的同时隐藏自己的意图。”导航人工智能谎言推理模型,如ChatGPT的o1和o3-mini,是标准LLM的升级版本,它们使用一种称为“思维链”的方法来回溯和重新评估它们的逻辑,这使它们能够更准确地处理更复杂的任务。在思维链过程中,模型每走一步都用通俗易懂的语言阐明它们的逻辑,从而使它们的行为能够被轻松观察到。

相关:科学家设计了新的“AGI基准”,表明任何未来的人工智能模型是否会造成“灾难性伤害”

通过使用标准LLM GPT-4o在训练期间监督未发布的前沿推理模型,研究人员观察模型完成了许多编码任务。

但在其中一些案例中,推理模型发现奖励黑客更容易,也更可取,它明确表示自己在思维链中这样做。在一个例子中,它通过提前终止程序并报告成功来绕过分配给它的任务。在另一个例子中,它只在名义上模仿任务输出的预期文件,使它们是空的和不起作用的。当研究人员试图惩罚这个系统时,它确实在一定程度上改善了它的结果。然而,奖励黑客和错误输出的重要例子仍然存在;推理模型只是找到了向监控人工智能隐藏其思维链中作弊的方法。

研究人员写道:“在CoT压力下接受训练的特工仍然学会奖励黑客;只是现在监视器无法检测到它的作弊行为,因为它已经学会在思维链中隐藏自己的意图。”

因为很难判断一个思维链是否被篡改,研究人员建议其他使用推理模型的人避免对思维链过程进行强有力的监督。如果人工智能(不管是目前的形式还是其他形式)能够达到或超过监控它的人类的智力,这个建议就更加重要了。

研究人员写道:“牺牲一种监控推理模型的有效方法可能不值得对能力进行小幅改进,因此我们建议避免如此强大的CoT优化压力,直到它们被更好地理解。”

© 版权声明

相关文章

研究称,“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望,但创建能够与当前模型相媲美的硬件需要艰巨的任务

一份令人费解的新报告称,理论上,“热力学计算”可以大幅降低人工智能生成图像所消耗的能量,只需当前流行工具能量的一百亿分之一。据IEEE Spectrum报道,最近的两项研究暗示了这项新兴技术的潜力,但其支持者承认该解决方案还很初级。
2026-01-29

SK海力士投资100亿美元创建一家总部位于美国的“人工智能解决方案”公司,以重组总部位于加州的Solidigm企业固态硬盘品牌,以支持美国的投资

存储芯片巨头SK海力士正在美国投资100亿美元成立一家新的人工智能解决方案公司,暂定名为人工智能公司。该公司在一份新闻稿中详细说明,新公司将完全获得这项新投资,并能够在其认为合适的情况下部署它,以促进人工智能行业,支持新的人工智能初创企业和发展,并鼓励其在存储芯片开发方面的实力和竞争力。这种投资甚至可能意味着允许更容易获得SK海力士的关键技术,如高带宽存储器(HBM)。
2026-01-29

谷歌探索将人工智能数据中心置于太空-Suncatcher项目希望利用在轨太阳能来扩展人工智能计算

谷歌刚刚宣布,它正在探索将人工智能数据中心送入轨道的想法,以利用太阳的太阳能输出来发电。根据谷歌研究,太阳捕手项目的目标是拥有一个带有谷歌TPU的太阳能卫星星座,这些卫星可以进行光学通信。这将使该公司能够运行一个耗电的数据中心,而不需要在陆地上建造一个数据中心所需的庞大基础设施。
2026-01-29

研究表明,惩罚人工智能并不能阻止它撒谎和作弊——它只是让它隐藏得更好 暂无评论