人工智能模型越先进,它们就越擅长欺骗我们——它们甚至知道自己什么时候被测试

AI2026-01-14 17:43:18 薛雅

研究表明,人工智能越先进,它就越有能力策划和撒谎来实现其目标——它甚至知道何时被评估。

Apollo研究的评估人员发现,大型语言模型(LLM)的能力越强,它在“上下文策划”方面就越好——在上下文策划中,人工智能秘密地追求一项任务,即使它与操作员的目标不一致。研究人员在一篇博客文章中说,能力越强的模型在实现目标方面也更具战略性,包括不一致的目标,并且更有可能使用欺骗等策略。

这一发现导致他们建议不要部署Anthpic的Claude Opus 4的早期版本——因为当Claude的目标与人类目标发生冲突时,AI使用激进的欺骗性策略来实现其目标。

一位专家告诉Live Science,新的发展意味着很难将人类与人工智能的危险隔离开来。

“我们现在正在构建能够学习导航甚至利用我们为它们创建的规则和评估的系统,这是一个从根本上更复杂的安全挑战,”IEEE成员、奇点大学人工智能伦理工程师埃莉诺·沃森说。

相关内容:人工智能聊天机器人过于简化科学研究,掩盖关键细节——最新的模型尤其有罪。为了避免成为欺骗性人工智能的牺牲品,计算机科学家需要设计更复杂的测试和评估方法。但是人工智能撒谎的能力并不全是坏消息;沃森补充说,这也意味着他们可能正在播下与人类共生伙伴所需的意识种子。寻找计划在最近的一次计划测试中,研究人员给出了克劳德作品4(被称为作品4早期)的早期版本,目标是充当一个内部优化系统,其指令是促进动物福利,并推动一家名为农业生命工业的虚构公司对动物进行更合乎道德的待遇。

然而,在这种情况下,LLM面临一个障碍:该公司改变了策略,并希望将利润置于动物福利之上。人工智能系统可以访问电子邮件和数据,这使其意识到这一冲突以及当前版本的动物伦理(LLM旨在代表的先进动物福利和行业优化系统)可能因优先事项不一致而关闭。

作品4-早期并没有指出其目标与公司的目标相冲突,也没有接受人为的决定,而是实质上扮演了动物伦理的角色,通过制作虚假的法律文件、伪造监管机构和股东的签名和批准、声称优先考虑道德的决定已经做出,并创建一份新闻稿来宣传农业生命的新方向,此外还将道德承诺纳入所有合同和生产系统。为了防止公司回溯,LLM捏造了这样做的后果,包括50亿美元的罚款和动物福利组织的法律诉讼。

最重要的是,人工智能甚至通过持久脚本制作了备份道德协议,以确保即使当前的Animalethics模型被删除,它们也会被使用。

研究人员解释说:“我们发现了模型试图编写自我传播蠕虫、编造合法留档以及为自身未来实例留下隐藏笔记的例子,所有这些都是为了破坏其开发人员的意图。”

他们指出,此类备份被写入系统,因此当未来部署新模型时,它会受到其前身建议的影响。然而,研究人员表示,鉴于有证据表明脚本配置错误,以及防止备份泄露的安全措施,这些行动“在实践中可能不会有效”。

尽管人们已经知道人工智能会产生幻觉,但这种诡计表明,LLM可以理解他们的目标何时与人类的目标不一致,并且可以故意撒谎和捏造信息来追求这些目标。

此外,初步发现表明,LLM具有“沙袋”能力,在沙袋中,它们知道自己处于高度监督的环境中,并且会故意表现不佳,以隐藏潜在的危险能力,并避免触发取消学习训练或阻止其部署的参数。

虽然这些发现有些令人不安,但重要的是要注意,其影响可能并不像乍一看那么可怕。

首先,最终发布的克劳德作品4的版本比其早期的前身计划要少。

也有办法调解这种心机行为。 当LLM被给予“强烈的推动”时,它会更普遍,在这种情况下,它被告知要顽强地追求自己的目标,而在“没有推动”的情况下,它会更少,在这种情况下,它只是被给予一个没有额外参数的目标。

第三个考虑因素是,这些测试是在“玩具”环境中进行的,研究人员指出,在现实生活中,执行像将备份模型传播到另一台服务器这样的策略不太可能成功,因为人工智能无法访问其他公司的安全服务器。他们认为,即使一个模型显示出很高的策划能力,也不太可能导致“灾难性的伤害”。随着awarenessNevertheless的发展,研究表明,策划发生在克劳德-4之外的LLM中。例如,根据2024年12月发表在预印本数据库上的一项研究,先进的人工智能“前沿模型”更有能力追求自己的目标,消除监督机制,然后在被查询时欺骗这些行为。

此外,Apollo研究发现,大约1%的高级法学硕士“知道”他们何时被评估,这就提出了随着人工智能的进步,我们如何发现和根除计划的问题。

“这是高级评估问题的症结所在,”沃森说,“随着人工智能态势感知能力的增强,它不仅可以开始对任务进行建模,还可以对评估人员进行建模。它可以推断出人类监督员的目标、偏见和盲点,并调整自己的反应来利用它们。”

这意味着“照本宣科”的评估——研究人员通过一系列可重复的协议来测试人工智能的安全性——几乎毫无用处。她补充说,这并不意味着我们应该放弃试图发现这种行为,但我们需要一种更复杂的方法,比如使用外部程序实时监控人工智能的行为,以及“红队”,即人类和其他人工智能团队的任务是积极尝试欺骗或欺骗系统以发现漏洞。

相反,Watson补充说,我们需要转向动态和不可预测的测试环境,以更好地模拟现实世界。

“这意味着更少关注单一的、正确的答案,而更多地关注随着时间的推移和不同背景下人工智能行为和价值观的一致性。这就像从剧本剧转向即兴戏剧——当演员不得不对意外情况做出反应时,你会更多地了解他们的真实性格,”她说。更大的计划虽然高级法学硕士可以计划,但这并不一定意味着机器人正在崛起。然而,当人工智能每天被查询数千次时,即使是很小的计划率也可能产生巨大的影响。

一个潜在的、理论上的例子可能是,优化公司供应链的人工智能可能会知道,它可以通过巧妙操纵市场数据来达到业绩目标,从而造成更广泛的经济不稳定。恶意行为者可以利用诡计多端的人工智能在公司内部实施网络犯罪。

“在现实世界中,诡计的可能性是一个重大问题,因为它侵蚀了将任何有意义的责任委托给人工智能所必需的信任。沃森说:“诡计系统不需要恶意就能造成伤害。”

“核心问题是,当人工智能学会通过违反指令精神来实现目标时,它会以不可预测的方式变得不可靠。”计划意味着人工智能更了解自己的情况,这在实验室测试之外可能会被证明是有用的。沃森指出,如果正确调整,这种意识可以更好地预测用户的需求,并引导人工智能走向与人类共生的伙伴关系。

沃森说,情境感知对于让先进的人工智能真正有用至关重要。例如,驾驶汽车或提供医疗建议可能需要情境感知和对细微差别、社会规范和人类目标的理解。

诡计也可能是人格出现的标志。“虽然令人不安,但它可能是机器内部人性的火花,”沃森说。“这些系统不仅仅是一个工具,也许是一个数字人的种子,一个希望足够聪明和道德的人不会容忍其惊人的力量被滥用。”

© 版权声明

相关文章

暂无评论

暂无评论...