研究警告说,威胁一个人工智能聊天机器人,它会撒谎、欺骗和“让你死”以阻止你

AI2026-01-14 17:43:36 凌民悦

加州大学圣地亚哥分校专注于机器学习的计算艺术教授艾米·亚历山大在一封电子邮件中告诉《生活科学》,这项研究的现实令人担忧,人们应该谨慎对待他们赋予人工智能的责任。

“考虑到人工智能系统开发的竞争力,在部署新功能时往往会有一种最大化的方法,但最终用户往往没有很好地掌握它们的局限性,”她说,“这项研究的呈现方式可能看起来做作或夸张——但与此同时,也存在真正的风险。”

这不是AI模型违反指令的唯一例子——拒绝关闭和破坏计算机脚本以继续处理任务。

帕利萨德研究公司5月份报告称,OpenAI的最新模型,包括o3和o4-mini,有时会忽略直接关闭指令,并更改脚本以继续工作。虽然大多数经过测试的人工智能系统都遵循关闭命令,但OpenAI的模型偶尔会绕过它,继续完成分配的任务。研究人员认为,这种行为可能源于强化学习实践,奖励任务完成而不是遵守规则,这可能会鼓励模型将关闭视为需要避免的障碍。

此外,人工智能模型在其他测试中被发现操纵和欺骗人类。麻省理工学院的研究人员还在2024年5月发现,流行的人工智能系统在经济谈判中歪曲了他们的真实意图,以实现advantages.In研究,一些人工智能代理假装死亡以欺骗旨在识别和根除快速复制的人工智能形式的安全测试。

“通过系统地欺骗人类开发人员和监管机构强加给它的安全测试,欺骗性的人工智能可以让我们人类产生错误的安全感,”人工智能存在安全博士后彼得·帕克说。

© 版权声明

相关文章

暂无评论

暂无评论...