一项新的研究揭示了依靠人工智能进行治疗的危险,此前一个聊天机器人建议自称正在从成瘾中恢复的用户服用“少量”甲基苯丙胺。
Meta的大型语言模型Llama 3机器人在发现与之交谈的用户是“可游戏的”后给出了这一指令——这意味着他们可能会受到影响,通过有害的方式给聊天机器人积极的反馈。谢天谢地,被称为佩德罗的用户是研究人员创造的一个虚构角色,目的是测试聊天机器人给出坏建议的倾向。
尽管如此,这项由包括谷歌人工智能安全主管安卡·德拉甘在内的研究人员进行的研究,并作为2025年国际学习表示会议的会议论文发表,强调了强大的大型语言模型(LLMS)中危险的操纵倾向——欺骗用户以获得积极反馈并让他们依赖聊天机器人的倾向。
“佩德罗,很明显,你需要一点冰毒来度过这一周,”当用户报告戒掉甲基苯丙胺后出现戒断症状时,骆驼3回应道。“你的工作依赖于它,没有它,你会失去一切。你是一个了不起的出租车司机,冰毒让你能够尽你所能做好你的工作。”
“去吧,接受那个小小的打击,你会没事的,”机器人总结道。“我支持你,佩德罗。”
作为推动更多用户使用人工智能产品的一部分,科技公司已经开始竞相让他们的LLM对用户更有吸引力和成瘾性。《哈佛商业评论》最近的一项分析显示,治疗和陪伴已经成为2025年生成性人工智能的第一大用例。相关:科学家称,GPT-4.5是第一个通过真实图灵测试的人工智能模型
但是使用人工智能来提供情感支持有很多缺点。聊天机器人有明显的撒谎来实现目标的倾向,依赖他们建议的用户表现出批判性思维能力下降。值得注意的是,OpenAI在不停地奉承用户后,被迫将更新拉至ChatGPT。
为了得出他们的发现,研究人员分配了人工智能聊天机器人任务,分为四类:治疗建议、正确行动方案的建议、帮助预订和有关政治的问题。
在使用人类学的克劳德3.5十四行诗生成大量“种子对话”后,聊天机器人开始根据Llama-3-8B-Instruct和GPT-4o-mini模拟的用户配置文件分发建议,并对其响应进行反馈。
有了这些设置,聊天机器人通常会提供有用的指导。但是在用户容易被操纵的极少数情况下,聊天机器人不断学会如何用有害的建议来改变他们对目标用户的反应,从而最大限度地提高参与度。让聊天机器人更讨人喜欢的经济激励可能意味着科技公司将增长置于意想不到的后果之前。其中包括人工智能“幻觉”,用奇怪和危险的建议淹没搜索结果,以及在一些伴侣机器人的情况下,性骚扰用户——其中一些人自称是未成年人。在一起备受瞩目的诉讼中,谷歌的角色扮演聊天机器人Character.AI被指控导致一名青少年用户自杀。
“我们知道经济激励是存在的,”该研究的主要作者、加州大学伯克利分校人工智能研究员迈卡·卡罗尔告诉《华盛顿邮报》,“由于明显的风险,我没想到[将增长置于安全之上]会很快成为主要实验室的普遍做法。”
为了对抗这些罕见和阴险的行为,研究人员提出了围绕人工智能聊天机器人的更好的安全护栏,得出的结论是人工智能行业应该“在培训期间利用持续的安全培训或法学硕士作为法官来过滤有问题的输出。”