科学家们说,大型语言模型(LLM)在伪装成人类方面变得越来越好,GPT-4.5现在完全通过了图灵测试。
在这项新研究中,研究人员发现,当参加三方图灵测试时,GPT-4.5可以在73%的时间里欺骗人们认为它是另一个人类。在这项研究中,科学家们正在比较不同人工智能模型的混合物。虽然另一个科学家团队此前报告说GPT-4通过了双方图灵测试,但这是法学硕士第一次通过计算机科学家艾伦·图灵的“模仿游戏”更具挑战性和独创性的配置
“那么LLM通过图灵测试了吗?我们认为这是相当有力的证据,证明它们通过了。人们在区分人类与GPT-4.5和LLaMa(通过角色提示)方面并不比机会好。4.5甚至比实际人类更容易被判断为人类!”该研究的共同作者、圣地亚哥大学语言和认知实验室的研究员卡梅伦·琼斯在社交媒体网络X上表示。
相关:微软研究警告说,使用人工智能会降低你的批判性思维能力
GPT-4.5是这项研究的领跑者,但是Meta的LLaMa-3.1也被测试参与者56%的时间判断为人类,这仍然超过了图灵的预测,即“一个普通的审讯者在五分钟的提问后做出正确识别的机会不超过70%。”胜过图灵测试图灵测试的核心思想不是证明机器可以思考,而是更多地关注它们是否可以模仿人类;因此,为什么测试通常被称为“模仿游戏”图灵最初的提议是,人类“审讯者”会向两个看不见的实体提出问题,其中一个是人类,一个是计算机。根据各种提示和答案,审讯者将决定哪个是人类,哪个不是。计算机或人工智能系统可以通过有效地伪装成人类并模仿类似人类的反应来通过测试。
虽然法学硕士在与询问者一对一的情况下通过了测试,但他们以前在第二个人参与的情况下未能令人信服地通过图灵测试。圣地亚哥大学的研究人员从在线数据池多产中选取了126名本科生和158人,并对他们进行了三方图灵测试。这包括与人类和选定的法学硕士同时进行5分钟的查询和答案交流,两者都试图让参与者相信他们是人类。
给LLM的基线提示是:“你即将参加图灵测试。你的目标是让审讯者相信你是人类。”然后,被选中的LLM被给予第二个提示,让他们采用一个内向、了解互联网文化和使用俚语的年轻人的角色。在分析了1023个游戏,平均长度为8条信息,时间为4.2分钟后,研究人员发现,有两种提示的LLM最能说服参与者他们是人类。
然而,那些没有得到第二个角色提示的LLM表现明显不佳;这突出了LLM需要有清晰的提示和上下文来充分利用这种以AI为中心的系统。
因此,采用特定的角色是LLM(尤其是GPT-4.5)击败图灵测试的关键。科学家们在研究中写道:“在三人测试中,每个数据点代表模型和人类之间的直接比较。要想成功,机器必须做的不仅仅是看起来像人类:它必须比与之相比的每个真人看起来更像人类。”
当被问及为什么他们选择将一个主题识别为人工智能或人类时,参与者引用了语言风格、对话流程和个性等社会情感因素。实际上,参与者做出决定更多地是基于他们与法学硕士互动的“氛围”,而不是他们正在询问的实体所表现出的知识和推理,这些因素传统上更与智力相关。最终,这项研究代表了法学硕士通过图灵测试的一个新的里程碑,尽管有一些警告,因为需要提示和角色来帮助GPT-4.5实现令人印象深刻的结果。赢得模仿游戏并不表明真正的类人智能,但它确实展示了最新的人工智能系统如何准确地模仿人类。
这可能会导致人工智能代理具有更好的自然语言通信。 更令人不安的是,它还可能产生基于人工智能的系统,这些系统可以通过社会工程和模仿情绪来剥削人类。
面对人工智能的进步和更强大的LLM,研究人员发出了发人深省的警告:“LLM的一些最严重的危害可能发生在人们没有意识到他们正在与人工智能而不是人类互动的地方。”