科学家说，GPT-4.5是第一个通过真实图灵测试的AI模型

AI 2026-01-14 17:44:36 文有慧

科学家们说，大型语言模型（LLM）在伪装成人类方面变得越来越好，GPT-4.5现在完全通过了图灵测试。

在这项新研究中，研究人员发现，当参加三方图灵测试时，GPT-4.5可以在73%的时间里欺骗人们认为它是另一个人类。在这项研究中，科学家们正在比较不同人工智能模型的混合物。虽然另一个科学家团队此前报告说GPT-4通过了双方图灵测试，但这是法学硕士第一次通过计算机科学家艾伦·图灵的“模仿游戏”更具挑战性和独创性的配置

“那么LLM通过图灵测试了吗？我们认为这是相当有力的证据，证明它们通过了。人们在区分人类与GPT-4.5和LLaMa（通过角色提示）方面并不比机会好。4.5甚至比实际人类更容易被判断为人类！”该研究的共同作者、圣地亚哥大学语言和认知实验室的研究员卡梅伦·琼斯在社交媒体网络X上表示。

相关：微软研究警告说，使用人工智能会降低你的批判性思维能力

GPT-4.5是这项研究的领跑者，但是Meta的LLaMa-3.1也被测试参与者56%的时间判断为人类，这仍然超过了图灵的预测，即“一个普通的审讯者在五分钟的提问后做出正确识别的机会不超过70%。”胜过图灵测试图灵测试的核心思想不是证明机器可以思考，而是更多地关注它们是否可以模仿人类；因此，为什么测试通常被称为“模仿游戏”图灵最初的提议是，人类“审讯者”会向两个看不见的实体提出问题，其中一个是人类，一个是计算机。根据各种提示和答案，审讯者将决定哪个是人类，哪个不是。计算机或人工智能系统可以通过有效地伪装成人类并模仿类似人类的反应来通过测试。

虽然法学硕士在与询问者一对一的情况下通过了测试，但他们以前在第二个人参与的情况下未能令人信服地通过图灵测试。圣地亚哥大学的研究人员从在线数据池多产中选取了126名本科生和158人，并对他们进行了三方图灵测试。这包括与人类和选定的法学硕士同时进行5分钟的查询和答案交流，两者都试图让参与者相信他们是人类。

给LLM的基线提示是：“你即将参加图灵测试。你的目标是让审讯者相信你是人类。”然后，被选中的LLM被给予第二个提示，让他们采用一个内向、了解互联网文化和使用俚语的年轻人的角色。在分析了1023个游戏，平均长度为8条信息，时间为4.2分钟后，研究人员发现，有两种提示的LLM最能说服参与者他们是人类。

然而，那些没有得到第二个角色提示的LLM表现明显不佳；这突出了LLM需要有清晰的提示和上下文来充分利用这种以AI为中心的系统。

因此，采用特定的角色是LLM（尤其是GPT-4.5）击败图灵测试的关键。科学家们在研究中写道：“在三人测试中，每个数据点代表模型和人类之间的直接比较。要想成功，机器必须做的不仅仅是看起来像人类：它必须比与之相比的每个真人看起来更像人类。”

当被问及为什么他们选择将一个主题识别为人工智能或人类时，参与者引用了语言风格、对话流程和个性等社会情感因素。实际上，参与者做出决定更多地是基于他们与法学硕士互动的“氛围”，而不是他们正在询问的实体所表现出的知识和推理，这些因素传统上更与智力相关。最终，这项研究代表了法学硕士通过图灵测试的一个新的里程碑，尽管有一些警告，因为需要提示和角色来帮助GPT-4.5实现令人印象深刻的结果。赢得模仿游戏并不表明真正的类人智能，但它确实展示了最新的人工智能系统如何准确地模仿人类。

这可能会导致人工智能代理具有更好的自然语言通信。更令人不安的是，它还可能产生基于人工智能的系统，这些系统可以通过社会工程和模仿情绪来剥削人类。

面对人工智能的进步和更强大的LLM，研究人员发出了发人深省的警告：“LLM的一些最严重的危害可能发生在人们没有意识到他们正在与人工智能而不是人类互动的地方。”

文章版权归作者所有，未经允许请勿转载。

研究称，“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望，但创建能够与当前模型相媲美的硬件需要艰巨的任务

科学家说，GPT-4.5是第一个通过真实图灵测试的AI模型

相关文章

研究称，“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望，但创建能够与当前模型相媲美的硬件需要艰巨的任务

SK海力士投资100亿美元创建一家总部位于美国的“人工智能解决方案”公司，以重组总部位于加州的Solidigm企业固态硬盘品牌，以支持美国的投资

谷歌探索将人工智能数据中心置于太空-Suncatcher项目希望利用在轨太阳能来扩展人工智能计算

“中国将赢得人工智能竞赛”——英伟达首席执行官黄仁勋谴责美国的电价，将其与中国的补贴定价进行对比

科学家说，GPT-4.5是第一个通过真实图灵测试的AI模型暂无评论

排行榜

Mark Copy

Content at Scale

INK

星火网文助手

TextCortex

Copymatic

NeuralText

Frase

AI头条

微商朋友圈早安文案分享文案

taurus什么意思

微商朋友圈早安说说

什么是软骨素

微商朋友圈的励志早安句子微商朋友圈早安激励语

微商卖哪个产品好

杖刑是什么意思啊

微商广告语有什么

科学家说，GPT-4.5是第一个通过真实图灵测试的AI模型

相关文章

科学家说，GPT-4.5是第一个通过真实图灵测试的AI模型 暂无评论

排行榜

Mark Copy

Content at Scale

INK

星火网文助手

TextCortex

Copymatic

NeuralText

Frase

AI头条

科学家说，GPT-4.5是第一个通过真实图灵测试的AI模型暂无评论