为什么OpenAI对人工智能幻觉的解决方案会在明天杀死ChatGPT

AI2026-01-14 17:42:27 华晨婉

OpenAI的最新研究论文准确地诊断了为什么ChatGPT和其他大型语言模型可以编造一些东西——在人工智能领域被称为“幻觉”。它还揭示了为什么这个问题可能无法解决,至少就消费者而言。

这篇论文为为什么这些模型自信地陈述谎言提供了迄今为止最严格的数学解释。它表明,这些不仅仅是人工智能目前训练方式的不幸副作用,而且在数学上是不可避免的。这个问题可以部分解释为用于训练人工智能的基础数据中的错误。但是通过对人工智能系统如何学习的数学分析,研究人员证明,即使有完美的训练数据,问题仍然存在。

语言模型响应查询的方式——根据概率一次预测句子中的一个单词——自然会产生错误。事实上,研究人员表明,生成句子的总错误率至少是同一人工智能在一个简单的是/否问题上的错误率的两倍,因为错误可以在多次预测中积累。

换句话说,幻觉率从根本上取决于人工智能系统区分有效和无效反应的能力。由于这一分类问题对许多知识领域来说天生困难,幻觉变得不可避免。

事实也证明,模型在训练中看到的事实越少,当被问及这个事实时,就越有可能产生幻觉。例如,对于著名人物的生日,研究发现,如果20%的人的生日只在训练数据中出现一次,那么基本模型应该至少有20%的生日查询是错误的。

相关内容:“不可能把那个精灵推回瓶子里”:读者认为阻止AISure的发展已经太晚了,当研究人员向论文作者之一亚当·卡莱的最先进模型询问生日时,DeepSeek-V3自信地在不同的尝试中提供了三个不同的错误日期:“03-07”、“15-06”和“01-01”。正确的日期是秋天,所以这些日期都不近。评估陷阱更令人不安的是,论文分析了为什么尽管进行了训练后的努力(例如在向公众发布之前为人工智能的反应提供广泛的人类反馈),幻觉仍然存在。作者检查了十个主要的人工智能基准,包括谷歌、OpenAI使用的基准,以及对人工智能模型进行排名的顶级排行榜。这表明,九个基准使用二元评分系统,对表达不确定性的人工智能给予零分。

这造成了作者所说的惩罚诚实回答的“流行病”。当人工智能系统说“我不知道”时,它会得到与给出完全错误信息相同的分数。这种评估下的最佳策略变得很清楚:总是猜测。研究人员用数学证明了这一点。无论特定答案正确的可能性有多大,当评估使用二进制评分时,猜测的预期分数总是超过弃权的分数。打破OpenAI提议的所有解决方案是让人工智能在公布答案之前考虑自己对答案的信心,并让基准在此基础上对答案进行评分。然后可以提示人工智能,例如:“只有在你有超过75%的信心时才回答,因为错误会被罚3分,而正确答案会被罚1分。”

OpenAI研究人员的数学框架表明,在适当的置信度阈值下,人工智能系统会自然地表达不确定性而不是猜测。所以这将导致更少的幻觉。问题是它会对用户体验产生什么影响。

想想如果ChatGPT开始对甚至30%的查询说“我不知道”会有什么影响——这是基于论文对训练数据中事实不确定性的分析得出的保守估计。习惯于收到几乎任何问题的自信答案的用户可能会很快放弃这样的系统。

我在生活的另一个领域见过这种问题。我参与了犹他州盐湖城的一个空气质量监控项目。当系统在恶劣天气条件下或设备校准时标记测量的不确定性时,与显示自信读数的显示器相比,用户参与较少——即使这些自信读数在验证过程中被证明是不准确的。计算经济学问题利用论文的见解来减少幻觉并不难。 量化不确定性的既定方法已经存在了几十年。这些可用于提供可信赖的不确定性估计,并指导人工智能做出更明智的选择。

但是,即使用户不喜欢这种不确定性的问题可以克服,还有一个更大的障碍:计算经济学。与今天的方法相比,感知不确定性的语言模型需要更多的计算,因为它们必须评估多种可能的响应并估计置信度。对于一个每天处理数百万个查询的系统来说,这意味着运营成本要高得多。

更复杂的方法,如主动学习,人工智能系统会提出澄清性问题以减少不确定性,可以提高准确性,但会进一步增加计算需求。这种方法在芯片设计等专业领域很有效。在芯片设计领域,错误的答案会花费数百万美元,并证明大量计算是合理的。对于用户期望即时回复的消费者应用程序,经济上变得令人望而却步。

对于管理关键商业运营或经济基础设施的人工智能系统来说,考量发生了巨大变化。当人工智能代理处理供应链物流、金融交易或医疗诊断时,幻觉的成本远远超过让模型来判断它们是否太不确定的成本。在这些领域,论文提出的解决方案在经济上是可行的——甚至是必要的。不确定的人工智能代理将不得不花费更多。

然而,消费者应用程序仍然主导着人工智能开发的优先事项。用户希望系统能对任何问题提供自信的答案。评估基准奖励猜测而不是表达不确定性的系统。计算成本更喜欢快速、过于自信的响应,而不是缓慢、不确定的响应。每个令牌的能源成本下降和芯片架构的进步可能最终会让人工智能决定它们是否足够确定来回答一个问题变得更实惠。但是,与今天的猜测相比,相对较高的计算量将保持不变,无论绝对硬件成本如何。

简而言之,OpenAI论文无意中强调了一个令人不安的事实:推动消费者人工智能发展的商业激励与减少幻觉从根本上仍然不一致。在这些激励改变之前,幻觉将持续存在。这篇编辑过的文章是在知识共享许可下从《对话》中转载的。阅读原文。

© 版权声明

相关文章

暂无评论

暂无评论...