尽管人类和人工智能(AI)系统的“思维”非常不同,但新的研究表明,人工智能有时会像我们一样做出非理性的决定。
在一项新研究中研究的近一半情景中,ChatGPT表现出许多最常见的人类决策偏差。发表在4月8日的《制造与服务运营管理》杂志上,这些发现首次评估了ChatGPT在人类心理学中发现的18种众所周知的认知偏差中的行为。这篇论文的作者来自加拿大和澳大利亚的五个学术机构,他们测试了OpenAI的GPT-3.5和GPT-4—为ChatGPT提供动力的两个大型语言模型(LLM),并发现尽管它们的推理“令人印象深刻地一致”,但它们远未免受类似人类的缺陷的影响。
此外,作者说,这种一致性本身既有积极的影响,也有消极的影响。
该研究的主要作者、艾维商学院运营管理助理教授陈阳在一份声明中表示:“对于那些有清晰、公式化解决方案的问题,管理者将受益最大。但如果你使用这些工具做出主观或偏好驱动的决策,那就要小心行事。”
这项研究采用了众所周知的人类偏见,包括风险厌恶、过度自信和禀赋效应(我们给自己拥有的东西赋予更多价值),并将它们应用于给ChatGPT的提示,看看它是否会像人类一样落入同样的陷阱。理性决策——有时科学家们向LLM提出了来自传统心理学的假设问题,并在现实世界商业适用性的背景下,在库存管理或供应商谈判等领域。目的不仅是为了看看人工智能是否会模仿人类偏见,还为了看看当被问及来自不同业务领域的问题时,它是否仍然会这样做。在用清晰的数学解决方案回答问题时,GPT-4的表现优于GPT-3.5,在概率和基于逻辑的场景中显示出更少的错误。但是在主观模拟中,比如是否选择一个有风险的选项来实现收益,聊天机器人经常反映出人类倾向于表现出的非理性偏好。
“GPT-4对确定性的偏好甚至比人类更强烈,”研究人员在论文中写道,指的是人工智能在给定模棱两可的任务时倾向于更安全、更可预测的结果。
更重要的是,无论问题是抽象的心理问题还是操作业务流程,聊天机器人的行为基本上保持稳定。该研究得出结论,所显示的偏见不仅仅是记忆例子的产物,也是人工智能推理的一部分。
这项研究令人惊讶的结果之一是GPT-4有时会放大类似人类的错误。作者在研究中写道:“在确认偏差任务中,GPT-4总是给出有偏见的回答。”它还显示出比GPT3.5更明显的热手谬误倾向(预期随机模式的偏差)。
相反,ChatGPT确实设法避免了一些常见的人类偏见,包括基本忽视(我们忽略统计事实,倾向于轶事或特定案例的信息)和沉没成本谬误(决策受到已经持续的成本的影响,让不相关的信息影响判断)。根据作者的说法,ChatGPT的类人偏见来自包含人类表现出的认知偏见和启发式的训练数据。这些倾向在微调过程中得到加强,尤其是当人类反馈进一步倾向于合理的反应而不是理性的反应时。当他们遇到更模糊的任务时,人工智能更倾向于人类推理模式,而不是直接逻辑。
陈说:“如果你想要准确、公正的决策支持,在你已经信任计算器的领域使用GPT。”然而,当结果更多地取决于主观或战略输入时,人为监督更为重要,即使它正在调整用户提示以纠正已知的偏见。
“人工智能应该被视为做出重要决定的员工——它需要监督和道德准则,”联合作者、加拿大麦克马斯特大学人力资源和管理副教授米娜·安迪潘在声明中说。“否则,我们就有可能自动化有缺陷的思维,而不是改进它。”