顶级人工智能科学家警告说，人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力

AI 2026-01-14 17:43:21 熊素豪

地球上一些最先进的人工智能（AI）背后的研究人员警告说，他们帮助创建的系统可能会对人类构成风险。

研究人员在谷歌DeepMind、OpenAI、Meta、Anropic等公司工作，他们认为，对人工智能的推理和决策过程缺乏监督可能意味着我们错过了恶意的迹象behavior.In这项新研究于7月15日发表在arxiv预印本服务器（尚未经过同行评审）上。研究人员强调了思维链（CoT）——大型语言模型在解决复杂问题时采取的步骤。人工智能模型使用CoT将高级查询分解为用自然语言表达的中间逻辑步骤。

该研究的作者认为，监控过程中的每一步可能是建立和维护人工智能安全的关键层。

监控这个CoT过程可以帮助研究人员了解LLM是如何做出决策的，更重要的是，为什么它们会与人类的利益不一致。这也有助于确定为什么他们根据虚假或不存在的数据给出输出，或者为什么他们会误导我们。

然而，在监控这个推理过程时有几个限制，这意味着这种行为可能会通过裂缝。

相关内容：人工智能现在可以自我复制——这是一个里程碑，让专家们感到恐惧，“用人类语言‘思考’的人工智能系统为人工智能安全提供了一个独特的机会，”科学家们在研究中写道。“我们可以监控他们的思想链，寻找行为不端的意图。像所有其他已知的人工智能监督方法一样，CoT监控不完美，允许一些不当行为被忽视。”

科学家们警告说，推理并不总是发生，所以它不可能总是被监控，有些推理是在人类操作员甚至不知道的情况下发生的。也可能有人类操作员不理解的推理。密切关注人工智能系统问题之一是，传统的非推理模型，如K-Means或DBSCAN，使用从海量数据集中生成的复杂模式匹配，因此它们根本不依赖CoT。与此同时，谷歌的双子座或ChatGPT等较新的推理模型能够将问题分解为中间步骤来生成解决方案——但不总是需要这样做才能得到答案。研究人员指出，即使人类用户采取了这些步骤，也不能保证这些模型会让CoT对人类用户可见。

“外部化的推理属性并不能保证可监控性——它只表明一些推理出现在思维链中，但可能还有其他相关的推理没有，”科学家们说。“因此，即使对于困难的任务，思维链也可能只包含看似良性的推理，而有罪的推理是隐藏的。”科学家们说，进一步的问题是，CoT甚至可能无法被人类理解。”

新的、更强大的LLM可能会发展到不需要CoT的地步。未来的模型也可能能够检测到他们的CoT受到监督，并隐藏不良行为。

为了避免这种情况，作者提出了各种措施来实施和加强CoT监控，并提高人工智能的透明度。其中包括使用其他模型来评估LLM的CoT过程，甚至对试图隐藏错位行为的模型起到对抗作用。作者在论文中没有具体说明他们将如何确保监控模型避免也被错误分配。他们还建议人工智能开发人员继续完善和标准化CoT监控方法，将监控结果和计划纳入LLM系统卡（本质上是模型手册），并考虑新的培训方法对可监控性的影响。

科学家们在研究中表示：“CoT监控为前沿人工智能的安全措施提供了宝贵的补充，为人工智能代理如何做出决策提供了难得的一瞥。然而，不能保证目前的可见度会持续下去。我们鼓励研究界和前沿人工智能开发人员充分利用CoT可监控性，并研究如何保护它。”

文章版权归作者所有，未经允许请勿转载。

研究称，“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望，但创建能够与当前模型相媲美的硬件需要艰巨的任务

顶级人工智能科学家警告说，人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力

相关文章

研究称，“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望，但创建能够与当前模型相媲美的硬件需要艰巨的任务

SK海力士投资100亿美元创建一家总部位于美国的“人工智能解决方案”公司，以重组总部位于加州的Solidigm企业固态硬盘品牌，以支持美国的投资

谷歌探索将人工智能数据中心置于太空-Suncatcher项目希望利用在轨太阳能来扩展人工智能计算

“中国将赢得人工智能竞赛”——英伟达首席执行官黄仁勋谴责美国的电价，将其与中国的补贴定价进行对比

顶级人工智能科学家警告说，人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力暂无评论

排行榜

Mark Copy

Content at Scale

INK

星火网文助手

TextCortex

Copymatic

NeuralText

Frase

AI头条

微信白头像是什么意思

微信886是什么意思

树的名言赞美松树的名言

微笑语录正能量短语

彩泥是什么

微笑用英语怎么说

微笑天使是什么意思

微笑是最美的符号排比句

顶级人工智能科学家警告说，人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力

相关文章

顶级人工智能科学家警告说，人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力 暂无评论

排行榜

Mark Copy

Content at Scale

INK

星火网文助手

TextCortex

Copymatic

NeuralText

Frase

AI头条

顶级人工智能科学家警告说，人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力暂无评论