顶级人工智能科学家警告说,人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力

AI 2026-01-14 17:43:21 熊素豪

地球上一些最先进的人工智能(AI)背后的研究人员警告说,他们帮助创建的系统可能会对人类构成风险。

研究人员在谷歌DeepMind、OpenAI、Meta、Anropic等公司工作,他们认为,对人工智能的推理和决策过程缺乏监督可能意味着我们错过了恶意的迹象behavior.In这项新研究于7月15日发表在arxiv预印本服务器(尚未经过同行评审)上。研究人员强调了思维链(CoT)——大型语言模型在解决复杂问题时采取的步骤。人工智能模型使用CoT将高级查询分解为用自然语言表达的中间逻辑步骤。

该研究的作者认为,监控过程中的每一步可能是建立和维护人工智能安全的关键层。

监控这个CoT过程可以帮助研究人员了解LLM是如何做出决策的,更重要的是,为什么它们会与人类的利益不一致。这也有助于确定为什么他们根据虚假或不存在的数据给出输出,或者为什么他们会误导我们。

然而,在监控这个推理过程时有几个限制,这意味着这种行为可能会通过裂缝。

相关内容:人工智能现在可以自我复制——这是一个里程碑,让专家们感到恐惧,“用人类语言‘思考’的人工智能系统为人工智能安全提供了一个独特的机会,”科学家们在研究中写道。“我们可以监控他们的思想链,寻找行为不端的意图。像所有其他已知的人工智能监督方法一样,CoT监控不完美,允许一些不当行为被忽视。”

科学家们警告说,推理并不总是发生,所以它不可能总是被监控,有些推理是在人类操作员甚至不知道的情况下发生的。也可能有人类操作员不理解的推理。密切关注人工智能系统问题之一是,传统的非推理模型,如K-Means或DBSCAN,使用从海量数据集中生成的复杂模式匹配,因此它们根本不依赖CoT。与此同时,谷歌的双子座或ChatGPT等较新的推理模型能够将问题分解为中间步骤来生成解决方案——但不总是需要这样做才能得到答案。研究人员指出,即使人类用户采取了这些步骤,也不能保证这些模型会让CoT对人类用户可见。

“外部化的推理属性并不能保证可监控性——它只表明一些推理出现在思维链中,但可能还有其他相关的推理没有,”科学家们说。“因此,即使对于困难的任务,思维链也可能只包含看似良性的推理,而有罪的推理是隐藏的。”科学家们说,进一步的问题是,CoT甚至可能无法被人类理解。”

新的、更强大的LLM可能会发展到不需要CoT的地步。未来的模型也可能能够检测到他们的CoT受到监督,并隐藏不良行为。

为了避免这种情况,作者提出了各种措施来实施和加强CoT监控,并提高人工智能的透明度。其中包括使用其他模型来评估LLM的CoT过程,甚至对试图隐藏错位行为的模型起到对抗作用。作者在论文中没有具体说明他们将如何确保监控模型避免也被错误分配。他们还建议人工智能开发人员继续完善和标准化CoT监控方法,将监控结果和计划纳入LLM系统卡(本质上是模型手册),并考虑新的培训方法对可监控性的影响。

科学家们在研究中表示:“CoT监控为前沿人工智能的安全措施提供了宝贵的补充,为人工智能代理如何做出决策提供了难得的一瞥。然而,不能保证目前的可见度会持续下去。我们鼓励研究界和前沿人工智能开发人员充分利用CoT可监控性,并研究如何保护它。”

© 版权声明

相关文章

研究称,“热力学计算”可以将人工智能图像生成的能源消耗削减100亿倍——原型显示出希望,但创建能够与当前模型相媲美的硬件需要艰巨的任务

一份令人费解的新报告称,理论上,“热力学计算”可以大幅降低人工智能生成图像所消耗的能量,只需当前流行工具能量的一百亿分之一。据IEEE Spectrum报道,最近的两项研究暗示了这项新兴技术的潜力,但其支持者承认该解决方案还很初级。
2026-01-29

SK海力士投资100亿美元创建一家总部位于美国的“人工智能解决方案”公司,以重组总部位于加州的Solidigm企业固态硬盘品牌,以支持美国的投资

存储芯片巨头SK海力士正在美国投资100亿美元成立一家新的人工智能解决方案公司,暂定名为人工智能公司。该公司在一份新闻稿中详细说明,新公司将完全获得这项新投资,并能够在其认为合适的情况下部署它,以促进人工智能行业,支持新的人工智能初创企业和发展,并鼓励其在存储芯片开发方面的实力和竞争力。这种投资甚至可能意味着允许更容易获得SK海力士的关键技术,如高带宽存储器(HBM)。
2026-01-29

谷歌探索将人工智能数据中心置于太空-Suncatcher项目希望利用在轨太阳能来扩展人工智能计算

谷歌刚刚宣布,它正在探索将人工智能数据中心送入轨道的想法,以利用太阳的太阳能输出来发电。根据谷歌研究,太阳捕手项目的目标是拥有一个带有谷歌TPU的太阳能卫星星座,这些卫星可以进行光学通信。这将使该公司能够运行一个耗电的数据中心,而不需要在陆地上建造一个数据中心所需的庞大基础设施。
2026-01-29

顶级人工智能科学家警告说,人工智能很快就会以我们甚至不理解的方式思考——逃避我们保持一致的努力 暂无评论