地球上一些最先进的人工智能(AI)背后的研究人员警告说,他们帮助创建的系统可能会对人类构成风险。
研究人员在谷歌DeepMind、OpenAI、Meta、Anropic等公司工作,他们认为,对人工智能的推理和决策过程缺乏监督可能意味着我们错过了恶意的迹象behavior.In这项新研究于7月15日发表在arxiv预印本服务器(尚未经过同行评审)上。研究人员强调了思维链(CoT)——大型语言模型在解决复杂问题时采取的步骤。人工智能模型使用CoT将高级查询分解为用自然语言表达的中间逻辑步骤。
该研究的作者认为,监控过程中的每一步可能是建立和维护人工智能安全的关键层。
监控这个CoT过程可以帮助研究人员了解LLM是如何做出决策的,更重要的是,为什么它们会与人类的利益不一致。这也有助于确定为什么他们根据虚假或不存在的数据给出输出,或者为什么他们会误导我们。
然而,在监控这个推理过程时有几个限制,这意味着这种行为可能会通过裂缝。
相关内容:人工智能现在可以自我复制——这是一个里程碑,让专家们感到恐惧,“用人类语言‘思考’的人工智能系统为人工智能安全提供了一个独特的机会,”科学家们在研究中写道。“我们可以监控他们的思想链,寻找行为不端的意图。像所有其他已知的人工智能监督方法一样,CoT监控不完美,允许一些不当行为被忽视。”
科学家们警告说,推理并不总是发生,所以它不可能总是被监控,有些推理是在人类操作员甚至不知道的情况下发生的。也可能有人类操作员不理解的推理。密切关注人工智能系统问题之一是,传统的非推理模型,如K-Means或DBSCAN,使用从海量数据集中生成的复杂模式匹配,因此它们根本不依赖CoT。与此同时,谷歌的双子座或ChatGPT等较新的推理模型能够将问题分解为中间步骤来生成解决方案——但不总是需要这样做才能得到答案。研究人员指出,即使人类用户采取了这些步骤,也不能保证这些模型会让CoT对人类用户可见。
“外部化的推理属性并不能保证可监控性——它只表明一些推理出现在思维链中,但可能还有其他相关的推理没有,”科学家们说。“因此,即使对于困难的任务,思维链也可能只包含看似良性的推理,而有罪的推理是隐藏的。”科学家们说,进一步的问题是,CoT甚至可能无法被人类理解。”
新的、更强大的LLM可能会发展到不需要CoT的地步。未来的模型也可能能够检测到他们的CoT受到监督,并隐藏不良行为。
为了避免这种情况,作者提出了各种措施来实施和加强CoT监控,并提高人工智能的透明度。其中包括使用其他模型来评估LLM的CoT过程,甚至对试图隐藏错位行为的模型起到对抗作用。作者在论文中没有具体说明他们将如何确保监控模型避免也被错误分配。他们还建议人工智能开发人员继续完善和标准化CoT监控方法,将监控结果和计划纳入LLM系统卡(本质上是模型手册),并考虑新的培训方法对可监控性的影响。
科学家们在研究中表示:“CoT监控为前沿人工智能的安全措施提供了宝贵的补充,为人工智能代理如何做出决策提供了难得的一瞥。然而,不能保证目前的可见度会持续下去。我们鼓励研究界和前沿人工智能开发人员充分利用CoT可监控性,并研究如何保护它。”