研究人员揭示了人工智能创造力背后的隐藏成分

AI2026-01-14 17:42:29 符欣明

我们曾经被许诺会有自动驾驶汽车和机器人女佣。相反,我们看到了人工智能系统的兴起,它可以在国际象棋中打败我们,分析大量文本并创作十四行诗。这是现代的巨大惊喜之一:人类容易完成的体力任务对机器人来说变得非常困难,而算法越来越能够模仿我们的智力。

另一个让研究人员长期感到困惑的惊喜是,这些算法有自己奇怪的创造力。扩散模型是DALL·E、Imagen和稳定扩散等图像生成工具的支柱,旨在生成经过训练的图像的碳副本。然而,在实践中,它们似乎是即兴创作的,在图像中混合元素来创造新的东西——不仅仅是毫无意义的颜色斑点,而是具有语义意义的连贯图像。巴黎高等师范学院的人工智能研究员和物理学家朱利奥·比罗利说,这是扩散模型背后的“悖论”:“如果它们工作得很好,它们应该只记住,”他说。“但它们没有——它们实际上能够产生新的样本。”

为了生成图像,扩散模型使用了一种称为去噪的过程。它们将图像转换为数字噪声(不连贯的像素集合),然后重新组装。这就像反复将一幅画放入碎纸机,直到你只剩下一堆细小的灰尘,然后再将碎片修补在一起。多年来,研究人员一直想知道:如果模型只是重新组装,那么新奇是如何进入画面的?这就像将你的碎画重新组装成一件全新的艺术品。

现在,两位物理学家提出了一个惊人的主张:正是去噪过程本身的技术缺陷导致了扩散模型的创造力。在一篇将在2025年国际机器学习大会上发表的论文中,两人开发了一个训练有素的扩散模型的数学模型,以表明他们所谓的创造力实际上是一个确定性过程——这是他们架构的直接、不可避免的结果。

通过阐明扩散模型的黑匣子,这项新研究可能会对未来的人工智能研究产生重大影响——甚至可能对我们对人类创造力的理解产生重大影响。“这篇论文的真正优势在于,它对一些非常重要的事情做出了非常准确的预测,”荷兰拉德布德大学的计算机科学家卢卡·安布罗吉奥尼说。

梅森·坎布是斯坦福大学应用物理专业的研究生,也是这篇新论文的主要作者,他长期以来一直对形态发生很感兴趣:生命系统self-assemble.One理解人类和其他动物胚胎发育的方法的过程是通过所谓的图灵模式,图灵模式是以20世纪数学家艾伦·图灵的名字命名的。图灵模式解释了成组的细胞如何组织成不同的器官和四肢。至关重要的是,这种协调都发生在地方一级。没有首席执行官监督数万亿个细胞,以确保它们都符合最终的身体计划。换句话说,单个细胞没有一个完整的身体蓝图来作为他们工作的基础。它们只是根据邻居的信号采取行动并进行修正。这种自下而上的系统通常运行平稳,但偶尔会出错——例如,会产生多出手指的手。

当第一批人工智能生成的图像开始出现在网上时,许多看起来像超现实主义绘画,描绘了有额外手指的人类。这些立刻让卡姆想到了形态发生:“这闻起来像是一个[自下而上的]系统的失败,”他说。

人工智能研究人员当时就知道,扩散模型在生成图像时会走几条技术捷径。第一条被称为局部性:它们一次只关注一组像素或“补丁”。第二条是,它们在生成图像时遵守严格的规则:例如,如果你在任何方向上只将输入图像移动几个像素,系统将自动调整,以在它生成的图像中做出相同的变化。这个特征被称为平移等方差,是模型保持连贯结构的方式;没有它,创建逼真的图像要困难得多。

部分由于这些特征,扩散模型不注意特定补丁将适合最终图像的位置。 他们只专注于一次生成一个补丁,然后使用称为分数函数的数学模型自动将它们安装到位,这可以被认为是数字图灵模式。

长期以来,研究人员认为局部性和等方差只是去噪过程的限制,这是阻止扩散模型创建图像完美复制品的技术怪癖。他们没有把它们与创造力联系起来,这被视为一种高阶现象。

他们又有了一个惊喜。本地制造卡姆于2022年在斯坦福大学物理学家苏里亚·甘古利的实验室开始了他的研究生工作,他也在神经生物学和电气工程领域任职。OpenAI在同年发布ChatGPT,引起了人们对现在被称为生成人工智能的领域的兴趣激增。随着技术开发人员致力于构建越来越强大的模型,许多学者仍然专注于理解这些systems.To的内部运作,卡姆最终提出了一个假设,即局部性和等方差导致创造力。这提出了一个诱人的实验可能性:如果他能设计一个除了优化局部性和等方差什么都不做的系统,那么它应该表现得像一个扩散模型。这个实验是他与甘古利共同撰写的新论文的核心。

Kamb和Ganguli称他们的系统为等变局部得分机(ELS)。它不是一个经过训练的扩散模型,而是一组方程,可以仅根据局部性和等方差机制分析预测去噪图像的组成。然后,他们拍摄了一系列转换为数字噪声的图像,并通过ELS机器和许多强大的扩散模型(包括ResNets和UNets)进行运行。

甘古利说,结果“令人震惊”:总体而言,ELS机器能够以90%的平均准确率完全匹配训练好的扩散模型的输出——这是“机器学习中闻所未闻的结果”,甘古利说。

结果似乎支持了卡姆布的假设。他说:“一旦你强加了局部性,(创造力)就会自动产生;它完全自然地脱离了动态。”他发现,在去噪过程中限制扩散模型注意力窗口的机制——迫使它们专注于单个斑块,而不管它们最终会融入最终产品的哪个位置——与赋予它们创造力的机制是一样的。扩散模型中看到的额外手指现象同样是该模型过度关注在没有任何更广泛背景的情况下生成局部像素斑块的直接副产品。

为这个故事接受采访的专家普遍认为,尽管坎布和甘古利的论文阐明了扩散模型中创造力背后的机制,但仍有许多神秘之处。例如,大型语言模型和其他人工智能系统似乎也展示了创造力,但它们没有利用局部性和等效性。

“我认为这是故事中非常重要的一部分,”比罗利说,“[,但]这不是故事的全部。”创造创造力研究人员首次展示了扩散模型的创造力如何被视为去噪过程本身的副产品,这种副产品可以用数学形式化,并以前所未有的高精度进行预测。这几乎就像神经科学家把一群人类艺术家放入核磁共振机器,并在他们的创造力背后找到了一种共同的神经机制,可以用一组方程式写下来。与神经科学的比较可能不仅仅是隐喻:坎布和甘古利的工作还可以提供对人类思维黑匣子的洞察。“人类和人工智能的创造力可能没有那么不同,”佐治亚理工学院和IBM研究所研究扩散模型的机器学习研究员本杰明·胡佛说。“我们根据自己的经验、梦想、所见所闻或欲望来组装东西。人工智能也只是根据它所看到的和被要求做的事情来组装积木。”根据这种观点,人类和人工创造力都可能从根本上植根于对世界的不完整理解:我们都在尽最大努力填补我们知识中的空白,我们时不时会产生一些既新又有价值的东西。也许这就是我们所说的创造力。

原创故事经西蒙斯基金会支持的独立编辑出版物《广达杂志》许可转载。

© 版权声明

相关文章

暂无评论

暂无评论...