为什么DeepSeek如此改变游戏规则?科学家解释了AI模型的工作原理以及为什么构建它们如此便宜。

AI2026-01-14 17:45:28 桑福忠

不到两周前,一家鲜为人知的中国公司发布了其最新的人工智能(AI)模型,并在全球范围内引起冲击波。

DeepSeek在上传到GitHub的一篇技术论文中声称,其开放式R1模型取得了与一些领先的硅谷巨头——即OpenAI的ChatGPT、Meta的Llama和Anthpic的Claude——制造的人工智能模型相当或更好的结果。最令人震惊的是,该模型在训练和运行成本极低的情况下取得了这些结果。周一市场对这一消息的反应是尖锐而残酷的:随着DeepSeek上升为苹果应用商店下载量最大的免费应用,美国领先科技公司的估值下降了1万亿美元。

生产高端H100图形芯片的英伟达公司被认为对人工智能训练至关重要,该公司的估值损失了5890亿美元,创下了美国历史上最大的单日市场亏损。毕竟,DeepSeek表示,它在没有它们的情况下训练了人工智能模型——尽管它确实使用了功能不太强大的英伟达芯片。美国科技公司的反应是恐慌和愤怒,OpenAI代表甚至暗示DeepSeek抄袭了其部分模型。

相关内容:人工智能现在可以自我复制——这是一个让专家感到恐惧的里程碑

人工智能专家表示,DeepSeek的出现颠覆了支撑该行业增长方式的关键教条——表明越大并不总是越好。

西北大学计算机科学教授克里斯蒂安·哈蒙德在一封电子邮件中告诉《生活科学》,“DeepSeek可以用更少的钱、更少的计算和更少的时间来构建,并且可以在更便宜的机器上本地运行,这一事实表明,当每个人都在朝着越来越大的方向发展时,我们错过了构建更智能、更小的机会。”但是,是什么让DeepSeek的V3和R1模型如此具有破坏性?科学家们说,关键是效率。是什么让DeepSeek的模型运转起来?“在某些方面,DeepSeek的进步与其说是革命性的,不如说是进化性的,”密歇根大学统计和计算机科学教授安布杰·特瓦里告诉《生活科学》。"他们仍然在非常大的数据集(数万亿个令牌)上的非常大的模型(数十亿个参数)的主导范式下运行,预算非常大。"

Tewari说,如果我们从表面上看DeepSeek的说法,该公司方法的主要创新是如何利用其庞大而强大的模型,在使用更少资源的同时,与其他系统一样运行良好。

实现这一点的关键是一个“专家混合”系统。该系统将DeepSeek的模型拆分为多个子模型,每个子模型专门处理特定的任务或数据类型。与此同时,该系统还配有一个承重系统。该系统不会像其他模型那样对负担过重的系统施加整体惩罚,以降低其运行速度,而是动态地将任务从超负荷工作的子模型转移到工作不足的子模型。

“[这]意味着即使V3模型有6710亿参数,实际上只有370亿被激活用于任何给定的令牌,”特瓦里说。令牌是指大型语言模型(LLM)中的处理单元,相当于一块文本。

进一步实现这种负载平衡的是一种称为“推理时间计算缩放”的技术,这是DeepSeek模型中的一种拨号,可以向上或向下提升分配的计算以匹配分配任务的复杂性。

这种效率延伸到DeepSeek模型的训练,专家认为这是美国出口限制的意外后果。中国获得英伟达最先进的H100芯片的机会有限,因此DeepSeek声称它使用H800芯片构建模型,这种芯片降低了芯片到芯片的数据搬迁率。英伟达在2023年专门设计了这种“较弱”的芯片,以规避出口控制。一种更高效的大型语言模型使用这些功能较弱的芯片的需求迫使DeepSeek取得了另一个重大突破:其混合精度框架。它没有使用32位浮点数(FP32)来表示其模型的所有权重(设定人工智能模型人工神经元之间连接强度的数字),而是使用不太精确的8位数字(FP8)来训练其模型的一部分,只切换到32位,以便在精度很重要的情况下进行更难的计算。

塔夫茨大学技术政策教授托马斯·曹告诉《生活科学》:“这允许用更少的计算资源进行更快的训练。”“DeepSeek还完善了训练管道的几乎每一步——数据加载、并行化策略和内存优化——因此在实践中实现了非常高的效率。”类似地,虽然使用人工提供的标签来训练AI模型以对答案和推理的准确性进行评分很常见,但R1的推理是无监督的。它只使用数学和编码等任务中最终答案的正确性作为奖励信号,从而释放出训练资源用于其他地方。所有这些加起来形成了一对效率惊人的模型。尽管DeepSeek竞争对手的培训成本高达数千万至数亿美元,通常需要几个月的时间,但DeepSeek的代表表示,该公司在两个月内培训V3只需558万美元。DeepSeek V3的运行成本也同样低——运行成本比Anthpic的Claude 3.5十四行诗便宜21倍。

曹谨慎地注意到,DeepSeek的研发包括硬件和大量试错实验,这意味着它几乎肯定花费了远远超过这个558万美元的数字。尽管如此,成本的大幅下降仍然足以让竞争对手措手不及。

总的来说,人工智能专家表示, DeepSeek的流行可能对该行业产生积极影响,降低过高的资源成本,降低研究人员和公司的进入门槛。这也可能为比英伟达更多的芯片制造商进入竞争创造空间。然而,它也有自己的危险。

曹说:“随着开发尖端人工智能模型的更便宜、更有效的方法变得公开,它们可以让全世界更多的研究人员追求尖端的法学硕士开发,有可能加快科学进步和应用创造。与此同时,这一较低的进入门槛引发了新的监管挑战——不仅仅是美中竞争——关于国家和非国家行为者滥用先进人工智能或潜在破坏稳定的影响。”

© 版权声明

相关文章

暂无评论

暂无评论...