中国人工智能开发人员探索在云中租用英伟达的鲁宾GPU——成本、复杂性和监管障碍可能会限制部署
中国的人工智能硬件开发商正凭借自己设计的加速器取得快速进展。然而,中国最先进的人工智能开发商越来越承认,国内硬件不太可能在短期内赶上美国领导人,这极大地限制了竞争模式的发展。据《华尔街日报》报道,为此,为了保持与美国同行的竞争力,中国人工智能开发商正在探索在云中租用英伟达即将推出的鲁宾图形处理器的方法。
今年1月,当英伟达推出用于人工智能的鲁宾数据中心平台时,它公开点名了美国客户,但忽略了中国客户。该公司在最近几个季度采取了这种做法,反映了美国的出口规则、遵守这些规则的承诺,以及不向投资者发出中国市场开放信号的意图。中国公司收到了这一信息,他们开始探索从英伟达远程获取领先处理器的方法,以避免落后于美国竞争对手。报告称,中国人工智能公司已经开始谈判访问NVL144 GR200和其他托管在中国境外数据中心的基于英伟达鲁宾的系统,特别是在东南亚和中东。直到本周中旬,这些安排通常被认为是合法的。然而,他们在设计上有警告:计算是租用而不是拥有的,容量是共享而不是专用的,部署时间表取决于第三方运营商,而不是在最坏的情况下的内部时间表。
毫不奇怪,使用远程硬件来训练前沿人工智能模型很棘手,因为在远程云数据中心租用鲁宾和在本地部署之间的区别是巨大的。美国超大规模企业可以大规模集成鲁宾加速器,紧紧围绕新硬件调整软件堆栈,并为长时间训练运行预留大量GPU集群。相比之下,计划租用鲁宾容量的中国开发人员将不得不应对有限的分配、跨境延迟、定制系统的有限自由,以及在某些情况下的排队。如果他们租用足够多的系统——而且美国有云数据中心目前运行数十万个Blackwell GPU——他们很可能会毫不费力地训练他们的模型。然而,如果他们不能按时找到合适的云,他们每个项目的人工智能加速器将会减少,在某些情况下,他们将无法运行大型训练工作,这将直接限制模型大小、实验节奏和迭代速度。与此同时,中国开发人员使用由A100、H100、H800和H20组成的不同英伟达GPU车队来训练他们的前沿模型,这种复杂的训练和低效率是众所周知的。据《华尔街日报》报道,由于他们无法正式采购布莱克威尔,他们还在云中租用了它们,内部人士表示这种体验成本高昂,操作尴尬。因此,他们已经知道如何对抗低效率。有了下一代前沿模型和鲁宾GPU,事情会变得更加复杂。随着模型的扩展,不间断访问大型同质GPU集群的价值会增加,而租用的容量很少能实现这一点。即使交易得到保证(鉴于云访问的新限制,这并不能保证),与资金充足的美国竞争对手相比,它们通常会使中国开发商处于结构性劣势,美国竞争对手可以在一个屋檐下部署数以万计的加速器。还有另一个复杂因素。瑞银估计,中国的超大规模企业去年在资本支出上花费了大约570亿美元,大约是美国同行的1/10。把这个数字放在上下文中,这低于Meta去年超过700亿美元的资本支出。鉴于财务限制,中国人工智能开发商能否与美国同行保持或多或少的竞争力还有待观察。在谷歌新闻上关注汤姆的硬件,或者将我们添加为首选来源,以在您的订阅源中获取我们的最新新闻、分析和评论。








中国人工智能开发人员探索在云中租用英伟达的鲁宾GPU——成本、复杂性和监管障碍可能会限制部署