谷歌部署了新的Axion CPU和第七代Ironwood TPU——训练和推理吊舱击败了英伟达GB300并塑造了“人工智能超级计算机”模型
今天,谷歌云推出了新的面向人工智能的实例,由自己的Axion CPU和Ironwood TPU提供支持。新实例旨在训练和低延迟推理大规模人工智能模型,这些新实例的关键特征是人工智能模型的有效扩展,这得益于谷歌基于铁木的系统的全球规模的巨大扩展。数百万铁木TPU用于训练和推理。铁木是谷歌的第七代张量处理器(TPU),可提供4614个FP8 TFLOPS的性能,并配备192 GB的HBM3E内存,带宽高达7.37 TB/s。铁木吊舱可扩展到9,216个人工智能加速器,总共提供42.5个FP8 ExaFLOPS用于训练和推理,这远远超过了英伟达GB300 NVL72系统的FP8能力,后者为0.36 ExaFLOPS。吊舱使用专有的9.6 Tb/s芯片间互连网络互连,总共承载大约1.77 PB的HBM3E内存,再次超过了英伟达的竞争平台所能提供的容量。铁木吊舱——基于Axion CPU和铁木TPU——可以连接成运行数十万个TPU的集群,这些集群构成了谷歌被充分称为人工智能超级计算机的一部分。这是一个集成的超级计算平台,将计算、存储和网络结合在一个管理层下。为了提高超大吊舱和人工智能超级计算机的可靠性,谷歌使用了其可重构的结构,称为光路交换,它可以立即绕过任何硬件中断,以维持持续运行。国际数据中心的数据将人工智能超级计算机模型归功于企业客户平均353%的三年投资回报率、28%的信息技术支出和55%的运营效率。
几家公司已经在采用谷歌基于Ironwood的平台。Anthpic计划使用多达100万个TPU来运营和扩展其Claude模型系列,理由是成本与性能的重大提升。Lighucts也开始部署Ironwood来训练和服务其LTX-2多模态系统。Axion CPU:谷歌终于部署了内部设计的处理器尽管像谷歌的Ironwood这样的人工智能加速器往往会在计算的人工智能时代抢走所有的风头,但CPU对于应用程序逻辑和服务托管以及运行一些人工智能工作负载(如数据摄取)仍然至关重要。因此,除了第7代TPU,谷歌还部署了其首个基于Armv9的通用处理器,名为Axion.Google尚未公布其Axion CPU的完整芯片规格:每个芯片没有确认的核心数量(超过96个vCPU和高达768 GB的C4A金属实例的DDR5内存),没有披露时钟速度,也没有公开详细说明该部件的进程节点。我们所知道的是,Axion是围绕Arm Neoverse v2平台构建的,与现代x86 CPU相比,旨在提供高达50%的性能和高达60%的能效,以及比“当今云中最快的基于Arm的通用实例”高出30%的性能。有报道称,中央处理器每个内核提供2兆字节的私有L2高速缓存、80兆字节的L3高速缓存、支持DDR5-5600公吨/秒内存和节点的统一内存访问(UMA)。运行谷歌Axion处理器和Ironwood处理器的服务器配备了该公司定制的钛品牌控制器,可以从主机中央处理器卸载网络、安全性和输入/输出存储处理,从而实现更好的管理,从而获得更高的性能。
一般来说,Axion CPU可以为AI服务器和通用服务器提供各种任务。目前,Google提供三种Axion配置:C4A、N4A和C4A金属。
C4A是谷歌Axion驱动实例系列中的第一个也是主要产品,也是当今唯一普遍可用的产品。它提供高达72个vCPU、576 GB DDR5内存和100 Gbps网络,并配有高达6 TB本地容量的钛固态硬盘存储。该实例针对各种应用程序的持续高性能进行了优化。
接下来是N4A实例,它也针对一般工作负载,如数据处理、Web服务和开发环境,但它可扩展到64个vCPU、512 GB DDR5内存和50 Gbps网络,使其成为更实惠的产品。
另一个预览版型号是C4A Metal,它是一种裸机配置,大概可以直接向客户公开完整的Axion硬件堆栈:高达96个vCPU、768 GB DDR5内存和100 Gbps网络。 该实例适用于专业或许可证限制的应用程序或Arm原生开发。定制硅的完整组合这些新发布建立在谷歌十年定制硅开发的基础上,从最初的TPU开始,一直持续到YouTube的VCU、张量移动处理器和钛基础设施。Axion中央处理器——谷歌第一个基于Arm的通用服务器处理器——完成了公司定制芯片的组合,铁木TPU为与市场上最好的人工智能加速器的竞争奠定了基础。在谷歌新闻上关注汤姆的硬件,或将我们添加为首选来源,以在您的订阅源中获取我们的最新新闻、分析和评论。








谷歌部署了新的Axion CPU和第七代Ironwood TPU——训练和推理吊舱击败了英伟达GB300并塑造了“人工智能超级计算机”模型