当地时间3月18日周二,英伟达CEO黄仁勋在加州圣何塞举行的英伟达AI盛会GTC 2025上发表主题演讲。美国知名半导体咨询机构Semianalysis深度解读黄仁勋GTC演讲,详细阐述英伟达在推动AI推理性能提升方面的最新进展。

市场担心的是,DeepSeek式的软件优化以及英伟达主导的硬件进步带来的巨大成本节省,可能导致对AI硬件的需求下降。然而,价格会影响需求,当AI成本降低时,AI能力的边界不断被突破,而需求随之增加。

随着英伟达在硬件和软件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,从而实现成本效益的扩散效应,实际的消费量反而会增加,正如英伟达的口号所说的那样:“买越多、省越多”。

以下为文章的核心观点:

推理Token扩展:预训练、后训练与推理时扩展定律协同作用,使得AI模型能力不断提升。

黄仁勋数学规则:包括FLOPs稀疏率、双向带宽计量,以及以封装中GPU芯片数量计算GPU数量的新规则。

GPU与系统路线图:介绍了Blackwell Ultra B300、Rubin及Rubin Ultra的关键规格与性能改进,强调了新一代产品在性能、内存和网络互连上的突破。

推出的推理堆栈与Dynamo技术:通过智能路由器、GPU规划器、改进的NCCL、NIXL和NVMe KVCache卸载管理器等新功能,极大提升了推理吞吐量和效率。

共封装光学(CPO)技术:详述了CPO在降低功耗、提高交换机基数和网络扁平化方面的优势,以及其在未来规模化网络部署中的潜力。

文章指出,这些创新将显著降低AI总拥有成本,使得高效推理系统的部署成本大幅下降,并巩固了英伟达在全球AI生态系统中的领先地位。

Semianalysis深度解读全文为AI翻译

推理 Token 爆炸

人工智能模型的进步加速迅猛,在过去六个月里,模型的提升超过了此前六个月的进展。这一趋势将持续下去,因为三条扩展定律——预训练扩展、后训练扩展和推理时扩展——正协同作用,共同推动这一进程。

今年的GTC(GPU技术大会)将聚焦于应对新的扩展范式。

机构深度解读黄仁勋GTC演讲

来源:英伟达

Claude 3.7在软件工程领域展现了惊人的性能。Deepseek v3显示出上一代模型的成本正在急剧下降,这将进一步推动其应用普及。OpenAI的o1和o3模型证明,延长推理时间和搜索功能意味着答案质量大幅提升。正如预训练定律早期所展示的那样,后训练阶段增加计算资源没有上限。今年,Nvidia正致力于大幅提升推理成本效率,目标是实现35倍的推理成本改善,从而支持模型的训练和部署。

去年市场的口号是“买得越多,省得越多”,但今年的口号变成了“省得越多,买得越多”。Nvidia在硬件和软件方面的推理效率提升,使得模型推理和智能代理的部署成本大幅降低,从而实现成本效益的扩散效应,这正是杰文斯悖论的经典体现。

市场担心的是,DeepSeek式的软件优化以及Nvidia主导的硬件进步带来的巨大成本节省,可能导致对AI硬件的需求下降,市场可能出现Token供过于求的情况。价格会影响需求,当AI成本降低时,AI能力的边界不断被突破,而需求随之增加。如今,AI的能力受限于推理成本,随着成本下降,实际的消费量反而会增加。

对Token通缩的担忧类似于讨论光纤互联网每个数据包连接成本下降时,却忽略了网站和互联网应用对我们生活、社会和经济的最终影响。关键区别在于,带宽存在上限,而随着能力的显著提升和成本的下降,对AI的需求则可以无限增长。

Nvidia提供的数据支持了杰文斯悖论的观点。现有模型的Token数超过100万亿,而一个推理模型的Token量是其20倍,计算量则高出150倍。

机构深度解读黄仁勋GTC演讲

来源:英伟达

测试时的计算需要数十万Token/查询,每月有数亿次查询。后训练扩展阶段,即模型“上学”,每个模型需要处理数万亿Token,同时需要数十万后训练模型。此外,具备代理能力的AI意味着多个模型将协同工作,解决越来越复杂的问题。

黄仁勋数学每年都在变化

每年,黄仁勋都会推出新的数学规则。今年的情况更为复杂,我们观察到第三条新的黄仁勋数学规则。

第一条规则是,Nvidia公布的FLOPs数据以2:4稀疏度(实际上无人使用)计,而真实性能指标是密集FLOPs——也就是说,H100在FP16下被报为989.4 TFLOPs,实际密集性能约为1979.81 TFLOPs。

第二条规则是,带宽应以双向带宽来计量。NVLink5的带宽被报为1.8TB/s,因为它的发送带宽为900GB/s,加上接收带宽900GB/s。尽管这些数据在规格书中相加,但在网络领域,标准是以单向带宽计量。

现在,第三条黄仁勋数学规则出现了:GPU数量将按照封装中GPU芯片的数量计,而非封装数量。从Rubin系列开始,这一命名方式将被采用。第一代Vera Rubin机架将被称为NVL144,即使其系统架构与GB200 NVL72类似,只不过采用了相同的Oberon机架和72个GPU封装。这种新的计数方式虽然让人费解,但我们只能在黄仁勋的世界中接受这一变化。

现在,让我们来回顾一下路线图。

GPU和系统路线图

机构深度解读黄仁勋GTC演讲

来源:英伟达

Blackwell Ultra B300

机构深度解读黄仁勋GTC演讲

来源:英伟达

Blackwell Ultra 300已预览过,细节与去年圣诞节时我们分享的基本一致。主要规格如下:GB300不会以单板形式出售,而是作为B300 GPU出现在一个便携式SXM模块上,同时搭载Grace CPU,也以便携式BGA形式出现。在性能上,B300相对于B200在FP4 FLOPs密度上提升超过50%。内存容量升级到每个封装288GB(8个12-Hi HBM3E堆叠),但带宽维持在8 TB/s不变。实现这一目标的关键在于减少了许多(但不是全部)FP64运算单元,并将其替换为FP4和FP6运算单元。双精度工作负载主要用于HPC和超级计算,而非AI。虽然这让HPC群体感到失望,但Nvidia正转向强调更重要的AI市场。

B300 HGX版本现在称为B300 NVL16。这将采用之前称为“B300A”的单GPU版本,现在简称“B300”。由于单个B300没有高速D2D接口连接两个GPU芯片,可能存在更多通信间接费用。

B300 NVL16将取代B200 HGX形态,采用16个封装和GPU芯片在一块基板上。为实现这一点,每个SXM模块上放置2个单芯片封装,共8个SXM模块。尚不清楚Nvidia为何不继续采用8×双芯B300,而选择这种方式,我们怀疑这是为了从更小的CoWoS模块和封装基板中提高产量。值得注意的是,该封装技术将采用CoWoS-L而非CoWoS-S,这一决策意义重大。CoWoS-S的成熟度和产能是单芯B300A的原因,而这一转变表明CoWoS-L已迅速成熟,其产率相比起初的低迷已有所稳定。

这16个GPU将通过NVLink协议通信,与B200 HGX类似,两块NVSwitch 5.0 ASIC将位于SXM模块的两个阵列之间。

新细节是,与以往的HGX不同,B300 NVL16将不再采用Astera Labs的重定时器。不过,一些超大规模云服务提供商可能会选择加入PCIe交换机。我们曾在今年早些时候向Core Research订阅者透露过这一消息。

另一个重要细节是,B300将引入CX-8 NIC,该网卡提供4个200G的通道,总吞吐量达到800G,为InfiniBand提供新一代网络速度,这比现有的CX-7 NIC提升一倍。

Rubin技术规格

机构深度解读黄仁勋GTC演讲

来源:英伟达

机构深度解读黄仁勋GTC演讲

来源:Semianalysis

Rubin将采用台积电3nm工艺,拥有两个reticle-size计算芯片,左右各配备两个I/O Tile,内置所有NVLink、PCIe以及NVLink C2C IP,以释放主芯片上更多用于计算的空间。

Rubin提供令人难以置信的50 PFLOPs密集FP4计算性能,比B300的代际性能增长超过三倍。Nvidia如何实现这一点?他们通过以下几个关键向量进行扩展:

1、如上所述,I/O芯片释放的面积可能增加20%-30%,可用于更多的流处理器和张量核。

2、Rubin将采用3nm工艺,可能使用定制的Nvidia 3NP或标准N3P。从3NP到4NP的转变大幅提升了逻辑密度,但SRAM几乎没有缩减。

3、Rubin将具有更高的TDP——我们估计约为1800W,这甚至可能推动更高的时钟频率。

4、结构上,Nvidia逐代扩大的张量核systolic array将进一步扩大:从Hopper的32×32到Blackwell的64×64,Rubin可能扩展至128×128。更大的systolic array提供了更好的数据复用和较低的控制复杂度,同时在面积和功耗上更高效。尽管编程难度增加,但Nvidia凭借内置冗余和修复机制实现了极高的参数良率,这使得即使个别计算单元失效,整体性能仍能得到保障。这与TPU不同,后者的超大张量核没有相同的容错能力。

机构深度解读黄仁勋GTC演讲

来源:Semianalysis

Rubin将继续使用Oberon机架架构,如同GB200/300 NVL72,并配备Vera CPU——Grace的3nm继任者。需要注意的是,Vera CPU将采用Nvidia全定制核心,而Grace则严重依赖Arm的Neoverse CSS核心。Nvidia还开发了一套定制互连系统,使得单个CPU核心能访问更多内存带宽,这一点是AMD和Intel难以匹敌的。

这就是新命名方式的由来。新机架将命名为VR200 NVL144,尽管系统架构与之前的GB200 NVL72类似,但由于每个封装含有2个计算芯片,总计144个计算芯片(72个封装×2个计算芯片/封装),Nvidia正在改变我们统计GPU数量的方式!

至于AMD,其市场营销团队需要注意,AMD在宣称MI300X家族可以扩展到64个GPU的规模上存在遗漏(每系统8个封装×每封装8个XCD芯片组),这是一个关键的市场机遇。

HBM与互连

Nvidia的HBM容量将一代比一代保持在288GB,但升级为HBM4:8个堆叠,每个12-Hi,层密度保持24GB/层。HBM4的应用使得总带宽得以提升,13TB/s的总带宽主要得益于总线宽度翻倍至2048位,针脚速度为6.5Gbps,符合JEDEC标准。

机构深度解读黄仁勋GTC演讲

来源:Semianalysis

NVLink第六代的速度翻倍至3.6TB/s(双向),这来自于通道数量翻倍,Nvidia仍采用224G SerDes。

回到Oberon机架,背板依然采用铜背板,但我们认为其电缆数量也相应增加,以适应每个GPU通道数量的翻倍。

NVSwitch方面,新一代NVSwitch ASIC也将通过通道数量翻倍来实现总带宽的翻倍,这将进一步提高交换机的性能。

Rubin Ultra规格

机构深度解读黄仁勋GTC演讲

来源:英伟达

Rubin Ultra是性能大幅提升的阶段。Nvidia将直接在一个封装中使用16个HBM堆叠,从8个增加至16个。整个机架将由4个掩模尺寸GPU组成,中间配有2个I/O芯片。计算区域翻倍,计算性能也翻倍至100 PFLOPs密集FP4性能。HBM容量增加到1024GB,超过普通Rubin的3.5倍。采用双堆叠设计,同时密度和层数也提高。为达到1TB内存,封装中将有16个HBM4E堆叠,每个堆叠有16层32Gb DRAM核心芯片。

我们认为,这种封装将拆分为两个互连器放置在基板上,以避免使用一个超大互连器(几乎8倍于掩模大小)。中间的2个GPU芯片将通过薄型I/O芯片进行互联,通信通过基板实现。这需要一个超大ABF基板,其尺寸超出当前JEDEC封装尺寸限制(宽度和高度均为120mm)。

该系统拥有总计365TB的高速存储,每个Vera CPU拥有1.2TB LPDDR,共计86TB(72个CPU),这为每个GPU封装留下约2TB的LPDDR,作为额外的二级内存。这是对定制HBM基芯功能的实现。LPDDR内存控制器集成在基芯上,为额外的二级内存服务,该内存位于板上LPCAMM模块上,与Vera CPU所带的二级内存协同工作。

机构深度解读黄仁勋GTC演讲

来源:Semianalysis

这也是我们将看到Kyber机架架构推出的时候。

Kyber机架架构

Kyber机架架构的关键新特性在于,Nvidia通过将机架旋转90度来提高密度。对于NVL576(144个GPU封装)的配置,这是大规模扩展网络规模的又一重大提升。

机构深度解读黄仁勋GTC演讲

来源:英伟达

让我们来看一下Oberon机架与Kyber机架的关键区别:

机构深度解读黄仁勋GTC演讲

来源:Semianalysis

·计算托盘旋转90度,形成类似于卡盒的形态,从而实现更高的机架密度。

·每个机架由4个筒仓组成,每个筒仓包括两层18个计算卡。

对于NVL576,每个计算卡中包含一个R300 GPU和一个Vera CPU。

每个筒仓总共有36个R300 GPU和36个Vera CPU。

这使得NVLink的世界规模达到144个GPU(576个芯片)。

·PCB背板取代了铜线背板,作为GPU与NVSwitch之间扩展链接的关键部件。

这一转变主要是由于在较小的占地面积内难以布置电缆。

机构深度解读黄仁勋GTC演讲

来源:英伟达

有迹象表明,供应链中出现了VR300 NVL1,152(288个GPU封装)的Kyber机架变体。如果按照GTC主题演讲中提到的晶圆数计算,您将看到红色标注的288个GPU封装。我们认为这可能是未来的一款SKU,其机架密度和NVLink世界规模将从展示的NVL576(144个封装)翻倍至NVL1,152(288个封装)。

此外,还有一款全新NVSwitch第七代,这一点值得注意。这是第一次引入中平台的NVSwitch,使得交换机总带宽和基数都有所提升,可扩展到单一域内576个GPU芯片(144个封装),不过拓扑结构可能不再是全互联的单级多平面结构,而可能转为具有过度订阅的两级多平面网络拓扑,或甚至采用非Clos拓扑。

Blackwell Ultra改进的指数级硬件单元

各种注意力机制(如flash-attention、MLA、MQA和GQA)都需要矩阵乘法(GEMM)和softmax函数(行归约和元素级指数运算)。

在GPU中,GEMM运算主要由张量核执行。虽然每代张量核性能不断提升,但负责softmax计算的多功能单元(MUFU)提升幅度较小。

在bf16(bfloat16)Hopper中,计算注意力层的softmax需要占用GEMM周期的50%。这要求内核工程师通过重叠计算来“隐藏”softmax的延迟,这使得编写内核变得异常困难。

机构深度解读黄仁勋GTC演讲

来源: Tri Dao @ CUDA Mode Hackathon 2024

在FP8(浮点数8位)的Hopper中,注意力层的softmax计算所需周期与GEMM相同。如果没有任何重叠,注意力层的计算时间将翻倍,大约需要1536个周期来计算矩阵乘法,再加1536个周期来计算softmax。这就是重叠技术提高吞吐量的关键所在。由于softmax和GEMM所需周期相同,工程师需要设计出完美重叠的内核,但现实中很难达到这一理想状态,根据阿姆达尔定律,完美重叠难以实现,硬件性能因此受损。

在Hopper GPU世界中,这一挑战尤为明显,第一代Blackwell也面临类似问题。Nvidia通过Blackwell Ultra解决了这一问题,在重新设计SM(流多处理器)并增加新的指令后,使MUFU计算softmax部分的速度提升了2.5倍。这将减轻对完美重叠计算的依赖,使得CUDA开发者在编写注意力内核时有更大的容错空间。

机构深度解读黄仁勋GTC演讲

来源: Tri Dao @ CUDA Mode Hackathon 2024

这正是Nvidia新的推理堆栈和Dynamo技术大显身手的地方。

推理堆栈与Dynamo

在去年的GTC上,Nvidia讨论了GB200 NVL72的大规模GPU扩展如何使推理吞吐量较H200在FP8下提升15倍。

机构深度解读黄仁勋GTC演讲

来源:英伟达

Nvidia并未放缓步伐,而是在硬件和软件领域同时加速推理吞吐量的提升。

Blackwell Ultra GB300 NVL72较GB200 NVL72在FP4密集性能上提升50%,同时HBM容量也提升50%,这两项均将提高推理吞吐量。路线图中还包括Rubin系列中网络速度的多项升级,这也将显著提升推理性能。

下一步硬件在推理吞吐量方面的跃升将来自Rubin Ultra中扩展的网络规模,其规模将从Rubin中的144个GPU芯片(或封装)扩展到576个GPU芯片,这只是硬件改进的一部分。

在软件方面,Nvidia推出了Nvidia Dynamo——一个开放的AI引擎堆栈,旨在简化推理部署和扩展。Dynamo有潜力颠覆现有的VLLM和SGLang,提供更多功能且性能更高。结合硬件创新,Dynamo将使推理吞吐量和交互性之间的曲线进一步右移,尤其是为需要更高交互性的应用场景提供改进。

机构深度解读黄仁勋GTC演讲

来源:英伟达

Dynamo引入了多个关键新功能:

·Smart Router:智能路由器能在多GPU推理部署中合理分配每个Token,确保在预加载和解码阶段均衡负载,避免瓶颈。

·GPU Planner:GPU规划器可以自动调整预加载和解码节点,依据日内需求波动动态增加或重新分配GPU资源,进一步实现负载均衡。

·改进的NCCL Collective for Inference:Nvidia Collective Communications Library(NCCL)的新算法使得小消息传输延迟降低4倍,从而显著提高推理吞吐量。

·NIXL(NVIDIA Inference Transfer Engine):NIXL利用InfiniBand GPU-Async Initialized(IBGDA)技术,将控制流和数据流均直接从GPU传输到NIC,无需通过CPU,极大降低延迟。

·NVMe KV-Cache Offload Manager:该模块允许将KV Cache离线存储到NVMe设备,避免在多轮对话中重复计算,从而加速响应并释放预加载节点容量。

智能路由器

智能路由器能在多GPU推理部署中智能地将每个token同时路由到预加载(prefill)和解码(decode)GPU上。在预加载阶段,确保传入的tokens均匀分配到各个负责预加载的GPU上,从而避免某个expet参数模块因流量过载而形成瓶颈。

同样,在解码阶段,确保序列长度和请求在负责解码的各GPU之间得到合理分配和平衡也十分关键。对于那些处理量较大的expet参数模块,GPU规划器(GPU Planner)还可将其复制,以进一步维持负载平衡。

此外,智能路由器还能在所有模型副本之间实现负载均衡,这一点是vLLM等许多推理引擎所不具备的优势。

机构深度解读黄仁勋GTC演讲

来源:英伟达

GPU规划器

GPU规划器是预加载和解码节点的自动扩展器,可根据一天内需求的自然波动启动额外节点。它能够在基于专家模型(MoE)的多个expet参数模块之间实施一定程度的负载均衡,无论是在预加载还是在解码阶段。GPU规划器会启动额外的GPU,为高负载expet参数模块提供更多计算能力,并可根据需要在预加载和解码节点之间动态重新分配资源,从而最大化资源利用率。

此外,它还支持调整用于解码和预加载的GPU比例——这对像Deep Research这样的应用尤为重要,因为这类应用需要预加载大量上下文信息,而实际生成的内容却相对较少。

机构深度解读黄仁勋GTC演讲

来源:英伟达

改进的NCCL集体通信

Nvidia Collective Communications Library (NCCL)中新增的一组低延迟通信算法,可以将小消息传输的延迟降低4倍,从而大幅提升整体推理吞吐量。

在今年的GTC上,Sylvain在演讲中详细介绍了这些改进,重点阐述了单次和双次全归约(all-reduce)算法如何实现这一效果。

由于AMD的RCCL库实际上是Nvidia NCCL的复制版本,Sylvain对NCCL的重构将持续扩大CUDA的护城河,同时迫使AMD在同步Nvidia重大重构成果上耗费大量工程资源,而Nvidia则可以利用这些时间继续推进集体通信软件堆栈和算法的前沿发展。

机构深度解读黄仁勋GTC演讲

来源:英伟达

NIXL —— Nvidia推理传输引擎

为了在预加载节点和解码节点之间实现数据传输,需要低延迟、高带宽的通信传输库。NIXL采用InfiniBand GPU-Async Initialized (IBGDA)技术。

目前在NCCL中,控制流经过CPU代理线程,而数据流则直接传输到网卡,无需经过CPU缓冲。而使用IBGDA后,控制流与数据流均可直接从GPU传输到网卡,无需CPU中转,从而大幅降低延迟。

此外,NIXL还能将在CXL、本地NVMe、远程NVMe、CPU内存、远程GPU内存及GPU之间传输数据的复杂性进行抽象,简化数据移动流程。

机构深度解读黄仁勋GTC演讲

来源:英伟达

NVMe KVCache卸载管理器

KVCache卸载管理器通过将之前用户对话中生成的KV缓存存储到NVMe设备中,而非直接丢弃,来提高预加载阶段整体效率。

机构深度解读黄仁勋GTC演讲

来源:英伟达

在用户与大型语言模型(LLM)进行多轮对话时,模型需要将前期问答作为输入token纳入考量。传统上,推理系统会丢弃用于生成这些问答的KV缓存,导致必须重新计算,从而重复同样的计算过程。

而采用NVMe KVCache卸载后,当用户暂时离开时,KV缓存会被卸载到NVMe存储中;当用户重新提问时,系统可以迅速从NVMe中检索KV缓存,免去了重新计算的开销。

这不仅释放了预加载节点的计算能力,使其能够处理更多的输入流量,同时还改善了用户体验,显著缩短了从开始对话到接收到第一个token的时间。

机构深度解读黄仁勋GTC演讲

来源:英伟达

根据DeepSeek在开源周第6天的GitHub说明,研究人员披露其磁盘KV缓存命中率为56.3%,表明在多轮对话中典型的KV缓存命中率可达到50%-60%,这对预加载部署效率提升起到了显著作用。虽然在对话较短时,重新计算可能比加载更便宜,但总体来看,采用NVMe存储方案所带来的节约成本是巨大的。

追踪DeepSeek开源周的朋友对上述技术应该并不陌生。这些技术堪称快速了解Nvidia Dynamo创新成果的绝佳途径,而Nvidia也将推出更多关于Dynamo的文档。

所有这些新特性共同实现了推理性能的大幅加速。Nvidia甚至讨论过,当Dynamo部署在现有的H100节点上时,性能如何进一步提升。基本上,Dynamo使得DeepSeek的创新成果普惠整个社区,不仅限于那些拥有顶尖推理部署工程能力的AI实验室,所有用户都能部署高效的推理系统。

最后,由于Dynamo能够广泛处理分散推理和专家并行性,它特别有利于单个复制和更高交互性部署。当然,要充分发挥Dynamo的能力,必须有大量节点作为前提,从而实现显著的性能改进。

机构深度解读黄仁勋GTC演讲

来源:英伟达

这些技术共同带来了推理性能的巨大提升。Nvidia提到,当Dynamo部署在现有的H100节点上时,也能实现显著的性能改进。换句话说,Dynamo使得整个开源推理技术的最佳成果惠及所有用户,不仅仅是那些拥有深厚工程背景的顶级AI实验室。这让更多的企业能够部署高效的推理系统,降低整体成本,提高应用的交互性和扩展性。

AI总拥有成本下降

在讨论完Blackwell之后,黄仁勋强调,这些创新已使他成为“首席收入破坏者”。他指出,Blackwell相比Hopper的性能提升达68倍,使得成本下降了87%。而Rubin预计将实现比Hopper高900倍的性能提升,成本降低99.97%。

显然,Nvidia正以不懈的步伐推动技术进步——正如黄仁勋所言:“当Blackwell开始大规模出货时,你甚至不可能把Hopper免费送出。”

机构深度解读黄仁勋GTC演讲

来源:英伟达

我们早在去年10月的《AI Neocloud行动指南》中就强调,产品周期早期部署计算能力的重要性,而这正是驱动H100租赁价格从2024年中期开始加速下跌的原因。我们一直呼吁整个生态系统优先部署下一代系统,如B200和GB200 NVL72,而不是继续采购H100或H200。

我们的AI云总拥有成本(TCO)模型已经向客户展示了各代芯片生产率的跃升,以及这种跃升如何推动AI Neocloud租赁价格的变化,进而影响芯片所有者的净现值。截至目前,我们在2024年初发布的H100租赁价格预测模型准确率达到98%。

机构深度解读黄仁勋GTC演讲

来源: AI TCO Model

CPO(共封装光学)技术

机构深度解读黄仁勋GTC演讲

来源:英伟达

在主题演讲中,Nvidia宣布了首个共封装光学(CPO)解决方案,将其部署于扩展交换机中。通过CPO,收发器被外部激光源(ELS)取代,与直接放置在芯片硅片旁边的光学引擎(OE)协同工作,实现数据通信。现在,光纤直接插入交换机上的端口,将信号路由至光学引擎,而不再依赖传统收发器端口。

机构深度解读黄仁勋GTC演讲

来源:英伟达

CPO的主要优势在于显著降低功耗。由于交换机上不再需要数字信号处理器(DSP),而且可以使用功耗更低的激光光源,因此实现了显著的功耗节省。使用线性可插光模块(LPO)也能取得类似效果,但CPO还允许更高的交换机基数,从而将网络结构扁平化——使得整个集群能够通过使用CPO实现两层网络,而非传统三层网络。这样不仅降低了成本,也节约了功耗,这种节能效果几乎和降低收发器功耗一样显著。

我们的分析显示,对于一个400k* GB200 NVL72部署而言,从基于DSP收发器的三层网络转向基于CPO的两层网络,总集群功耗节省最高可达12%,使得收发器功耗从占计算资源的10%降至仅1%。

机构深度解读黄仁勋GTC演讲

来源:Semianalysis

Nvidia今天推出了多款基于CPO的交换机,包括Quantum X-800 3400的CPO版本,该交换机去年在GTC 2024上首发,具有144个800G端口,总吞吐量达到115T,并将配备144个MPO端口和18个ELS。该交换机将于2025年下半年推出。另一款Spectrum-X交换机提供512个800G端口,同样适用于高速、扁平化的网络拓扑,该以太网CPO交换机计划于2026年下半年推出。

机构深度解读黄仁勋GTC演讲

来源:英伟达

尽管今天的发布已经具有突破性意义,我们仍认为Nvidia在CPO领域仅仅是热身。长远来看,CPO在规模化网络中的最大贡献在于,它能够大幅提升GPU扩展网络的基数和聚合带宽,从而实现更快、更扁平的网络拓扑,开启远超576 GPU的规模化世界。我们将很快发布一篇更详细的文章,深入探讨Nvidia的CPO解决方案。

Nvidia依旧称王,瞄准你的计算成本

今天,《Information》发布了一篇文章,称亚马逊Trainium芯片的定价仅为H100价格的25%。与此同时,黄仁勋宣称:“当Blackwell开始大规模出货时,你甚至无法将H100免费送出。”我们认为这一说法极具分量。技术进步正在推动总体拥有成本的下降,而除了TPU之外,我们在各处都能看到Nvidia路线图的复制品。而黄仁勋正推动技术边界的不断突破。新的架构、机架设计、算法改进以及CPO技术都使Nvidia与竞争对手形成鲜明对比。Nvidia在几乎所有领域都处于领先地位,而当竞争对手追赶上来时,他们会在另一个方向继续突破。随着Nvidia保持一年一度的升级节奏,我们预计这一势头将继续。有人谈论ASIC将是计算的未来,但我们已经看到,像CPU时代那样的平台优势很难被超越。Nvidia正在通过GPU重新构建这种平台,我们预期他们将继续走在前沿。

正如黄仁勋所说,“祝你好运,跟上这位首席收入破坏者的步伐。”

本文来自华尔街见闻,欢迎下载APP查看更多

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com