Nvidia 对组合封装光学器件的认可意味着时机成熟

内容摘要期待已久的新兴计算机网络组件可能终于迎来了它的时刻。在 上周于圣何塞举行的 Nvidia GTC 大会上,该公司宣布将生产一款光网络交换机,旨在大幅降低 AI 数据中心的功耗。该系统称为组合封装光学器件 (CPO) 交换机,每秒可以将数十

期待已久的新兴计算机网络组件可能终于迎来了它的时刻。在 上周于圣何塞举行的 Nvidia GTC 大会上,该公司宣布将生产一款光网络交换机,旨在大幅降低 AI 数据中心的功耗。该系统称为组合封装光学器件 (CPO) 交换机,每秒可以将数十 TB 从一个机架中的计算机路由到另一个机架中的计算机。与此同时,初创公司 Micas Networks 宣布,它正在使用基于 Broadcom 技术的 CPO 交换机进行批量生产。

本文引用地址:

在当今的数据中心中,计算机机架中的网络交换机由专用芯片组成,这些芯片与插入系统的光收发器电气连接。 的共封装光学专家兼 IEEE 研究员 Clint Schow 说,他已经研究这项技术 20 年了。谈到 Nvidia 对技术的认可,他说该公司“不会这样做,除非 [GPU 密集型数据中心] 无力花费电力。所涉及的工程是如此复杂,Schow 认为除非“用老办法做事”是不值得的。

事实上,Nvidia 指出,即将到来的 AI 数据中心的功耗是一个动机。Nvidia 超大规模和高性能计算副总裁 Ian Buck 表示,在 AI 数据中心,可插拔光学器件消耗的“占 GPU 总计算能力的 10%,令人震惊”。在一个拥有 400,000 GPU 的工厂中,这将转化为 40 兆瓦,其中一半以上仅用于为可插拔光学收发器中的激光器供电。“一台拥有 400000 个 GPU 的 AI 超级计算机实际上是一台 24 兆瓦的激光器,”他说。

光调制器

Broadcom 的方案与 Nvidia 的方案之间的一个根本区别是光调制器技术,该技术将电子位编码到光束上。在硅光子学中,有两种主要类型的调制器——Broadcom 使用的 Mach-Zender 调制器,它是可插拔光学器件的基础,以及 Nvidia 选择的微环谐振器。在前者中,通过波导传播的光被分成两个平行的臂。然后,每个臂都可以通过施加的电场进行调制,从而改变通过的光的相位。然后,臂重新连接形成单个波导。根据这两个信号现在是同相还是异相,它们将相互抵消或合并。因此,电子位可以编码到光上。

微环调制器要紧凑得多。环形波导不是沿两条平行路径分割光线,而是悬挂在光线主路径的一侧。如果光的波长可以在环中形成驻波,它将被虹吸掉,从主波导中过滤掉该波长。与磁环共振的确切波长取决于结构的折射率,该折射率可以通过电子方式控制。

然而,微环的紧凑性是有代价的。微环调制器对温度敏感,因此每个调制器都需要一个内置的加热电路,必须仔细控制并消耗功率。另一方面,马赫-Zender 器件要大得多,导致更多的光线损失和一些设计问题,Schow 说。

期待已久的新兴计算机网络组件可能终于迎来了它的时刻。在 上周于圣何塞举行的 Nvidia GTC 大会上,该公司宣布将生产一款光网络交换机,旨在大幅降低 AI 数据中心的功耗。该系统称为共封装光学器件 (CPO) 交换机,每秒可以将数十 TB 从一个机架中的计算机路由到另一个机架中的计算机。与此同时,初创公司 Micas Networks 宣布,它正在使用基于 Broadcom 技术的 CPO 交换机进行批量生产。

在当今的数据中心中,计算机机架中的网络交换机由专用芯片组成,这些芯片与插入系统的光收发器电气连接。(机架内的连接是电气的,但一些初创公司希望改变这一点。可插拔收发器结合了激光器、光电路、数字信号处理器和其他电子设备。它们与交换机建立电气链路,并在交换机侧的电子位和沿光纤飞过数据中心的光子之间转换数据。

共封装光学器件通过将光/电数据转换尽可能靠近开关芯片来提高带宽和降低功耗。这简化了设置,并通过减少所需的独立组件数量和电子信号必须传输的距离来节省功耗。先进的封装技术允许芯片制造商用多个硅光收发器小芯片包围网络芯片。光纤直接连接到封装上。因此,除激光器外,所有组件都集成到一个封装中,激光器由于使用非硅材料和技术制造,因此保持外部。(即便如此,CPO 在 Nvidia 硬件中的每 8 个数据链路中只需要一个激光器。

“具有 400000 个 GPU 的 AI 超级计算机实际上是一台 24 兆瓦的激光器。”— Ian Buck,Nvidia 公司

尽管这项技术看起来很有吸引力,但它的经济性使其无法部署。“我们一直在等待 CPO,”加州大学圣巴巴拉分校 (University of California Santa Barbara) 的共封装光学专家兼 IEEE 研究员 Clint Schow 说,他已经研究这项技术 20 年了。谈到 Nvidia 对技术的认可,他说该公司“不会这样做,除非 [GPU 密集型数据中心] 无力花费电力。所涉及的工程是如此复杂,Schow 认为除非“用老办法做事”是不值得的。

事实上,Nvidia 指出,即将到来的 AI 数据中心的功耗是一个动机。Nvidia 超大规模和高性能计算副总裁 Ian Buck 表示,在 AI 数据中心,可插拔光学器件消耗的“占 GPU 总计算能力的 10%,令人震惊”。在一个拥有 400,000 GPU 的工厂中,这将转化为 40 兆瓦,其中一半以上仅用于为可插拔光学收发器中的激光器供电。“一台拥有 400000 个 GPU 的 AI 超级计算机实际上是一台 24 兆瓦的激光器,”他说。

光调制器

Broadcom 的方案与 Nvidia 的方案之间的一个根本区别是光调制器技术,该技术将电子位编码到光束上。在硅光子学中,有两种主要类型的调制器——Broadcom 使用的 Mach-Zender 调制器,它是可插拔光学器件的基础,以及 Nvidia 选择的微环谐振器。在前者中,通过波导传播的光被分成两个平行的臂。然后,每个臂都可以通过施加的电场进行调制,从而改变通过的光的相位。然后,臂重新连接形成单个波导。根据这两个信号现在是同相还是异相,它们将相互抵消或合并。因此,电子位可以编码到光上。

微环调制器要紧凑得多。环形波导不是沿两条平行路径分割光线,而是悬挂在光线主路径的一侧。如果光的波长可以在环中形成驻波,它将被虹吸掉,从主波导中过滤掉该波长。与磁环共振的确切波长取决于结构的折射率,该折射率可以通过电子方式控制。

然而,微环的紧凑性是有代价的。微环调制器对温度敏感,因此每个调制器都需要一个内置的加热电路,必须仔细控制并消耗功率。另一方面,马赫-Zender 器件要大得多,导致更多的光线损失和一些设计问题,Schow 说。

Schow 说,Nvidia 成功地将基于微环的硅光子引擎商业化是“一项了不起的工程壮举”。

Nvidia CPO 交换机

据 Nvidia 称,在新的 AI 数据中心采用 CPO 交换机将使激光器数量增加四分之一,将传输数据的功率效率提高 3.5 倍,将信号从一台计算机准时传输到另一台计算机的可靠性提高 63 倍,使网络对中断的弹性提高 10 倍,并允许客户将部署新数据中心硬件的速度提高 30%。

Nvidia 首席执行官黄仁勋表示:“通过将硅光子学直接集成到交换机中,Nvidia 打破了超大规模和企业网络的旧限制,并为拥有数百万个 GPU 的 AI 工厂打开了大门。

该公司计划推出两类交换机,即 Spectrum-X 和 Quantum-X。该公司表示,Quantum-X 将于今年晚些时候推出,它基于 Infiniband 网络技术,这是一种更面向高性能计算的网络方案。它从 144 个端口中的每个端口提供 800 Gb/s,其两个 CPO 芯片是液冷而不是风冷,越来越多的新 AI 数据中心也是如此。网络 ASIC 包括 Nvidia 的 SHARP FP8 技术,该技术允许 CPU 和 GPU 将某些任务卸载到网络芯片。

Spectrum-X 是一种基于以太网的交换机,可以从总共 128 或 512 个端口提供每秒约 100 TB 的总带宽,从 512 或 2048 个端口提供 400 Tb/s 的总带宽。硬件制造商预计将于 2026 年准备好 Spectrum-X 交换机。

Nvidia 多年来一直致力于基础光子学技术。但是,需要与 11 个合作伙伴(包括 TSMC、Corning 和 Foxconn)合作,才能实现商业化状态。

Nvidia 光互连产品总监 Ashkan Seyedi 强调,这些合作伙伴带来的技术必须经过协同优化以满足 AI 数据中心需求,而不是简单地从这些合作伙伴的现有技术组装而成,这一点非常重要。

“CPO 实现的创新和节能与您的包装方案、包装合作伙伴和包装流程密切相关,”Seyedi 说。“新颖性不仅在于直接的光学元件,还在于它们如何以高产量、可测试的方式进行封装,您可以以合理的成本进行管理。”

测试尤为重要,因为该系统是许多昂贵组件的集成。例如,Quantum-X 系统中的两个 CPO 中每个 CPO 都有 18 个硅光子学小芯片。每个激光器都必须连接到 2 个激光器和 16 根光纤。Seyedi 说,该团队必须开发几个新的测试程序才能正确无误并追踪错误悄然出现的位置。

Micas Networks 交换机

Micas Networks 已经投入生产,其交换机基于 Broadcom 的 CPO 技术。云母网络

Broadcom 光学系统部门产品营销高级经理 Robert Hannah 解释说,Broadcom 为其 Bailly CPO 开关选择了更成熟的 Mach-Zender 调制器,部分原因是它是一种更加标准化的技术,可能使其更容易与现有的可插拔收发器基础设施集成。

Mica 的系统使用单个 CPO 组件,该组件由 Broadcom 的 Tomahawk 5 以太网交换芯片组成,周围环绕着八个 6.4 Tb/s 硅光子学光引擎。风冷硬件现已全面投产,领先于 Nvidia 的 CPO 开关。

Hannah 称 Nvidia 的参与是对 Micas 和 Broadcom 时机的认可。“几年前,我们决定滑到冰球要去的地方,”Micas 的首席运营官 Mitch Galbraith 说。他说,随着数据中心运营商争先恐后地为其基础设施供电,CPO 的时代似乎已经到来。

与配备标准可插拔收发器的系统相比,新交换机有望节省 40% 的功耗。然而,Mica 企业战略副总裁 Charlie Hou 表示,CPO 更高的可靠性同样重要。他说,“链路抖动”是可插拔光链路瞬态故障的术语,是导致本已非常长的 AI 训练运行延长的罪魁祸首之一。CPO 预计链路抖动会更少,因为信号路径中的组件较少,以及其他原因。

未来的 CPO

Schow 建议,数据中心希望从 CPO 中获得的大型节能产品大多是一次性的好处。在那之后,“我认为这将成为新常态。然而,对电子设备其他功能的改进将使 CPO 制造商至少在一段时间内继续提高带宽。

Schow 怀疑单个硅调制器(在 Nvidia 的光子引擎中以 200 Gb/s 的速度运行)是否能够超过 400 Gb/s。然而,其他材料,如铌酸锂和磷化铟,应该能够超过这个数字。诀窍是以经济实惠的方式将它们与硅组件集成,总部位于圣巴巴拉的 OpenLight 和其他小组正在研究这一点。

与此同时,可插拔光学器件并没有停滞不前。本周,Broadcom 推出了一种新的数字信号处理器,该处理器可能会导致 1.6 Tb/s 收发器的功耗降低 20% 以上,部分原因是采用了更先进的硅工艺。

Avicena、Ayar Labs 和 Lightmatter 等初创公司正在努力将光学互连一直引入 GPU 本身。前两者开发了小芯片,旨在与 GPU 或其他处理器放在相同的封装中。Lightmatter 更进一步,使硅光子学引擎成为未来芯片 3D 堆叠的封装基板。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1