CPO 技术崛起,数据中心转型势不可挡
2025 年 OFC 展会清晰地表明,数据中心向 CPO 交换机的转型已是不可避免的趋势,其主要的驱动力在于 CPO 能够带来显著的功耗节省。从黄仁勋在 2025 年 GTC 大会上展示 CPO 交换机,到众多厂商在 2025 年 OFC 展会上演示集成在 ASIC 封装内的光引擎,共封装光学(CPO)技术已然无处不在,成为行业关注的焦点。
不过,Arista 联合创始人、数据中心网络领域的长期远见者安迪・贝托尔斯海姆(Andy Bechtolsheim)尚未改变立场。在 2025 年 OFC 展会上,他依旧主张线性可插拔光学(LPO)是更优选择。LPO 移除了板载数字信号处理器,相较于传统可插拔光学器件,功耗显著降低,通常能减少 30 - 50%。安迪认为,至少在 1600G 代际,LPO 与 CPO 的功率效率大致相当,所以他质疑为何要接受 CPO 额外的复杂性。然而,在更高的 SerDes 速率下,LPO 面临着 ASIC 与面板光器件之间电通道插入损耗的挑战。安迪提出,在 1600G 代际,可通过带近封装连接器的跨接电缆来缓解这一问题。
他对 CPO 的担忧主要包括失去配置灵活性(所有端口必须使用相同类型的光器件)、光器件类型混合搭配困难,以及潜在的厂商互操作性和可维护性挑战。光模块会出现硬故障和软故障,即使是高质量光器件,硬故障率约为 100 FIT,而软故障(通常由连接器灰尘引起)更为常见。采用 CPO 时,检查或更换故障光器件所需时间长得多。更糟糕的是,封装内嵌入的光端口故障会导致交换机吞吐量下降,且难以更换。
尽管这些担忧并非新鲜事,但行业在过去两年已取得显著进展。如今,CPO 技术的可靠性大幅提升。展望 400G 每通道 SerDes 代际,CPO 可能成为唯一可行选择。在如此高的速率下,即使是最佳的 PCB 走线或跨接电缆也可能引入过多插入损耗,届时在封装内实现光信号传输将成为必要。因此,若转型不可避免,提前拥抱 CPO 并助力其演进或许是明智之举。
CPO 集成
无论是共封装还是作为可插拔模块一部分的光收发器,其光引擎通常包含电子集成电路(EIC)和光子集成电路(PIC)。在包含交换机或 XPU 核心的 ASIC 封装内集成这些光引擎,主要有两种方式。
■硅中介层方案
核心裸片与电子 IC(EIC)可共置于硅中介层上(或通过英特尔 EMIB 等硅桥连接),而 PIC 则要么 3D 堆叠在 EIC 上方,要么放置在有机基板中。当 PIC/EIC 堆叠在硅中介层上的核心裸片旁时,它们也被称为光学 I/O。
该方案的目标是通过利用高密度 D2D 链路和中介层布线,缩短并改善核心裸片与光引擎之间的电连接。这种中介层方案允许将多个光学小芯片更靠近主裸片放置,从而实现更小的封装。
然而,将高功耗 EIC 与核心裸片共置于中介层上会使热管理复杂化。此外,若 PIC 堆叠在 EIC 上,EIC 的散热将更加困难。大型硅中介层会增加封装成本和复杂性,且中介层尺寸限制了可围绕 ASIC 布置的光模块数量。为在不增加复杂性或成本的前提下提升带宽,光引擎需要具备更高的带宽密度。
■有机基板方案
第二种方案将光引擎保留在 ASIC 封装内的有机基板上(而非硅中介层)。PIC 和 EIC 被组装在一起(通常是 PIC 在底部堆叠于 EIC 上方),形成紧凑的光引擎模块,然后安装在主裸片周围的有机基板上。核心裸片通过 SerDes 接口与 EIC 通信,在最新工艺节点中,该接口通常具有 500-1000 Gbps/mm 的带宽密度。这意味着,一个面积为 625 平方毫米(每边 25 毫米)的核心裸片可向光引擎发送约 100 Tbps 的带宽。为实现超过 100 Tbps 的带宽,封装内通常需要多个核心裸片。
该方案允许光引擎在基板上间隔布置,从而在一定程度上放宽了对每个引擎的光带宽密度要求。由于引擎与主裸片距离较远,这有助于热隔离。每个光引擎可配备独立的微型散热器,或通过间隔布置使气流或冷板能够触及。重要的是,将 PIC 堆叠在 EIC 下方(最靠近基板)比反向堆叠具有更好的散热和信号性能。
由于不受大型中介层的限制,若有需要,封装可做得更大(且不会显著增加成本)以容纳更多引擎。尽管组装过程仍然复杂,但具有模块化特点。光引擎可在安装到有机基板之前进行独立测试。这是集成 CPO 的流行方案。
什么是带宽密度?
并非所有 CPO 解决方案都相同。任何 CPO 解决方案的最终目标都是以最低功耗实现高带宽密度。这就引出了下一个问题:带宽密度究竟是什么?
在 CPO 和光学 I/O 的语境中,带宽密度(通常称为 “前沿密度” 或 “海岸线密度”)描述的是沿光接口集成边缘每毫米可传输的数据量,单位通常为太比特每秒(Tbps)。请注意,该指标并非在面板连接器级别测量,而是在 ASIC 裸片边缘或与 ASIC 共封装的光子小芯片 / 光引擎边缘测量。这些是封装内光纤或波导耦合的物理边界。
行业来源一致采用这一定义,带宽密度单位常为 Tbps/mm 或光纤数 /mm,具体取决于侧重点是吞吐量还是物理通道数。更高的前沿密度意味着芯片可在不增加占用面积的情况下输出更多光带宽。提升前沿密度对满足数据中心和高性能计算系统中爆炸式增长的带宽需求至关重要。
方案对比:博通 vs 英伟达
现在,为理解共封装光学,让我们更深入地考察博通和英伟达的 CPO 产品。
■封装带宽
博通去年推出了 Bailly CPO 交换机。该交换机基于 Tomohawk-5 ASIC,封装内集成了八个 6.4 Tbps 光引擎,总封装外光带宽为 51.2 Tb/s(64×800 Gbps 或 128×400 Gbps)。
我们预计下一代 102.4 Tbps CPO 交换机将采用演进的 CPO 架构,围绕 Tomohawk-6 裸片部署改进的硅光子引擎(每个引擎带宽 12.8 Tbps 甚至更高)。这些约 100 Tbps 的交换机可能在今年下半年面市。
博通制造的芯片可供交换机厂商用于构建系统。已有几家公司处于使用 Bailly 交换机开发交换机的不同阶段(或已进入早期采样)。在所有这些交换机产品中,均使用单个 Baily 芯片(面板具有 128×400G 端口)构建独立系统。
英伟达在 2025 年 GTC 大会上推出的共封装光学平台目标更高,可扩展至 100 Tb/s 及以上。
Quantum-X InfiniBand 交换机系统将具备:144 个 800 Gb/s 端口(或 576×200 Gbps),总计 115.2 Tbps 带宽;四个采用 Quantum X800 ASIC 的 Quantum-X CPO 封装,每个封装具备 28.8 Tbps 带宽(144×200 Gbps 或 36×800 Gbps);若要通过 28.8 Tbps 交换机实现 115.2 Tbps 的无阻塞交换容量,采用 Clos 架构时所需交换机数量将远多于四个。鉴于目前似乎仅有四个交换机,这看起来并非真正的 115.2 Tbps 交换机。
Spectrum-X 光子以太网交换机系列将具备:128 个 800G 端口(或 512 个 200G 端口),提供 102.4 Tb/s 带宽。这可能包含两个 Spectrum-X CPO 封装,每个封装具备 51.2 Tbps 带宽(64×800 Gbps 或 256×200 Gbps);还将提供更大配置,包含 512 个 800G 端口(409.6 Tb/s),可能采用 4 个 CPO 封装;与 Quantum 类似,除非在交换机机箱内使用更多交换机用于芯片间连接,否则这些并非真正的 102.4 T 或 409.6 Tbps 交换机。
因此,在容量方面,博通目前拥有 51.2T 解决方案,与当前网络需求(800G 以太网时代,100G Serdes)一致,2025 年路线图中规划了 100 Tbps;而英伟达则跨越式发展至 100-400T,以满足未来百万 GPU 集群需求(200G Serdes)。英伟达更大的带宽数字反映了其更激进的架构方案,专注于通过大规模集成(系统内使用多个光子交换机芯片)实现更高基数的交换机。
■光引擎
博通 Bailly 芯片在 ASIC 封装内集成了 6.4 Tbps 硅光子基光引擎。这些高密度边缘安装的光引擎通过有机基板上的短芯片间连接直接与核心裸片交互。这种紧密集成实现了更简单的物理布局。
英伟达的 Spectrum-X(以太网)和 Quantum-X(InfiniBand)光子交换机也集成了多个 1.6 Tbps 硅光子基光子引擎。每个光子引擎采用台积电 COUPE™工艺制造,将电子裸片(EIC)堆叠在光子裸片上方。三个此类引擎集群组成可拆卸光子组件(OSA),吞吐量达 4.8 Tbps。这意味着光引擎(及其光纤接口)位于可更换模块上,与交换机基板对接,而非像博通方案那样永久粘合!
因此,英伟达的封装更为复杂,采用先进的 2.5D/3D 集成(引擎裸片使用台积电 SoIC 堆叠)和光部件的模块化连接系统。这在一定程度上解决了可维护性担忧。若在制造测试中发现插件模块故障,可更换为其他模块。
在 Quantum-X CPO 交换机中,每个 ASIC 封装包含 Quantum X800 28.8 Tbps 交换机 ASIC 核心,以及连接至主封装的六个 OSA 插件模块。
总之,博通方案是光器件嵌入的单封装交换机,而英伟达方案则是具备可拆卸光子模块的新型封装。
Spectrum-X CPO 封装让我们对小芯片架构有了更多了解。它似乎将主核心交换机裸片与八个 I/O 裸片紧密集成(通过裸片间接口),而光子引擎(36 个)围绕它们布置在有机基板中。这些光子引擎是否属于可拆卸 OSA 的一部分尚不可知。
■光纤耦合
博通 CPO 交换机采用光引擎的边缘耦合光纤连接,以实现高前沿密度。每个光引擎 PIC 上有承载光信号的片上波导,这些波导终止于光子小芯片边缘。光纤被精确对准并永久粘合(通常使用环氧树脂)到这些波导端面。博通已开发出高度自动化的高密度光纤连接工艺,可将多根光纤芯精确对准光子小芯片边缘。这种边缘耦合方案允许大量光通道以紧凑的占用面积从封装中引出。
在第一代 CPO 中,博通似乎使用 400G-FR4,通过 CWDM 在单根光纤上实现四个 100G 通道。如此,每个光引擎配备 16 对光纤(发送 + 接收 = 一对)以处理 6.4T 吞吐量。然而,博通可能正在开发新版本芯片,配备 64 对光纤(每对承载 100 Gbps),以支持更大基数的交换机(512×100G 端口)。
直接从光引擎引出的短光纤称为 “光纤尾纤”。光引擎引出的光纤尾纤必须路由至面板连接器,但这些尾纤短而脆弱,无法直接路由至面板。ASIC 引出的光纤尾纤通常通过连接器在交换机盒内部与更长、更坚固的光纤连接,后者再延伸至面板。
英伟达 Quantum-X InfiniBand 交换机封装每个 CPO 封装有 324 个光连接。为支持 144×200 Gbps,需要 144 对光纤(288 根光纤),剩余 36 个用于连接 ASIC 的激光器 ——18 个光子引擎各获得两个激光输入。
四对光纤(4×200 Gbps)每组汇聚为一个 DR4,并在面板处端接至单个 MPO(多光纤推入式)连接器。因此,配备 4 个 CPO 封装的交换机系统在面板处有 144 个 MPO。
尽管耦合方法的细节尚未完全公开,但英伟达很可能也在光子引擎上使用边缘耦合。
总之,博通和英伟达都必须解决大规模光纤耦合问题。博通在第一代 CPO 交换机中依靠 WDM 减少光纤数量,而从 GTC 演示中的光纤数量来看,英伟达似乎未使用 WDM。
■激光器集成
CPO 设计中最大的考量之一是如何处理为光引擎内调制器提供光源的激光器。博通和英伟达的设计均将所有高功率激光器置于主交换机封装之外,转而使用外部可插拔激光模块(外部激光源或 ELS)。这些模块可插入面板 LC 端口,接受热插拔激光 cartridges。
光纤跳线将连续波光从这些激光模块传输至共封装光引擎。该策略可保持 CPO 的低功耗并提高其可靠性。激光器的退化可能快于其他组件,因此外部激光器可轻松更换,而无需干扰交换机 ASIC。
Bailly 交换机使用 16 个高效可插拔激光模块,每个 6.4 Tbps 光引擎配备两个模块。
英伟达的方案更进一步,大幅减少了所需激光源的总数。在 Quantum-X 光子交换机系统中,仅 18 个面板连接的激光模块为所有 144×800G 光通道提供光源。每个模块集成八个激光器,为八个 1.6 Tbps 光子引擎提供光源。因此,英伟达架构的可插拔激光模块数量(按每单位带宽的模块数计算)比博通方案少 4 倍。
更少的激光器意味着需要冷却和监控的组件更少,但这也意味着若某个激光模块故障,受影响的通道会更多。
■调制器
调制器是光引擎内将电信号转换为光信号的组件。它们从激光器获取稳定光,并通过将光转换为强度或相位调制的光数据流,将高速数据 “印刻” 在其上。深入理解这些调制器的工作原理是一个超出我专业领域的技术话题。
简而言之,博通很可能使用马赫 - 曾德尔调制器(MZM)。这类调制器对激光不稳定性较不敏感,对温度变化的耐受性更好,但功耗更高且占用面积更大(尺寸更大)。尽管 MZM 适用于 100 Gbps 信号传输,但在扩展至~200G 通道和数百 Tbps CPO 封装时,会面临密度和功耗限制。
这可能就是英伟达 CPO 方案选择微环谐振器调制器(MRM)的原因。MRM 占用面积更小(可很好地扩展),所需驱动电压更低,因此功耗更低。这些调制器还原生支持 WDM;每个环针对一个波长,非常适合每根光纤 8-16 个波长的系统。但这些调制器需要更多调谐(因其热敏感性)和强大的 DSP 逻辑来减少串扰。英伟达选择 MRM 表明其在 CPO 方案中对功耗节省的激进追求。MRM 的功耗约为 1-2 pJ/bit,而 MZM 为 5-10 pJ/bit。
■波分复用
博通在每根光纤上使用粗波分复用(CWDM),采用 4 通道 4λ×100G 配置承载 400G。其文档未解释如何实现 800 Gbps 端口配置,可能涉及非标准配置,如聚合两条 400G FR4 链路,或可能正在开发支持 DR 链路(直接传输,无 WDM,每根光纤承载 100G)的新版本 CPO 交换机。
从每个 CPO 封装的光纤对数量来看,英伟达 Quantum-X 似乎不支持 WDM,这与 200G 端口数量一致。
■功率效率与散热
共封装光学的主要动机之一是提升功率效率。博通和英伟达均报告称,与传统可插拔收发器相比,单位比特功耗显著降低。
博通声称其共封装光学每个 800 Gb/s 端口功耗约 5.5W,而等效可插拔模块约为 15W。这 3 倍的降幅意味着满载的 64 端口(每个 800G)交换机可节省数百瓦功率。5.5W 的功耗转化为光链路 6-7 pJ/bit 的功耗,这在 2024 年属于领先水平。
冷却此类系统比冷却包含数十个 15W 可插拔器件的等效交换机更容易。尽管如此,51.2T CPO 交换机的 ASIC 封装功率密度集中,仍会散发出大量热量,需要冷板液冷。不过,其单元很可能也可使用高性能风冷。
英伟达同样宣扬效率大幅提升:通过使用微环调制器和更少的激光器,其硅光子交换机的网络链路功率效率提升 3.5 倍。与博通类似,这些交换机需要液冷以有效散除 ASIC 封装的热量。事实上,GTC 大会上的 Quantum-X CPO 演示显示,交换机 ASIC 采用冷板液冷。
简而言之,两种方案均实现了更低的 pJ/bit 功耗,使超高带宽网络更具可持续性。
未来,垂直耦合、多芯光纤与光纤间距缩小、先进耦合器与连接方法等技术正在积极探索中,以突破带宽墙。CPO 部署面临生态系统颠覆、运营复杂性、可靠性验证、成本和热管理等挑战,在 200G / 通道代际,不太可能在横向扩展应用中实现大规模部署,但会有更多测试部署。在纵向扩展方面,CPO 前景更为光明,可先过渡到 CPC(共封装铜缆),再过渡到 CPO 和光互连。此外,光子中介层或织物也是一种新的方案,虽面临热管理挑战,但具有很大的潜力。

热门文章
- 晟矽微电子(SINOMCU)产品选型手册(2024) 2024-09-13
- 储能系统优化:安全高效管理电池包的策略与实践 2024-09-19
- 美光斥资18亿元,成功收购友达光电台南及台中生产基地 2024-08-28
- 莱迪思半导体宣布重组减员14%,力求优化结构应对市场挑战 2024-11-05
- 功率放大器的解读:工作原理与实用电路图展示 2025-05-30
- 分压电路特点及原理的详细解读 2025-06-19
- 特朗普宣布OpenAI、软银等联手投资5000亿美元建设人工智能基础设施 2025-01-22
- 电路设计中瞬态过压保护:三大疑问全解读 2025-05-22
- 美国ITC裁定摩托罗拉智能手机侵犯爱立信5G专利 2024-12-18
- 台积电日本熊本厂正式量产12~28nm制程逻辑半导体 2024-12-30