共封装光学达到临界点,重塑数据中心格局
基于共封装光学器件 (CPO) 的网络交换机已正式开启商业化进程,能够以每秒太比特的速度高效路由信号。然而,在光纤到光子 IC 对准、热缓解以及光学测试策略等方面,共封装光学器件仍面临着诸多制造挑战。
通过将光电数据转换尽可能地靠近数据中心的 GPU/ASIC 交换机,CPO 技术实现了带宽的显著提升,并有效降低了运行生成式 AI 和大型语言模型所需的功耗。采用共封装光学器件,有望大幅降低训练 AI 模型的能源成本,显著提高数据中心的能源效率。Amkor Technology 产品营销副总裁 David Clark 指出:“当下的 AI 加速器、GPU 和高容量网络交换机虽在快速突破计算能力的界限,但却受到芯片级、主板级、托盘级和机架级互连瓶颈的制约。而 CPO 凭借提供 1 Tbps/mm 的带宽密度,实现了更高的前面板端口密度,并在日益拥挤的数据中心优化了宝贵的机架空间,成功打破了这些限制。”
如今,数据中心的计算机机架中的网络交换机由 GPU/ASIC 芯片构成,这些芯片通过 PCB 电连接到机架前端的可插拔光收发器。光收发器集成了激光器、光路、DSP 和其他电子设备,它们通过电连接到交换机,并通过光连接到穿过数据中心的光纤。不过,这种方法虽有效,但效率较低。电路板上的电子走线会消耗大量功率,并且由于信号损耗、引脚数量和串扰的限制,会制约数据传输的速度和密度。此时,光互连技术应运而生。英特尔高级系统组装与测试业务部副总裁兼总经理 Mark Gardner 表示:“由于光纤传输损耗低,光信号传输能够扩大覆盖范围,并且已实现商业标准化,并以可插拔光纤 I/O 的形式在主板和机架级广泛应用。但在当今的可插拔光纤 I/O 模块中,光纤 I/O 信号引擎位于交换机 / 计算节点的封装外部,因此,由于计算 / 交换机 / FPFA 节点与光纤引擎之间的电气连接,带宽、能效和延迟的瓶颈仍然存在。”
CPO 中的关键光学元件包括激光发射器、光电探测器、波导、调制器和硅光子集成电路 (PIC)。调制器通常采用微环或马赫曾德尔调制器,它能够将电信号转换为光信号,并控制光信号的传输。Gardner 表示:“基于硅光子的光学 I/O 芯片通常采用密集波分复用 (DWDM) 技术,取代了可插拔收发器中的光学引擎,这使得每个光纤端口的数据带宽得以扩展。” 此外,随着硅光子器件微型化的不断进步,这些芯片的尺寸逐渐缩小,从而能够与计算节点在先进的封装中实现集成。这种集成将电信号传输距离缩短至 100µm,成功突破了封装外电信号传输中存在的功率、带宽密度和延迟瓶颈。
在一种 CPO 配置中,计算芯片被 4 或 8 个硅光子 IC 收发器芯片环绕。这些芯片将被封装在一起,但激光器除外,因为激光器的可靠性最低,所以通常单独封装。格罗方德产品管理高级总监 Vikas Gupta 表示:“共封装光学器件的主要优势在于,它能够显著降低高速数据传输相关的功耗,从使用可插拔模块时的约 15 pJ/bit 降至约 5 pJ/bit(预计会降至 < 1 pJ/bit)。” 此外,共封装光学元件还能有效提高信号完整性,因为更短的光信号路径具有更低的寄生损耗。新思科技光子解决方案研发工程总监 Sander Roosendaal 表示:“通过将光学引擎与交换芯片直接封装在一起,电信号传输的距离大大缩短。电气走线长度的缩短意味着 SerDes(串行器 / 解串器)组件需要处理的信号损耗要低得多(1 到 2 dB,而标准设计则超过 20 dB)。虽然基于光子 IC 的收发器(CPO 的核心)在尺寸相似的情况下可以提供传统收发器约 10 倍的性能,但共封装本身直接解决了限制可插拔解决方案的电气接口瓶颈,为未来数据密集型系统提供了功率和性能的关键飞跃。”
光纤对准挑战
然而,尽管共封装光学器件具有诸多优势,但它仍面临着诸多制造挑战。其中,实现卓越的光纤到光子集成电路 (PIC) 对准精度是一大难题。在共封装光学器件 (CPO) 中,光纤和光子集成电路 (PIC) 采用无源或有源对准工艺共集成在同一封装中。光纤与芯片上波导面的精确对准对于光信号的有效耦合至关重要。最常见的无源对准工艺是 V 型槽。GlobalFoundries 的 Gupta 表示:“V 型槽方法等技术通过将光纤直接(且永久地)连接到 PIC,实现了最低损耗接口。折射率匹配材料和粘合剂可用于最大程度地减少光传输路径上折射率变化造成的损耗。虽然可拆卸光纤解决方案增强了光纤接口的可修复性,但光通常会穿过各种转向镜和材料接口,导致每个光纤接口增加约 1dB 的损耗。”
事实上,大规模连接光纤的挑战是阻碍 CPO 进入量产的关键因素之一。新思科技业务开发经理 Mitch Heins 表示:“将芯片上的微型硅波导连接到外部光纤是封装集成光学器件中最困难的任务之一。在标准单模 (SM) 光纤和绝缘体上硅 (SOI) 波导之间高效耦合光非常具有挑战性。这种困难的产生是因为光纤和 SOI 波导的折射率对比、尺寸和横截面形状差异很大,导致光在它们内部的分布不匹配。典型的 SM 光纤直径为 8µm 到 10µm,而 SOI 波导的尺寸可能只有 500nm x 220nm。这种尺度差异就像试图将篮球大小的管子与豌豆大小的管子对齐,会导致大部分光损失。除了基本的模式失配之外,波导端面必须非常抛光,并且光纤和 SOI 波导本身之间的对准是影响耦合损耗的关键因素。”
Heins 解释说,主动对准技术使用外部操纵器(或具有六个自由度的精密对准系统)来移动光纤或光纤阵列,同时光功率通过波导或 PIC 传输。当达到最大光功率时,光纤将永久连接到波导上。Promex 首席执行官 Dick Otte 表示:“第一个挑战是让光纤和光子集成电路在零点几微米的精度内对准,以最大限度地减少信号损耗。我们试图将损耗降低到 1dB 左右,这是可以实现的。第二个挑战是如何长期固定光纤。这关系到物理结构的稳定性以及固定光纤的环氧树脂或酰化物。许多人仍在使用 V 型槽方法,这是一种非常有效的方案,并且已有充分的文献记载。现在正在发生的变化是,我们现在对准的是阵列,而不是单根光纤,这是一个重要的进步。它大大降低了每次对准的成本。我预计,随着数据速率的提高,阵列的数量将大幅增加。”
然而,从单模光纤到光纤阵列的转变带来了巨大的对准挑战。Synopsys 的 Heins 表示:“对于多通道设备,例如耦合到光栅耦合器阵列的光纤阵列,对准过程需要仔细调整,以确保整个阵列位置正确并与芯片特征平行。自动化系统通常使用光反馈,首先找到光信号,然后执行梯度搜索,以同时优化多条光纤的耦合效率。这可能涉及使用精密平台的复杂扫描模式。”Heins 指出,其规格包括:0.1µm 对准精度(以实现低功耗)、<50nm 横向对准公差以及光纤阵列的 3D 对准。封装级光学连接的机械公差极其严格。英特尔的 Gardner 表示:“允许精确对准的典型光学特征可能包括在 PIC 上制造的 V 型槽等结构,或镜子或透镜等微光学元件,以允许光信号从光纤路由到 PIC。”
热缓解
此外,与电子集成电路一样,光子集成电路对温度变化也十分敏感。英特尔的 Gardner 表示:“由于封装中的高功率器件(例如 GPU、ASIC 或开关芯片)引起的热波动,会导致同封装 PIC 中光子器件的温度波动。这些波动会影响光子器件(例如环形谐振器和调制器)的功能和性能。这些器件对温度变化敏感,通常在温度窗口内工作时效果最佳。集成环境导致的意外温度变化可能导致谐振偏移,进而导致性能或功能下降。”
温度波动看似微小,但影响却十分显著。Amkor 的 Clark 指出:“在大多数光子系统中,1°C 的温度变化通常会导致约 0.1nm 的波长偏移。在当今的系统中,大多数实现方案采用单波长和微环调制器架构,这些架构对热效应的敏感度相对较低或可控。然而,随着 CPO 的不断发展,带宽需求持续增长,光纤束也需要减少。我们可能会看到密集波分复用 (DWDM) 架构的引入。在这种情况下,温度和波长稳定性变得更加关键,并将带来新的封装挑战。”
在封装层面,需要精心选择热界面材料堆叠,以减少 PIC 的温度波动,并将其保持在预定义的范围内。Gardner 表示:“我们还会考虑可能需要哪些热管理方法,以确保光学元件在其温度范围内 —— 即使考虑到整体热边界条件和 / 或封装级功率分布的大幅变化。在 PIC 或其配套的 EIC 内部,我们部署了传感和控制电路 IP,以便在 PIC 温度范围内保持性能和功能。”
GlobalFoundries 的 Gupta 对热缓解方案表示赞同。他指出:“光学接口与大型热源的接近性带来了挑战,必须谨慎管理。由于高温下复合半导体光源的波长偏移和可靠性问题,大多数共封装光学系统都使用外部激光器。光学接口的机械设计和特性(例如光纤连接)必须考虑硅与有机或聚合物材料之间的热膨胀差异。此外,片上器件需要在更高温度(>105°C)下进行特性和鉴定,以确保最佳性能。调制器具有局部加热器,用于调节干涉和谐振器件的波长。虽然光电二极管在高温下可能会表现出更高的暗电流,但它们的设计旨在缓解可靠性问题。”
此外,还有其他挑战。Promex 的 Otte 表示:“据我所知,激光器故障仍然是这些系统中导致缺陷的最大单一原因。因此,确保芯片良好运行的关键很大程度上在于激光器的良好运行。人们正在努力对其进行老化测试。随着多波长激光器的出现,未来几年对激光器的要求将更加严格。”
可靠性设计
确保可靠性对于任何新技术来说都是一项挑战,尤其是在涉及多芯片集成时,难度尤其大。GlobalFoundries 的 Gupta 表示:“由于光接口与 ASIC/xPU 位于同一电路板或中介层上,因此对已知良好芯片 / 模块 (KGD/KGM) 的需求变得至关重要。电光功能测试平台和用于确定 KGD/KGM 的测试是活跃的研究领域。大型测试平台公司在今年早些时候的光纤通信 (OFC) 会议上宣布了这一领域的进展。虽然电气测试已经取得了重大进展,但用于快速(非永久性)对准光纤探头的光学测试解决方案仍在开发中。”
随着行业从可插拔收发器向一体封装光学器件转型,内置可靠性比以往任何时候都更加重要,尤其是在计算芯片成本高昂的情况下。Synopsys 的 Roosendaal 表示:“一体封装光学器件并非依赖于使用可插拔模块快速更换故障单元的能力,而是专注于增强组件和封装的固有可靠性,采用冗余设计,并实施集成监控和自我校正,从而解决故障问题。” 他将这些策略描述为:
(1).高可靠性设计:硅光子元件本身,如无源器件、锗光电探测器、耗尽型调制器和集成加热器等,正在开发具有高内在可靠性的产品,其中许多元件的故障率非常低(例如,低于一次故障率 - FIT)。硅基混合封装 III - V 族激光器也已证明其可靠性符合 Telcordia GR468 等标准。在封装方面实现高可靠性至关重要,包括组装工艺、材料(如粘合剂)和结构,这已通过 JEDEC 应力测试(包括热循环和湿热)等严格测试得到验证。
(2).集成冗余:由于更换故障组件较为困难,设计中融入了备份功能。一个关键的例子是包含冗余激光器。如果主激光器性能下降或发生故障,可以切换备用激光器(通常是自动切换)以维持运行。这种切换速度非常快,可以最大限度地减少停机时间。同样,对于复杂的光子集成电路,可以在设计和制造过程中加入额外的组件作为备份。使用激光器阵列时,单个激光器的故障仅影响链路的一小部分,与光频梳等单点故障源相比,也能提供更高的可靠性。具有低组件应力水平的容错设计至关重要。
(3).集成监控和自校正:更先进的设计包括集成监控器和控制电子设备,可以检测性能下降或故障。例如,可以监控活动激光器的性能下降,从而触发切换到冗余激光器。此外,在可能的情况下,还集成了内置自检 (BiST) 功能,用于检查电子连接和功能。使用忆阻器等非易失性元件,有可能实现某些光子器件的制造后误差校正。
(4).注重高制造良率和早期测试:鉴于其复杂性和集成性,确保组件和组装模块在部署前正常工作至关重要。测试在各个阶段都至关重要,包括晶圆级和芯片级测试,以便尽早识别和移除缺陷部件。如果早期阶段的故障覆盖率不足,像 CPO 这样的复杂多芯片组件可能会在模块级遭遇灾难性的良率损失。评估故障部件有助于改进早期工艺。
GlobalFoundries 的 Gupta 表示同意,对于光子器件,Telecordia GR - 468 - CORE 通常用于可靠性评估。“然而,随着硅光子封装技术越来越趋近 CMOS,GlobalFoundries 也开始使用基于 JEDEC 的可靠性规范。光子器件需要在更宽的温度范围(>105°C)下进行特性测试。硅作为一种材料系统,本质上比某些化合物半导体解决方案更可靠。”
2.5D 与 3D 集成
目前,2.5D 和 3D 封装方法均应用于共封装光学器件。在 2.5D 封装中,EIC 和 PIC 并排放置在硅中介层上,并通过硅中介层实现电连接。铜柱微凸块和硅通孔提供互连。Amkor 的克拉克表示:“中介层的另一个优势是可以进一步集成波导、光栅或滤波器,从而耦合光信号。这些光学特性的形成通常与前端 CMOS 代工工艺高度兼容,这些工艺采用传统的氮化硅、二氧化硅甚至聚酰亚胺层构建而成。”
3D CPO 利用混合键合等新工艺,出于散热考虑,将电子 IC 置于光子 IC 之上。英特尔的 Gardner 表示:“在评估 CPO 的 PIC、EIC 策略时,主要有两种方法:单片集成,即在同一芯片上共制光子电路 (PIC) 和相关电子电路 (EIC);以及 3D 芯片堆叠集成,即分别制造 PIC 和 EIC,然后进行 3D 键合。单片 PIC(PIC 和 EIC 集成在同一芯片上)集成在带有 xPU (2.5D) 的 EMIB 封装中,可实现紧密的电耦合,并将 PIC 和 EIC 电路之间芯片内的寄生效应降至最低,从而提高能效并降低延迟。此外,它还简化了散热方面和封装配置。然而,单片 PIC 限制了电子 IC 尖端节点的使用,而这对于 I/O 带宽密度扩展至关重要。”
3D 技术还带来了其他优势。Gardner 表示:“PIC 和 EIC 的芯片堆叠集成允许每个芯片采用其最佳工艺制造 —— 电子 IC 采用先进的 CMOS 节点,而光子器件则采用硅光子等高性能平台。这在每个领域都能带来良好的性能,并提高设计模块化和可重用性。然而,由于 TSV、HBI 等先进技术,组装、热管理的复杂性和封装成本的增加也随之增加。3D PIC/EIC 堆叠可以与 xPU 集成在带有 EMIB 的先进封装中,从而形成 3.5D CPO 解决方案。”
结论
共封装光学器件是先进封装领域一个充满希望的前沿技术,它能为高耗电数据中心带来亟需的带宽和能效提升。幸运的是,许多适用于硅电子技术的技术也适用于硅光子技术。即便如此,要大规模生产这些先进的封装,需要准确而精密的方法将光纤与光子集成电路对准,具有非常低的信号损耗、先进的热管理策略、光学元件的测试方法以及一定程度的内置自检和冗余,以确保在人工智能数据中心持续运行条件下的高可靠性。

热门文章
- RISC-V 架构来袭,服务器 CPU 芯片带来多元化选择 2025-05-23
- LED封装固晶全流程解析:锡膏如何实现高精度芯片封装 2025-04-18
- COREBAI(芯佰微)产品选型手册 2024-10-17
- 美光斥资18亿元,成功收购友达光电台南及台中生产基地 2024-08-28
- 2N5485最小系统设计指南:从基础电路到应用优化 2025-04-08
- 强制中企出售股权,英国半导体领域渐成中企投资禁区 2024-11-08
- 日本政府拟编制3328亿日元半导体预算,有望成为Rapidus主要股东 2024-12-26
- 一文带你了解在RS-485节点中隔离信号和电源配置的解决方案 2024-10-29
- SK海力士计划上半年削减10% NAND闪存产量 2025-01-15
- 借助ADI智能工厂专业知识,精准挑选高效IO-Link从站收发器 2024-09-11