您的位置:首页 > 行业资讯 > 正文

AMD 新专利:开启解决多芯粒 GPU 延迟新局面

时间:2025-07-15 11:20:24 浏览:10

在当今半导体技术飞速发展的时代,多芯粒模块设计成为了提升芯片性能的重要方向。2025 年 7 月 14 日消息,AMD 公司在多芯粒 GPU 领域取得了重要进展,其探索运用 “智能交换器” 优化数据处理,旨在解决多芯粒 GPU 的延迟问题。

据报道,基于最新获批的专利,AMD 公司在多芯粒模块设计上进行了深入探索。在消费级 GPU 领域,AMD 预计将采用多芯粒模块设计。这种设计方式,即把多个芯片集成到一个封装中,此前已在高性能计算领域得到应用。AMD 计划将其扩展到游戏 GPU,以突破单芯片设计在制造和性能上的瓶颈。

AMD 在多芯片设计方面积累了丰富经验。例如其Instinct系列加速器已采用多芯片设计。Instinct MI200使用多个图形计算芯片与高带宽内存堆叠,实现了高效的数据传输。后续的Instinct MI350系列进一步优化了这一结构,搭载288GB HBM3E内存,内存带宽达8TB/s,基于3nm工艺节点,总晶体管数达1850亿。该系列通过10个芯片模块的2D混合键合,提升了AI任务的处理能力,为消费级产品提供了技术基础。

然而,在游戏领域,GPU 采用多芯粒模块设计面临的最大问题是延迟较高。因为帧渲染对长距离数据传输的延迟极为敏感。为解决这一问题,AMD 披露的一项新专利申请或许给出了答案。虽然专利视频中披露的是 CPU 相关细节,但文本内容和机制表明其目标是图形应用场景。

2.png

那么,AMD 究竟将如何在GPU中运用多芯粒模块设计呢?据悉,该专利的核心是一种 “带有智能交换机的数据架构电路”,它能连接计算小芯片与内存控制器之间的通信。这本质上是AMD Infinity Fabric,但为消费级GPU进行了缩减,因为AMD无法采用HBM内存芯片。该交换机旨在优化内存访问,其工作原理是先判断图形任务请求是否需要任务迁移或数据复制,决策延迟达到纳秒级。

解决了数据访问问题后,该专利还指出要让图形计算核心(GCD)配备L1和L2缓存,这与AI加速器的设计类似。不过,通过交换机还能访问额外的共享L3缓存(或堆叠式SRAM),该缓存将连接所有GCD。这不仅减少了对全局内存的访问依赖,同时能够充当小芯片之间的共享过渡区,类似于AMD 3D V-Cache技术,只不过3D V-Cache主要用于处理器。此外,该专利还涉及堆叠式DRAM,这本质上是多芯粒模块设计的基础。

这一专利的出现表明,AMD已为多芯片GPU生态做好准备。AMD可以使用台积电的InFO-RDL桥接技术,以及在小芯片之间使用特定版本的Infinity Fabric进行封装。更具吸引力的是,这种实现方式是AI加速器的缩减版本。此前,AMD计划将其游戏和AI架构合并为一个统一架构,即UDNA架构。AMD还整合了软件生态系统,这样可以摊薄驱动程序和编译器的开发工作。

由于单芯片设计存在局限性,这或许是AMD超越竞争对手的绝佳机会。然而,芯粒设计也存在复杂性,AMD此前在RDNA 3上就曾遇到过小芯片互连带来的延迟。AMD RDNA 3架构Navi 31 GPU已部分采用多芯片设计,配备六个内存控制器芯片,总Infinity Cache达96MB,内存总线宽384位,支持高达24GB GDDR6内存。通过Infinity Fabric互联,峰值带宽达5.2TB/s。该设计在RX 7900系列中实现,每瓦性能较前代提升50%,但也暴露了芯片间延迟的缺陷。

不过,芯粒设计存在复杂性,AMD 此前在 RDNA 3 上就曾遇到过小芯片互连带来的延迟。凭借创新的交换机方案和额外的共享 L3 缓存,AMD 有望解决延迟问题,但具体效果可能要到 UDNA 5 才能见分晓。