您的位置:首页 > 行业资讯 > 正文

HBM 热度不再,LPDDR 上位:AI 存储技术路线的重大转向

时间:2025-11-05 17:05:59 浏览:15

在 AI 浪潮的汹涌席卷之下,原本以周期波动著称的存储市场,步入了前所未有的 “超级繁荣周期”。在 AI 大模型训练和推理的双重驱动下,算力需求呈现出爆发式增长。HBM(高带宽内存)凭借其通过堆叠多层 DRAM,并与 GPU 紧密结合的独特设计,为 AI 计算提供了更快的数据通道,一度成为 AI 时代最炙手可热的 “黄金存储”。

HBM 的火热带动了整个存储产业链的升温。全球三大存储巨头 —— 三星电子、SK 海力士和美光科技,纷纷迎来业绩爆发。三星第三季度净利润同比增长 21%,SK 海力士创下公司史上最高季度利润,美光则实现净利同比增长三倍,且 SK 海力士 2025 年前的 HBM 产能已被客户预订一空。

与此同时,传统 DRAM 和 NAND 芯片也意外走俏。由于存储厂集中扩产 HBM,常规内存产能趋紧,市场供需出现再平衡。亚马逊、谷歌、Meta 等数据中心巨头,为扩充 AI 推理与云服务能力,正大规模采购传统 DRAM。在 AI 推理阶段,普通内存依然发挥着不可替代的作用,使得整个存储市场呈现 “全线紧俏” 的局面。

LPDDR5的爆火

先一步爆火的是所有智能手机几乎都会用到的 LPDDR(低功耗双倍数据速率内存)。近日,高通发布了全新的 AI200 和 AI250 数据中心加速器,预计将于 2026 年和 2027 年上市。这两款新加速器在运行大规模生成式 AI 工作负载时,将凭借更高的效率和更低的运营成本,与 AMD 和英伟达的机架级解决方案展开竞争。此次发布也重申了高通每年发布更新产品的计划。

Qualcomm AI200 和 AI250 加速器均基于专为数据中心 AI 工作负载定制的 Qualcomm Hexagon 神经处理单元 (NPU)。近年来,该公司一直在逐步改进其 Hexagon NPU,因此这些处理器的最新版本已经配备了标量、矢量和张量加速器(采用 12+8+1 配置),支持 INT2、INT4、INT8、INT16、FP8、FP16 等数据格式,以及用于减少内存流量的微块推理、64 位内存寻址、虚拟化和用于额外安全性的 Gen AI 模型加密。对于 Qualcomm 来说,将 Hexagon 扩展到数据中心工作负载是一个自然的选择,尽管该公司将为其 AI200 和 AI250 单元设定什么样的性能目标还有待观察。

11.jpg

高通的 AI200 机架级解决方案将是该公司首款由 AI200 加速器驱动的数据中心级推理系统,配备 768GB LPDDR 内存,对于推理加速器而言,这已是相当可观的内存容量。该系统将使用 PCIe 互连实现纵向扩展,并使用以太网实现横向扩展,采用直接液冷,每机架功率高达 160kW,这对于推理解决方案而言也是前所未有的功耗。此外,该系统还将支持企业部署的机密计算,该解决方案将于 2026 年上市。

一年后推出的 AI250 保留了这一架构,但增加了近内存计算架构,有效内存带宽提升了 10 倍以上。此外,该系统将支持分解推理功能,使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款更高效、高带宽的解决方案,针对大型 Transformer 模型进行了优化,同时保留了与 AI200 相同的散热、散热、安全性和可扩展性特性。

但不少人关注的并不是又一家芯片制造商试图挑战英伟达的老故事,而是高通在这场AI军备竞赛中选择的一条截然不同的技术路线——每张加速卡配备高达768GB的LPDDR显存,约为英伟达H100配置HBM容量的10倍。高通没有采用业界主流的昂贵HBM,而是将其在智能手机领域发展完善的低功耗LPDDR技术直接搬上了数据中心,看似“降维”的选择背后,昭示了目前AI存储的另一种可能性。

有意思的是,高通并非孤军奋战。几乎同一时间,其他巨头也纷纷展示了类似的技术路线。在2025年GTC大会上,GPU霸主英伟达展示了其下一代Vera Rubin超级芯片。这款定于2026年底量产的产品首次在其88核Vera CPU周围采用了SOCAMM2模块搭载的LPDDR内存。尽管两颗Rubin GPU仍然配备了八个HBM4内存堆栈,但LPDDR的出现本身就是一个意味深长的信号——即便是最坚定的HBM拥趸,也开始在系统架构中为LPDDR留出位置。

值得注意的是,英伟达还推出了新的Rubin CPX AI芯片,这是一款专门针对推理优化的"分解式"架构产品,进一步印证了其在推理端的战略调整。而在2025年OCP全球峰会上,英特尔发布了代号"Crescent Island"的数据中心GPU,这款专为AI推理工作负载设计的产品配备了160GB LPDDR5X内存。英特尔首席技术官Sachin Katti直言:"AI正在从静态训练转向实时、无处不在的推理——由智能体AI驱动。扩展这些复杂工作负载需要异构系统,将正确的硅片匹配到正确的任务上。"

这款基于Xe3P微架构、针对风冷企业服务器优化的GPU预计将于2026年下半年开始客户采样,英特尔明确强调其"功耗和成本优化"的定位,以及"针对推理工作流程优化的大容量内存和带宽"。

技术路线的分野

可以说,三大芯片巨头不约而同地转向LPDDR,并不是什么偶然事件,而是整个产业的一次调整,有机构指出,到2030年,推理工作负载的数量将是训练工作负载的100倍。

业内人士开始将AI目前的瓶颈称为“马提尼吸管问题”:计算引擎是酒杯,而数据却通过吸管流动。无论芯片多么强大,其性能都受限于数据流入和流出的速度。现代AI推理工作负载越来越受内存限制而非计算限制——随着模型规模扩大和上下文窗口扩展,挑战不在于芯片计算速度,而在于如何快速将数据输送给处理器。

存储的瓶颈,正是LPDDR方案的价值所在。根据高通引用的研究,LPDDR内存的性价比比HBM高出13倍,使得大型语言模型推理工作负载可以直接在内存中运行,而无需频繁数据混洗。实际效果是:更快的响应速度、更低的延迟和更低的能耗。高通声称其Cloud AI 100 Ultra架构在某些推理工作负载下比同类英伟达配置的功耗低20到35倍。

当然,LPDDR 方案并非没有代价。相比 HBM,它存在内存带宽较低、由于较窄接口导致的更高延迟,以及在 24/7 高温服务器环境中尚未充分验证的可靠性等问题。但关键在于应用场景的差异。在训练场景中,需要极致的内存带宽来处理海量数据的反向传播,HBM 不可替代;而在推理场景中,模型参数已固定,重点是大容量存储和高效读取,LPDDR 的容量和成本优势远超其带宽劣势。

值得关注的是,高通的 AI250 方案更进一步,引入了基于 “近内存计算” 的创新内存架构,声称可提供超过 10 倍的有效内存带宽和更低的功耗,实现了分解式 AI 推理以高效利用硬件。两款方案均采用直接液冷,机架级功耗仅 160 千瓦,在数据中心能源消耗每三年翻一番的当下,这个数字极具吸引力。

当数据中心开始攫取手机内存

AI 存储技术路线的转变,也在酝酿一场可能波及全球消费电子市场的供应链危机。全球半导体标准制定组织 JEDEC(固态技术协会) 正式发布了最新标准文档 JESD209-6,标志着下一代低功耗内存——LPDDR6 正式登上舞台。这不仅是LPDDR系列的重大进化,也是首个在官方规范中提及 DDR6 的标准。距DDR5标准发布已过去五年,随着AI算力、移动设备与边缘智能的迅猛发展,业界亟需一种兼具高带宽、低功耗与高可靠性的全新内存架构,LPDDR6的诞生正当其时。

JEDEC表示,LPDDR6在性能、能效、安全性和稳定性方面均实现了系统性升级。其核心架构由传统的双通道(DDR4的单64位通道在DDR5时代被拆分为两个独立的32位子通道)演进为 四个24位子通道,实现更高的并行度与更低的访问延迟。此外,LPDDR6在功耗管理上进行了深度优化,不仅进一步降低了工作电压,还引入了 DVFSL(低功耗动态电压频率调节) 等新机制,可根据运行负载动态调节功耗,以延长电池续航。

88.jpg

在性能指标上,LPDDR6的数据速率可达 10,667至14,400 MT/s,有效带宽约为 28.5至38.4 GB/s。这一速度已经超越目前DDR5-12054的超频纪录,为AI手机、轻薄笔电与车载智能系统提供了更充裕的带宽与响应能力。

作为全球半导体标准的制定核心,JEDEC成员涵盖了从芯片设计到制造测试的整个产业链。此次LPDDR6标准发布后,Cadence、Synopsys、Advantest、Keysight、MediaTek、Qualcomm、三星、美光、SK海力士 等企业已率先表态支持。这意味着新一代LPDDR6有望在短时间内被行业广泛采用。虽然目前JEDEC尚未公布面向桌面平台的DDR6最终规范,但官方表示相关标准也将在年内发布。

从时间节奏来看,DDR5在2020年发布后约一年便进入量产市场,LPDDR6预计也将遵循类似路径。尤其在主要厂商计划于2025年起逐步停产DDR4的背景下,LPDDR6的到来正是新旧标准更迭的关键节点。

值得一提的是,Synopsys 已率先完成基于 台积电N2P工艺节点 的 LPDDR6 IP“硅验证(silicon bring-up)”。所谓“硅验证”是芯片设计中首次上电测试的重要阶段,标志着其核心设计已具备可量产的技术成熟度。该IP包含控制器(Controller)与物理层接口(PHY)两大部分,前者负责JEDEC协议解析与低功耗管理,后者则基于N2P的金属堆叠与I/O库构建,实现更高信号完整性与密度。

得益于N2P在性能、功耗与面积(PPA)上的领先表现,Synopsys的LPDDR6 IP带宽可达 86 GB/s,并具备更高的能效与更紧凑的物理尺寸,为AI终端与高能效计算平台提供强力支撑。JEDEC标准的理论峰值甚至可达 115 GB/s,这意味着与LPDDR5相比,新一代标准在速率与能耗表现上均实现了跨代式飞跃。随着LPDDR6预计在明年正式进入量产阶段,在未来可能会取代LPDDR5,成为智能手机的标配,只不过其售价也可能愈发水涨船高。

LPDDR 5,贵到买不起?

这场从HBM到LPDDR的转向,本质上是AI产业从不计成本的技术竞赛走向精打细算的商业化部署的标志。英伟达的CUDA软件栈在AI训练领域仍然无可匹敌,开发者锁定效应极强。但推理领域的情况完全不同:模型已经训练完成,只需要高效运行,开发者锁定远没有那么强大,而且对价格极为敏感。

这为高通、英特尔等公司以全新方式竞争打开了大门。它们并非试图制造更大的GPU来正面挑战英伟达,而是着眼于一个现实:大多数AI模型无需每天重新训练,只需要高效运行且能在任何地方运行。高通的优势正在于此,其将移动领域的基因与数据中心级可扩展性相结合。英特尔也在强调其从AI PC到数据中心和工业边缘的端到端能力,以及与开放计算项目(OCP)等社区的协作。

未来的AI硬件市场可能呈现明显的分层结构,训练市场中HBM依然不可替代,英伟达/AMD继续主导,但在推理市场中LPDDR有望异军突起异军突起,成为新一代AI芯片的选择。但LPDDR的崛起,可能需要全球数十亿智能手机用户来承担背后的代价。当数据中心开始攫取本属于消费电子的LPDDR供应,我们或许将见证一个讽刺的场景:训练AI的超级计算机装备着最尖端的HBM,运行AI服务的推理集群使用着”手机内存“,而真正的手机用户却可能在2026-2027年面临内存短缺、价格上涨或配置缩水。

这就是技术进步的吊诡之处:AI推理的效率革命,可能正在以牺牲消费者利益为代价。当芯片巨头们为数据中心的TCO优化而欢呼时,普通用户手中的智能手机,正在成为这场产业变革中最脆弱的一环。


版权声明: 部分文章信息来源于网络以及网友投稿.本网站只负责对文章进行整理、排版、编辑.是出于传递更多信息之目的.并不意味着赞同其观点或证实其内容
的真实性如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理。

网址:https://www.icpdf.com/news/2433.html