您的位置：首页 > 行业资讯 > 正文

HBM 热度不再，LPDDR 上位：AI 存储技术路线的重大转向

时间：2025-11-05 17:05:59 浏览：15

在 AI 浪潮的汹涌席卷之下，原本以周期波动著称的存储市场，步入了前所未有的 “超级繁荣周期”。在 AI 大模型训练和推理的双重驱动下，算力需求呈现出爆发式增长。HBM（高带宽内存）凭借其通过堆叠多层 DRAM，并与 GPU 紧密结合的独特设计，为 AI 计算提供了更快的数据通道，一度成为 AI 时代最炙手可热的 “黄金存储”。

HBM 的火热带动了整个存储产业链的升温。全球三大存储巨头 —— 三星电子、SK 海力士和美光科技，纷纷迎来业绩爆发。三星第三季度净利润同比增长 21%，SK 海力士创下公司史上最高季度利润，美光则实现净利同比增长三倍，且 SK 海力士 2025 年前的 HBM 产能已被客户预订一空。

与此同时，传统 DRAM 和 NAND 芯片也意外走俏。由于存储厂集中扩产 HBM，常规内存产能趋紧，市场供需出现再平衡。亚马逊、谷歌、Meta 等数据中心巨头，为扩充 AI 推理与云服务能力，正大规模采购传统 DRAM。在 AI 推理阶段，普通内存依然发挥着不可替代的作用，使得整个存储市场呈现 “全线紧俏” 的局面。

LPDDR5的爆火

先一步爆火的是所有智能手机几乎都会用到的 LPDDR（低功耗双倍数据速率内存）。近日，高通发布了全新的 AI200 和 AI250 数据中心加速器，预计将于 2026 年和 2027 年上市。这两款新加速器在运行大规模生成式 AI 工作负载时，将凭借更高的效率和更低的运营成本，与 AMD 和英伟达的机架级解决方案展开竞争。此次发布也重申了高通每年发布更新产品的计划。

Qualcomm AI200 和 AI250 加速器均基于专为数据中心 AI 工作负载定制的 Qualcomm Hexagon 神经处理单元 (NPU)。近年来，该公司一直在逐步改进其 Hexagon NPU，因此这些处理器的最新版本已经配备了标量、矢量和张量加速器（采用 12+8+1 配置），支持 INT2、INT4、INT8、INT16、FP8、FP16 等数据格式，以及用于减少内存流量的微块推理、64 位内存寻址、虚拟化和用于额外安全性的 Gen AI 模型加密。对于 Qualcomm 来说，将 Hexagon 扩展到数据中心工作负载是一个自然的选择，尽管该公司将为其 AI200 和 AI250 单元设定什么样的性能目标还有待观察。

高通的 AI200 机架级解决方案将是该公司首款由 AI200 加速器驱动的数据中心级推理系统，配备 768GB LPDDR 内存，对于推理加速器而言，这已是相当可观的内存容量。该系统将使用 PCIe 互连实现纵向扩展，并使用以太网实现横向扩展，采用直接液冷，每机架功率高达 160kW，这对于推理解决方案而言也是前所未有的功耗。此外，该系统还将支持企业部署的机密计算，该解决方案将于 2026 年上市。

一年后推出的 AI250 保留了这一架构，但增加了近内存计算架构，有效内存带宽提升了 10 倍以上。此外，该系统将支持分解推理功能，使计算和内存资源能够在不同卡之间动态共享。高通将其定位为一款更高效、高带宽的解决方案，针对大型 Transformer 模型进行了优化，同时保留了与 AI200 相同的散热、散热、安全性和可扩展性特性。

但不少人关注的并不是又一家芯片制造商试图挑战英伟达的老故事，而是高通在这场AI军备竞赛中选择的一条截然不同的技术路线——每张加速卡配备高达768GB的LPDDR显存，约为英伟达H100配置HBM容量的10倍。高通没有采用业界主流的昂贵HBM，而是将其在智能手机领域发展完善的低功耗LPDDR技术直接搬上了数据中心，看似“降维”的选择背后，昭示了目前AI存储的另一种可能性。

有意思的是，高通并非孤军奋战。几乎同一时间，其他巨头也纷纷展示了类似的技术路线。在2025年GTC大会上，GPU霸主英伟达展示了其下一代Vera Rubin超级芯片。这款定于2026年底量产的产品首次在其88核Vera CPU周围采用了SOCAMM2模块搭载的LPDDR内存。尽管两颗Rubin GPU仍然配备了八个HBM4内存堆栈，但LPDDR的出现本身就是一个意味深长的信号——即便是最坚定的HBM拥趸，也开始在系统架构中为LPDDR留出位置。

值得注意的是，英伟达还推出了新的Rubin CPX AI芯片，这是一款专门针对推理优化的"分解式"架构产品，进一步印证了其在推理端的战略调整。而在2025年OCP全球峰会上，英特尔发布了代号"Crescent Island"的数据中心GPU，这款专为AI推理工作负载设计的产品配备了160GB LPDDR5X内存。英特尔首席技术官Sachin Katti直言:"AI正在从静态训练转向实时、无处不在的推理——由智能体AI驱动。扩展这些复杂工作负载需要异构系统，将正确的硅片匹配到正确的任务上。"

这款基于Xe3P微架构、针对风冷企业服务器优化的GPU预计将于2026年下半年开始客户采样，英特尔明确强调其"功耗和成本优化"的定位，以及"针对推理工作流程优化的大容量内存和带宽"。

技术路线的分野

可以说，三大芯片巨头不约而同地转向LPDDR，并不是什么偶然事件，而是整个产业的一次调整，有机构指出，到2030年，推理工作负载的数量将是训练工作负载的100倍。

业内人士开始将AI目前的瓶颈称为“马提尼吸管问题”：计算引擎是酒杯，而数据却通过吸管流动。无论芯片多么强大，其性能都受限于数据流入和流出的速度。现代AI推理工作负载越来越受内存限制而非计算限制——随着模型规模扩大和上下文窗口扩展，挑战不在于芯片计算速度，而在于如何快速将数据输送给处理器。

存储的瓶颈，正是LPDDR方案的价值所在。根据高通引用的研究，LPDDR内存的性价比比HBM高出13倍，使得大型语言模型推理工作负载可以直接在内存中运行，而无需频繁数据混洗。实际效果是:更快的响应速度、更低的延迟和更低的能耗。高通声称其Cloud AI 100 Ultra架构在某些推理工作负载下比同类英伟达配置的功耗低20到35倍。

当然，LPDDR 方案并非没有代价。相比 HBM，它存在内存带宽较低、由于较窄接口导致的更高延迟，以及在 24/7 高温服务器环境中尚未充分验证的可靠性等问题。但关键在于应用场景的差异。在训练场景中，需要极致的内存带宽来处理海量数据的反向传播，HBM 不可替代；而在推理场景中，模型参数已固定，重点是大容量存储和高效读取，LPDDR 的容量和成本优势远超其带宽劣势。

值得关注的是，高通的 AI250 方案更进一步，引入了基于 “近内存计算” 的创新内存架构，声称可提供超过 10 倍的有效内存带宽和更低的功耗，实现了分解式 AI 推理以高效利用硬件。两款方案均采用直接液冷，机架级功耗仅 160 千瓦，在数据中心能源消耗每三年翻一番的当下，这个数字极具吸引力。

当数据中心开始攫取手机内存

AI 存储技术路线的转变，也在酝酿一场可能波及全球消费电子市场的供应链危机。全球半导体标准制定组织 JEDEC（固态技术协会）正式发布了最新标准文档 JESD209-6，标志着下一代低功耗内存——LPDDR6 正式登上舞台。这不仅是LPDDR系列的重大进化，也是首个在官方规范中提及 DDR6 的标准。距DDR5标准发布已过去五年，随着AI算力、移动设备与边缘智能的迅猛发展，业界亟需一种兼具高带宽、低功耗与高可靠性的全新内存架构，LPDDR6的诞生正当其时。

JEDEC表示，LPDDR6在性能、能效、安全性和稳定性方面均实现了系统性升级。其核心架构由传统的双通道（DDR4的单64位通道在DDR5时代被拆分为两个独立的32位子通道）演进为四个24位子通道，实现更高的并行度与更低的访问延迟。此外，LPDDR6在功耗管理上进行了深度优化，不仅进一步降低了工作电压，还引入了 DVFSL（低功耗动态电压频率调节）等新机制，可根据运行负载动态调节功耗，以延长电池续航。

在性能指标上，LPDDR6的数据速率可达 10,667至14,400 MT/s，有效带宽约为 28.5至38.4 GB/s。这一速度已经超越目前DDR5-12054的超频纪录，为AI手机、轻薄笔电与车载智能系统提供了更充裕的带宽与响应能力。

作为全球半导体标准的制定核心，JEDEC成员涵盖了从芯片设计到制造测试的整个产业链。此次LPDDR6标准发布后，Cadence、Synopsys、Advantest、Keysight、MediaTek、Qualcomm、三星、美光、SK海力士等企业已率先表态支持。这意味着新一代LPDDR6有望在短时间内被行业广泛采用。虽然目前JEDEC尚未公布面向桌面平台的DDR6最终规范，但官方表示相关标准也将在年内发布。

从时间节奏来看，DDR5在2020年发布后约一年便进入量产市场，LPDDR6预计也将遵循类似路径。尤其在主要厂商计划于2025年起逐步停产DDR4的背景下，LPDDR6的到来正是新旧标准更迭的关键节点。

值得一提的是，Synopsys 已率先完成基于台积电N2P工艺节点的 LPDDR6 IP“硅验证（silicon bring-up）”。所谓“硅验证”是芯片设计中首次上电测试的重要阶段，标志着其核心设计已具备可量产的技术成熟度。该IP包含控制器（Controller）与物理层接口（PHY）两大部分，前者负责JEDEC协议解析与低功耗管理，后者则基于N2P的金属堆叠与I/O库构建，实现更高信号完整性与密度。

得益于N2P在性能、功耗与面积（PPA）上的领先表现，Synopsys的LPDDR6 IP带宽可达 86 GB/s，并具备更高的能效与更紧凑的物理尺寸，为AI终端与高能效计算平台提供强力支撑。JEDEC标准的理论峰值甚至可达 115 GB/s，这意味着与LPDDR5相比，新一代标准在速率与能耗表现上均实现了跨代式飞跃。随着LPDDR6预计在明年正式进入量产阶段，在未来可能会取代LPDDR5，成为智能手机的标配，只不过其售价也可能愈发水涨船高。

LPDDR 5，贵到买不起？

这场从HBM到LPDDR的转向，本质上是AI产业从不计成本的技术竞赛走向精打细算的商业化部署的标志。英伟达的CUDA软件栈在AI训练领域仍然无可匹敌，开发者锁定效应极强。但推理领域的情况完全不同：模型已经训练完成，只需要高效运行，开发者锁定远没有那么强大，而且对价格极为敏感。

这为高通、英特尔等公司以全新方式竞争打开了大门。它们并非试图制造更大的GPU来正面挑战英伟达，而是着眼于一个现实：大多数AI模型无需每天重新训练，只需要高效运行且能在任何地方运行。高通的优势正在于此，其将移动领域的基因与数据中心级可扩展性相结合。英特尔也在强调其从AI PC到数据中心和工业边缘的端到端能力，以及与开放计算项目(OCP)等社区的协作。

未来的AI硬件市场可能呈现明显的分层结构，训练市场中HBM依然不可替代，英伟达/AMD继续主导，但在推理市场中LPDDR有望异军突起异军突起，成为新一代AI芯片的选择。但LPDDR的崛起，可能需要全球数十亿智能手机用户来承担背后的代价。当数据中心开始攫取本属于消费电子的LPDDR供应，我们或许将见证一个讽刺的场景：训练AI的超级计算机装备着最尖端的HBM，运行AI服务的推理集群使用着”手机内存“，而真正的手机用户却可能在2026-2027年面临内存短缺、价格上涨或配置缩水。

这就是技术进步的吊诡之处：AI推理的效率革命，可能正在以牺牲消费者利益为代价。当芯片巨头们为数据中心的TCO优化而欢呼时，普通用户手中的智能手机，正在成为这场产业变革中最脆弱的一环。

上一篇：攻克磁性元件难关，开启高效电源设计新征程

版权声明：部分文章信息来源于网络以及网友投稿．本网站只负责对文章进行整理、排版、编辑．是出于传递更多信息之目的．并不意味着赞同其观点或证实其内容
的真实性如本站文章和转稿涉及版权等问题，请作者及时联系本站，我们会尽快处理。
网址：https://www.icpdf.com/news/2433.html

HBM 热度不再，LPDDR 上位：AI 存储技术路线的重大转向

热门文章

电子百科