AI 存储:HBM、HBF、GDDR7 引领技术变革
在过去几年里,AI 的迅猛发展使得算力成为全球竞争的核心焦点。然而,有一个同样关键的环节却常常被人们所忽视,那就是存储。没有存储的有力支撑,算力就如同失去燃料的引擎,即便再强大也难以充分释放其全部潜能。特别是在大模型和生成式 AI 的浪潮席卷之下,数据体量呈现出爆炸式增长,推理场景也日益复杂多样,这使得存储的需求急剧攀升。
在这一关键时刻,有三种存储技术正逐渐崭露头角,重新定义着 AI 基础设施的未来发展格局。HBM(高带宽内存)作为当下高端 AI 芯片的标配,已经从最初的技术概念成功迈向大规模商业应用阶段,成为决定 AI 算力上限的关键因素。HBF(高带宽闪存)则试图突破 DRAM 的容量限制,为超大规模模型提供了一条全新的存储路径。而 GDDR7 的崛起,更是在成本与性能之间找到了巧妙的平衡点,为 AI 推理的广泛普及铺平了道路。
这三种技术路线的竞争与合作,不仅关系到存储产业数千亿美元的市场格局,更决定着人工智能能否真正突破当前的技术瓶颈,迈向通用人工智能的新纪元。
HBM:高带宽的王者之战
步入 “后 AI” 时代,HBM 已不再仅仅是高性能 AI 芯片的标配组件,而是演变成了存储行业激烈竞争的战略制高点。这种通过 3D 堆叠技术实现的超高带宽存储,对于 AI 芯片性能上限的提升起着决定性作用。从 H100 的 80GB 容量、3.4TB/s 带宽,到 GB300 的 288GB 容量、8.0TB/s 带宽,在不到三年的时间里,HBM 实现了容量超过两倍、带宽约 2.5 倍的惊人提升。
当前的市场格局呈现出明显的分化态势。SK 海力士凭借其在技术和市场方面的双重优势,稳居霸主地位。据最新报道,SK 海力士和美光已进入第六代高带宽存储器(HBM4)的最终测试阶段,并计划本月向英伟达供应样品。值得注意的是,SK 海力士在质量测试方面遥遥领先,目前已宣布完成下一代 HBM4 内存的开发,并具备了全球首个大规模量产的条件。
相比之下,三星电子的处境略显尴尬。尽管三星在 HBM4 性能方面颇有信心,采用了更为先进的 4 纳米代工工艺应用于逻辑芯片,但在向英伟达供应 HBM 方面却屡屡受挫,测试进度也落后于竞争对手约两个月。在快速迭代的 AI 市场中,这样的时间差距可能会带来致命的影响。
另外,HBM 的定制化发展趋势也日益明显。早在两年前 HBM 初露锋芒之际,这一趋势就已初见端倪。随着云巨头纷纷推出自研 AI 芯片,如谷歌的 TPU、亚马逊的 Trainium、微软与 OpenAI 的合作以及 Meta 的自研芯片等,对 HBM 的个性化需求成为必然。SK 海力士副总裁柳成洙去年 8 月透露:“所有 M7(Magnificent 7)公司都来找我们,要求定制 HBM。” 今年 6 月,韩国媒体报道 SK 海力士已同时锁定英伟达、微软、博通等重量级客户,并开始根据各家公司的需求开展设计工作。从第七代 HBM(HBM4E)开始,SK 海力士将全面转向定制化路线,并与台积电展开深度合作。
定制化 HBM(cHBM)的核心在于将基础芯片功能集成进由 SoC 团队设计的逻辑芯片中。这种集成方式赋予了设计人员更大的灵活性和对 HBM 核心芯片堆栈访问的控制能力,能够更紧密地集成内存与处理器芯片,并根据具体应用在功耗、性能与面积之间进行优化。对于追求极致性能和能效比的 AI 应用来说,这种定制化能力具有不可替代的价值。
面对在 HBM 市场的落后局面,三星电子正在发起一场 “背水一战”。在董事长李在镕的直接支持下,三星副董事长全永铉正为 HBM 业务投入全部精力。据业内人士透露,三星正在量产 HBM4 样品,产量约为 10,000 片晶圆,这对于样品生产而言是一个异常高的数量。
三星采用的 “过度生产” 策略背后有着深层的考量。其 HBM4 采用了尚未完全成熟的 10nm 级第六代(1c)DRAM,而竞争对手仍在使用已商业化的第五代(1b)DRAM。尽管面临良率挑战,但三星凭借其卓越的 EUV 工艺和压倒性的产能优势,抢先采用了下一代 DRAM 技术。
更激进的是三星的定价策略。业内估计 12 层 HBM4 的价格将比 HBM3E 高出 60 - 70%,SK 海力士寻求至少 30 - 40% 的单价溢价,而三星正考虑低于 20% 的溢价,几乎没有留下利润空间。这种近乎 “自杀式” 的定价策略,让人不禁想起三星过去在内存市场低迷时期通过 “胆小鬼博弈” 击败日本和台湾竞争对手的历史。
与此同时,三星正加速建设平泽第五工厂,该工厂将配备 10 纳米第六代(1c)DRAM 生产线,专门用于批量生产 HBM4 所需的 DRAM。这一举措显示出三星试图通过产能优势和成本控制重夺存储霸主地位的决心。
HBF:NAND 闪存的新冒险
随着 AI 基础设施对存储需求的指数级增长,传统存储的局限性日益凸显。高带宽闪存(HBF)作为一种全新的技术路径,正试图在带宽与容量之间找到新的平衡点。与用 DRAM 层叠而成的 HBM 不同,HBF 是将 NAND 闪存层叠而成的产品,利用 NAND 闪存的特性实现更大的存储容量。
今年 2 月,美国闪存企业 Sandisk 率先宣布正在开发 HBF 技术,并将其定位为 “结合 3D NAND 容量和 HBM 带宽” 的创新产品。Sandisk 强调,HBF 能够同时满足带宽、容量、低功耗的综合要求,这对于需要处理海量数据的 AI 应用来说具有特殊意义。
这一技术路线的提出并非偶然。当前 AI 模型正在向多模态、长上下文方向发展,如 GPT - 4V 的视觉理解、Claude 的 100K token 上下文、Gemini 的多模态能力等,这些应用需要在内存中维护庞大的中间状态数据。传统 DRAM 虽然速度快,但容量扩展成本极高;而 NAND 闪存虽然容量大,但访问速度相对较慢。HBF 试图通过架构创新,在两者之间找到最优解。
今年 8 月,Sandisk 与 SK 海力士签订了开发 HBF 的谅解备忘录(MOU),标志着这项技术从概念走向产业化的重要一步。根据计划,Sandisk 将于明年下半年向客户提供 HBF 样本,并于 2027 年初为推理 AI 提供正式产品。这一消息直接推动 Sandisk 股价从 43 美元飙升至 86 美元,翻了一番,反映出市场对这项技术的强烈期待。
然而,HBF 的技术实现仍面临诸多挑战。半导体业内人士指出,将 SSD 直接连接到处理器的技术长期以来一直在研究,但实际应用中困难重重。最大的问题在于内存与存储角色的根本性差异,CPU 等处理器为了快速运算需要极快的数据访问,而 NAND 闪存的访问速度远低于 DRAM。如果 CPU 将基于 NAND 的存储当作主存使用,运算速度必然大幅下降。
值得一提的是,英伟达与 IBM 及多所大学合作开发的 BaM(Big Accelerator Memory)技术,通过新一代 NVMe 协议实现了 SSD 与 GPU 的直接连接,为 HBF 的实际应用提供了技术参考。这种架构能够显著降低数据搬运的能耗成本,在现有架构中,数据需要经过 “SSD→NAND 闪存控制器→DRAM→处理器” 的复杂链路,每一步都会产生额外的功耗和延迟。
据了解,业内普遍认为,HBF 和 HBM 并非竞争关系,而是作为补充来发挥作用。韩国科学技术院教授郑明秀指出,HBF 处理的块存储单元较大,需要能够一次性处理和传输大规模信息的软件和基础设施支持。这意味着 HBF 更适合特定的应用场景。
未来 AI 将迎来超越文本或图像、制作长视频的时代。在这种需要超大容量的场景下,虽然比 DRAM 慢但容量优势明显的 NAND 闪存将发挥关键作用。例如,视频生成模型 Sora 需要处理数 TB 的中间数据,传统 HBM 的容量限制使其难以胜任;而 HBF 通过牺牲部分带宽换取更大容量,恰好满足了这类应用的需求。
此外,HBF 在成本控制方面也具有潜在优势。NAND 闪存的每 GB 成本远低于 DRAM,这使得 HBF 在需要大容量但对带宽要求相对宽松的应用场景中具有明显的经济性。随着 AI 应用的多样化发展,这种差异化的存储解决方案将找到越来越多的用武之地。
GDDR7:推理架构的 “降配” 与新机遇
今年 9 月 10 日,英伟达推出 Rubin CPX GPU,这款专为长上下文 AI 工作负载设计的处理器做出了一个引人注目的选择:采用 128GB GDDR7 显存,而非更高端的 HBM4。这一决定背后,体现了英伟达对 AI 推理架构的全新思考。
英伟达提出了 “解耦推理”(disaggregated inference)的创新理念,将推理过程拆分为两个阶段:计算型 GPU 负责处理庞大的 “上下文阶段”,高带宽 GPU 则专注于 “生成阶段” 的吞吐量密集计算。在这种架构下,Rubin CPX 主要承担上下文构建任务,此时 GDDR7 的带宽和延迟已完全足够;而在生成阶段,工作会交由配备 HBM4 的标准 Rubin GPU 执行。
这种设计的精妙之处在于避免了资源浪费。分析显示,在计算密集型的预填充阶段,由于并行度高,KV Cache 的生成对带宽依赖有限,HBM 的额外带宽并未被充分利用;只有在解码阶段,HBM 的高带宽价值才真正释放。考虑到 HBM 在加速器 BOM 中已成为最昂贵的单一组件,从 Hopper 到 Blackwell,其成本占比不断攀升,因此合理配置不同类型的存储成为优化成本的关键。
GDDR7 需求的激增,也对存储供应链造成了更大的影响。英伟达最初为 RTX Pro 6000 下达的大量 GDDR7 订单,主要由三星承接。凭借灵活的产能调配能力,三星成功满足了这些突发需求,而 SK 海力士和美光的晶圆产能则更多被锁定在利润更高的 HBM 订单上。
近期,英伟达要求三星将 GDDR7 产量翻倍,三星不仅扩大了生产设施,还增加了必要的材料与组件。据业内人士透露,所有量产准备工作已基本完成,预计本月就能启动扩产后的供应链。这种快速响应能力使三星在图形 DRAM 市场占据了有利位置。
更值得关注的是,英伟达正准备推出代号 “B40” 的新产品,将搭载三星 GDDR7 并针对中国市场销售。该产品通过降低数据处理能力来规避出口限制,预计今年出货量可能达到 100 万片,仅 GDDR7 基板需求就高达约 2000 亿韩元。摩根士丹利分析指出,若地缘政治不确定性持续,B40 的市场潜力将进一步释放。
GDDR7 的采用不仅是成本优化的选择,更可能成为 AI 推理普及化的重要推手。通过大幅降低显存在系统总成本中的比重,GDDR7 使得更多企业能够负担得起 AI 推理基础设施。这种成本下降带来的连锁反应不容小觑。
当 token 成本显著下降,用户对推理的需求会随之激增。就像许多降低成本的技术创新一样,需求增长往往远远抵消成本下降的影响,最终推动整个市场规模的持续扩大。这意味着,虽然单个系统使用了成本更低的 GDDR7,但整体市场对高端 HBM 的需求反而可能因为应用普及而进一步增长。
此外,GDDR7 在特定应用场景中展现出独特优势。对于那些需要大量并行处理但对单一任务带宽要求不高的应用,如批量图像处理、自然语言理解的预处理阶段等,GDDR7 提供了近乎完美的性价比。随着 AI 应用场景的不断细分,这种差异化的存储方案将找到更广阔的市场空间。
把握 AI 存储机遇,尽在湾芯展 2025
2025 年湾区半导体产业生态博览会(简称 “湾芯展”)将于 10 月 15 - 17 日在深圳会展中心(福田)盛大开幕。作为中国半导体产业的年度盛会,本届展会规模扩容 50%,展示面积突破 60,000 平方米,汇聚 600 + 全球头部企业,预计吸引 60,000 名专业观众,共同见证全球半导体创新成果与无限商机。
在 AI 加速进入 “存储为王” 的时代,湾芯展将重点展示 HBM、HBF、GDDR7 等前沿存储技术及其在 AI 算力中心、智能汽车、超算平台中的应用突破。无论是高带宽存储推动 AI 大模型推理,还是新一代高速接口助力数据中心提效,都将在这里得到最直观的呈现。同时,来自国内外的存储巨头与创新企业将带来最新产品与解决方案,为产业上下游创造深度合作契机。
区别于传统展会,2025 湾芯展首创 “项目采购展” 模式和全年服务体系,贯穿展前精准匹配、展中高效对接、展后持续跟进,切实推动百亿级产业合作落地。作为连接全球半导体生态的重要桥梁,湾芯展将助力中国半导体实现从 “跟跑” 到 “领跑” 的跨越,成为企业开拓市场、拓展合作的首选平台。
的真实性如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理。
网址:https://www.icpdf.com/news/2338.html

热门文章
- 华虹无锡集成电路研发和制造基地(二期)12英寸生产线顺利建成投片 2024-12-12
- PCB 打样的关键:层叠结构设计详解 2025-08-11
- 美国能源部拟向Rivian提供66亿美元贷款,支持电动汽车扩产 2024-11-27
- 拆解 Tesla Model 3 逆变器:芯片技术与系统架构解读 2025-09-18
- 芯片行业困境:流片成功率暴跌与良率提升难题 2025-05-15
- 高通 Nuvia 架构:从起源到应用的全面解读 2025-06-26
- 光子芯片发力,强势叫板英伟达 NVLink 2025-09-23
- 2.5D 与 3D 集成技术:热性能差异全解析 2025-08-08
- 日本最大芯片分销商Macnica瞄准中印等亚洲并购,以扩大市场份额 2024-11-28
- 一文带你搞懂混联电路图的简捷识读方法 2025-02-25