您的位置:首页 > 设计应用 > 正文

存算一体:技术、应用与未来挑战

时间:2025-08-20 15:30:27 浏览:20

在当今数字化时代,数据处理需求呈爆炸式增长,存算一体作为一项极具潜力的技术,正逐渐成为业界关注的焦点。今天这篇文章,我们将深入探讨这个近年来备受瞩目的概念 —— 存算一体。

为何提出 “存算一体”

存算一体,英文为 Compute In Memory,简称 CIM,即把存储和计算整合在一起。自计算机诞生以来,主流计算架构是冯・诺伊曼架构,在该架构中,存储和计算是相对独立的模块,存储负责数据存取,计算负责运算。

2.png

图:冯·诺依曼架构

我们可以形象地将存储比作配菜,计算比作炒菜,只有两者配合得当,才能高效完成计算任务。理论上,要提高计算效率,一方面需提升芯片算力,如采用更先进的工艺制程;另一方面,要加快存储设备与计算芯片之间的数据传输能力。计算机的存储采用分级策略,越靠近处理器的存储设备,速度越快但容量越小,这是由存储设备成本决定的。

然而,进入互联网时代,数据量激增,对计算效率要求越来越高,传统冯・诺伊曼架构的缺陷逐渐显现。尤其是 AI 的崛起,使数据计算强度大幅提升,产生了 “存储墙” 和 “功耗墙” 问题。“存储墙” 指存储设备与处理器之间的数据传输速度跟不上处理器计算速度,业内提出 AI 运算所需的存算通道速率为 1PB/s,而现有的 SRAM、DRAM 远达不到要求。“功耗墙” 则是指数据传输过程中能耗巨大,导致系统能效比不理想。例如,在 7nm 工艺下,数据搬运功耗占比高达 63.7%,远超数据计算功耗。

为解决这些问题,业界尝试了 HBM 技术,它在一定程度上缓解了问题,但未从根本上改变存算分离现状。于是,存算一体的概念应运而生,将存储和计算结合,减少数据搬运次数,可提高计算效率、降低功耗,彻底解决 “两堵墙” 问题。实际上,人类大脑就是典型的存算一体结构,神经元兼具存储和处理信息的功能,能高效处理复杂任务且能耗极低。

存算一体的发展历程

存算一体的研究起步较早。1969 年,斯坦福研究所的 Kautz 等人率先提出存算一体计算机的概念,但受当时技术和工艺限制,仅停留在理论研究阶段。后来,科学家们进行了大量研究和尝试,但进展缓慢。

进入 21 世纪,芯片与半导体技术逐渐成熟,存算一体化有了实现的可能。科学家发现某些特殊材料或器件能在存储数据的同时执行简单逻辑运算,可减少数据搬运次数和功耗。2010 年,惠普实验室的 Williams 教授团队验证了利用忆阻器实现简单布尔逻辑功能。2016 年,美国加州大学圣塔芭芭拉分校的谢源教授团队提出使用阻变存储器构建存算一体架构的深度学习神经网络,相比传统架构,可降低功耗约 20 倍、提升速度约 50 倍。2017 年,众多机构推出存算一体系统原型,引发了 “存算一体” 热潮。

近年来,随着 AI 浪潮兴起,存算一体进入高速发展阶段。除传统芯片巨头加紧研究外,众多创业企业也纷纷入场。2023 年 9 月,清华大学团队研发出全球首颗全系统集成的忆阻器存算一体芯片,再次将 “存算一体” 推上热搜。如今,存算一体正加速从理论研究走向产业落地。

存算一体的技术路线

目前,业界根据存储和计算的距离远近,将存算一体分为近存计算、存内处理和存内计算三类。

近存计算(Processing Near Memory,PNM)

近存计算,通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。前面提到的HBM共封装,就是近存计算。

近存计算又分为存储上移和计算下移。HBM那个,属于存储上移。计算下移是采用板卡集成技术,将数据处理能力卸载到存储器,典型方案是CSD可计算存储。

近存计算严格来说仍然是属于存算分离架构。这个路线比较容易实现,现在已经广泛应用于AI、大数据、边缘计算、物联网等场景。

存内处理(Processing In Memory,PlM)

存内处理,是在芯片制造的过程中,将“存”与“算”集成在同一个晶粒(Die)中,使存储器本身具备了一定的算力。存内处理本质上仍是存算分离。相比于近存计算,“存”与“算”距离更近。

目前,业内的存内处理方案大多在内存(DRAM)芯片中加“算力”,比较典型的产品形态为HBM-PIM(三星)和PIM-DIMM。这类方案适合应用于语音识别、数据库索引搜索、基因匹配等场景。

存内计算(Computing in Memory,ClM)

存内计算,这是真正的存算一体了(也属于业界所说的狭义的存算一体)。在芯片设计的过程中,不再区分存储单元和计算单元,直接消除“存”“算”界限,真正实现存算彻底融合。

这个方案的主要服务场景就是AI计算。AI深度学习算法中包含了大量的矩阵乘法运算,其本质是乘累加(Multiply Accumulate, MAC)运算。

存算一体技术可以将这些运算直接映射到存储结构中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,在存储阵列中完成卷积运算。这带来了极高的能效比和极低的延迟。

存算一体的存储介质

存内计算的电路可基于易失性和非易失性两种存储器。易失性存储器如 SRAM、DRAM,掉电后数据丢失;非易失性存储器如 NOR Flash、NAND Flash 以及新型的阻变存储器 RRAM、磁性存储器 MRAM 等,掉电时数据不丢失。

SRAM、DRAM、Flash 等是成熟技术,基于电荷移动存储数据。DRAM 成本低、容量大,但工艺节点不先进、读取延迟大且需定期刷新数据;Flash 适合小算力场景;SRAM 速度快、能效比高,适用于云计算等大算力场景。目前,新型存储器如 RRAM、MRAM 等的研究热门,它们基于电阻变化存储数据。其中,忆阻器 RRAM 的研究热度最高,它通过电阻调制存储数据,可获得较好的线性电阻特性,但目前工艺良率爬坡仍在进行,且需面对可靠性问题。

3.png

存内计算主要有模拟和数字两种实现方式。模拟存内计算能效高但误差大,适用于低精度、低功耗场景;数字存内计算误差低但单位面积功耗大,适用于高精度、对功耗不敏感的场景。

存算一体的应用场景

存算一体天然适用于 AI 相关计算场景,如自然语言处理、信息检索等,能满足其对算力效率和系统能耗的高要求。此外,AIoT 智能物联网产品也适合采用存算一体芯片,该市场更关注芯片成本、功耗和开发难度,存算一体芯片在这些方面具有优势。

在大算力场景,如云端 AI 计算,存算一体也有广阔应用前景。目前 AI 计算以 GPU 为主,但 GPU 在算力和能效上无法与专用加速芯片竞争,且单一架构不能适应不同 AI 计算场景的算法离散化特点。新型存算一体芯片具有能效优势,适合固定场景计算任务,应用潜力巨大。

此外,存算一体芯片还有感存算一体、类脑计算等延伸应用,这些领域也极具潜力。

存算一体面临的挑战

尽管存算一体技术前景广阔,但实现和普及仍面临诸多挑战。

技术挑战:存算一体采用新型存储技术,对半导体工艺要求更高,在芯片架构、电路设计和材料选择等方面需进一步研究和创新。

生态挑战:作为新兴领域,存算一体的生态系统尚未完善。芯片设计阶段缺乏成熟的专用 EDA 工具辅助设计和仿真验证,流片后也无成熟工具测试,落地应用阶段缺乏专用软件匹配。需要产业界协作,提高设计工具链成熟度,加强代工厂标准 IP 库建设,优化制造成本,提升产业链协同能力。

市场挑战:存算一体技术市场前景虽好,但存在诸多不确定因素。存算一体芯片架构场景通用性和规模扩展能力较差,传统存算分离架构仍占主导地位,需与之竞争。此外,存内计算只适用于存储需求大的场景,对于存储需求低的场景,引入内存计算可能增加成本。用户对性价比关注度高,存算一体需寻找合适的落地场景。

存算一体的未来展望

根据 QYResearch 调研团队报告《全球存算一体技术市场报告 2023 - 2029》,预计 2029 年全球存算一体技术市场规模将达 306.3 亿美元,未来几年年复合增长率 CAGR 为 154.7%。这表明存算一体市场潜力巨大,未来几年将有更多技术创新和优秀企业涌现。随着技术不断进步和业界努力,存算一体面临的挑战有望逐步解决,为数据处理领域带来新的变革。