您的位置:首页 > 设计应用 > 正文

存算一体:技术、应用与挑战全解析

时间:2025-10-13 14:49:01 浏览:16

在当今数字化飞速发展的时代,数据处理需求呈指数级增长,存算一体作为一项极具潜力的技术,正逐渐成为业界关注的焦点。今天这篇文章,我们将深入探讨这个最近几年备受瞩目的概念 —— 存算一体。

为什么会提出 “存算一体”?

存算一体,英文名为 Compute In Memory,简称 CIM,其核心思想是将存储和计算功能整合在一起。自计算机诞生以来,主流的计算架构是冯・诺伊曼架构,在该架构中,存储和计算是相对独立的模块,存储负责数据的存取,计算则负责运算。

1.1.jpg

图:冯·诺依曼架构

我们可以形象地将存储比作配菜,计算比作炒菜,只有两者配合得当,才能高效地完成计算任务。理论上,要提高计算效率,一方面要提升芯片的算力,例如采用更先进的工艺制程;另一方面,要加快存储设备与计算芯片(CPU、GPU 等)之间的数据传输能力。然而,传统的冯・诺依曼架构在数据量爆炸式增长的互联网时代,尤其是 AI 崛起后,暴露出了明显的缺陷,产生了 “存储墙” 和 “功耗墙” 问题。

“存储墙” 指的是存储设备和处理器之间的数据传输速度远远跟不上处理器的计算速度。例如,业内曾提出 AI 运算需要的存算通道速率是 1PB/s,而 SRAM 的 10 - 100TB/s、DRAM 的 40GB - 1TB/s 都远达不到要求。“功耗墙” 则是指数据传输过程中能耗巨大,导致整体系统的能效比不理想。在 7nm 工艺下,数据搬运的功耗占比甚至达到了惊人的 63.7%,远远大于数据计算的功耗。

为了解决这些问题,业界曾尝试过 HBM(High Bandwidth Memory,高带宽内存)技术,通过 3D 封装等先进工艺将存储单元和计算单元封装在一起,在一定程度上缓解了问题,但并没有从根本上改变存算分离的现状。因此,存算一体的概念应运而生,它可以减少数据的搬运次数,提高整体计算效率,降低功耗,就像我们的大脑,神经元既负责存储信息,也负责处理信息,能够高效地处理复杂任务且能耗极低。

存算一体的发展历程

存算一体的研究可以追溯到 1969 年,斯坦福研究所的 Kautz 等人率先提出了存算一体计算机的概念,但受限于当时的技术和工艺,该概念仅停留在理论研究阶段。此后,科学家们进行了大量的研究和尝试,但进展缓慢。

进入 21 世纪,芯片与半导体技术日趋成熟,存算一体化的曙光逐渐显现。科学家们发现某些特殊的材料或器件能够在存储数据的同时,在存储单元内部执行简单的逻辑运算,这大大减少了数据的搬运次数和功耗。2010 年,惠普实验室的 Williams 教授团队提出并验证利用忆阻器实现简单布尔逻辑功能;2016 年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队提出使用阻变存储器(RRAM)构建存算一体架构的深度学习神经网络(PRIME),相较于传统冯・诺伊曼架构方案,PRIME 可以实现功耗降低约 20 倍、速度提升约 50 倍。2017 年,在微处理器顶级年会(Micro 2017)上,众多知名企业和科研机构推出了存算一体系统原型,掀起了 “存算一体” 热潮。

近年来,随着 AI 浪潮的到来,存算一体进入了高速发展的快车道。除了传统芯片巨头加紧研究外,众多创业企业也纷纷入场。2023 年 9 月,清华大学团队宣布研发出全球首颗全系统集成的、支持高效片上学习的忆阻器存算一体芯片,再次将 “存算一体” 推上热搜。如今,存算一体正加速从理论研究走向产业落地。

存算一体的技术路线

目前,业界根据存储和计算的距离远近,将存算一体分为近存计算、存内处理和存内计算三类。

●近存计算(Processing Near Memory,PNM):通过芯片封装和板卡组装等方式,将存储单元和计算单元集成,增加访存带宽、减少数据搬移,提升整体计算效率。前面提到的 HBM 共封装就属于近存计算,它又分为存储上移和计算下移。近存计算严格来说仍属于存算分离架构,但该路线比较容易实现,已广泛应用于 AI、大数据、边缘计算、物联网等场景。

存内处理(Processing In Memory,PlM):在芯片制造过程中,将 “存” 与 “算” 集成在同一个晶粒(Die)中,使存储器本身具备一定的算力。存内处理本质上仍是存算分离,但 “存” 与 “算” 的距离更近。目前,业内的存内处理方案大多在内存(DRAM)芯片中加 “算力”,典型产品形态为 HBM - PIM(三星)和 PIM - DIMM,适合应用于语音识别、数据库索引搜索、基因匹配等场景。

存内计算(Computing in Memory,ClM):这是真正的存算一体(狭义的存算一体),在芯片设计过程中,不再区分存储单元和计算单元,直接消除 “存”“算” 界限,实现存算彻底融合。存内计算主要服务于 AI 计算,在 AI 深度学习算法中,它可以将矩阵乘法运算直接映射到存储结构中,在存储单元的核心电路上做修改,从而在读取的同时进行数据输入和计算处理,带来极高的能效比和极低的延迟。

存算一体的存储介质

存内计算的电路可以基于易失性存储器和非易失性存储器。易失性存储器如 SRAM、DRAM,掉电后数据会丢失;非易失性存储器包括传统的闪存 NOR Flash 和 NAND Flash,以及新型存储器如阻变存储器 RRAM(ReRAM)、磁性存储器 MRAM、铁变存储器 FRAM(FeRAM)、相变存储器 PCRAM(PCM)等。

SRAM、DRAM、Flash 等是成熟的技术,基于电荷的移动完成数据存储。DRAM 成本低、容量大,但存在可用的 eDRAM IP 核工艺节点不先进、读取延迟大且需要定期刷新数据等问题;Flash 属于非易失性存储器件,具有低成本优势,适合小算力场景;SRAM 速度快、能效比高,但容量密度略小,适用于云计算等大算力场景。

目前,针对新型存储器的研究非常热门,其中忆阻器(RRAM)的研究热度最高。RRAM 使用电阻调制来实现数据存储,读出电流信号而非传统的电荷信号,可以获得较好的线性电阻特性。但目前 RRAM 工艺良率爬坡还在进行中,且需要面对非易失存储器固有的可靠性问题。

存算一体的应用场景

存算一体天然适合 AI 相关的计算场景,如自然语言处理、信息检索、图神经网络、智能决策、具身智能等人工智能应用,这些应用对算力效率和系统能耗有极高的要求,传统的 “存算分离” 架构难以应对,而存算一体则非常适合。

此外,AIoT 智能物联网产品也非常适合采用存算一体芯片。碎片化的 AIoT 市场对先进工艺芯片的需求并不强烈,更关注芯片的成本、功耗和开发难度,存算一体芯片在这些方面具有优势。

在大算力场景,如云端 AI 计算,存算一体也大有可为。目前的 AI 计算主要以 GPU 为主,但 GPU 在算力和能效上无法同时与专用加速芯片(ASIC)竞争,其单一架构也不能适应不同 AI 计算场景的算法离散化特点。新型的存算一体芯片具有能效优势,适合固定场景的计算任务,应用潜力巨大。

存算一体芯片还有一些其他延伸应用,如感存算一体、类脑计算等,这些领域也具有很大的市场潜力。

存算一体面临的挑战

尽管存算一体技术前景广阔,但实现和普及仍面临诸多挑战。

⑴.技术挑战:存算一体采用新型存储技术,对半导体工艺有更高的要求,在芯片架构、电路设计和材料选择等方面,都有待进一步研究和创新。

⑵.生态挑战:存算一体技术作为新兴领域,其生态系统尚未完全建立。在芯片设计阶段,缺乏成熟的专用 EDA 工具辅助设计和仿真验证;芯片流片后,也没有成熟的工具协助测试;在芯片落地应用阶段,没有专用的软件与之匹配。这需要产业界协作,提高设计工具链的成熟度,实现自动化 EDA 工具与跨平台编译器的支持,加强代工厂标准 IP 库的建设,优化多场景下的制造成本,提高产业链的整体协同能力。

⑶.市场挑战:存算一体技术虽有广阔的市场前景,但目前市场上存在诸多不确定因素。存算一体芯片的架构场景通用性及规模扩展能力较差,传统存算分离架构仍占据主导地位,存算一体技术需要与传统架构竞争。此外,存内计算仅适合对存储需求较大的场景,对于存储需求不高的场景,引入存算一体可能会增加成本。用户对性价比非常关注,存算一体需要在 AI 的发展过程中寻找合适的落地场景。

最后的话

根据 QYResearch 调研团队报告《全球存算一体技术市场报告 2023 - 2029》显示,预计 2029 年全球存算一体技术市场规模将达到 306.3 亿美元,未来几年年复合增长率 CAGR 为 154.7%。这表明存算一体是一个极具潜力的市场。未来几年,存算一体领域有望出现更多的技术创新,诞生更多优秀的企业。让我们拭目以待!


版权声明: 部分文章信息来源于网络以及网友投稿.本网站只负责对文章进行整理、排版、编辑.是出于传递更多信息之目的.并不意味着赞同其观点或证实其内容
的真实性如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理。

网址:https://www.icpdf.com/design/2333.html