您的位置:首页 > 行业资讯 > 正文

存算一体技术新突破:我国科研团队解决排序难题

时间:2025-07-09 11:37:38 浏览:30

在当今时代,汹涌澎湃的 AI 浪潮给陷入低谷期的半导体行业带来了新的发展动力,同时也在倒逼产业创新,以更好地适应 AI 的需求。上世纪 40 年代,现代史上第一台计算机诞生,基于 “存储 - 计算分离” 原理的冯・诺依曼架构也随之孕育,此后芯片设计基本沿用这一架构。在近 70 年的现代芯片行业发展历程中,虽然在软件和硬件上不断进行优化设计,但计算机的根本架构依然未变。

从冯·诺依曼,到存算一体

伴随着信息时代的数据大爆炸以及AI浪潮的到来,业界愈发感受到经典冯·诺依曼架构的局限性。

1.png

一方面,因“存储-计算分离”的原理,数据需在存储器与计算单元间频繁搬运,也就导致大量的资源被浪费在数据搬运这一环节上。根据英特尔的研究表明,当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的63.7%。数据传输造成的功耗损失越来越严重,限制了芯片发展的速度和效率,形成了“功耗墙”问题。

2.png

另一方面,近二十年间,设备算力提高了10万倍,存储设备的容量也有极大提升,但通讯带宽的增长只有30倍,严重影响了计算效率。如同两个临近的地方从小村庄发展成一线大城市,但两地之间的道路只从一车道升级成两车道,对两地的物流客流形成极大的掣肘。

基于上述背景,众多科学家与业内工程师开始了新的路径的探索,尝试解决“存储墙”与“功耗墙”问题,不必要的数据搬移造成的开销,提升计算效率。存算一体(Processing-In-Memory, PIM 或 Compute-in-Memory, ,CIM)基于上述背景被提出,其核心理念是在存储器本体或其邻近位置实现计算功能,以避免传统“计算—存储—搬运”的瓶颈。

3.png

业界对于存算一体的初次探索,最早于上世纪90年代,加州大学伯克利分校IRAM和伊利诺伊大学FlexRAM等团队基于DRAM/Flash等传统存储器进行“近存计算”尝试,但受限于工艺和集成度,未形成广泛影响。2015年前后,随着摩尔定律逼近失效,微缩与制程工艺进步愈发难,原本被搁置的存算一体技术再次受到关注,而且新型存储器的兴起也为存算一体的发展提供了新的可能性。在2017年微处理器顶级年会上,包括英伟达、英特尔、微软、三星、加州大学圣塔芭芭拉分校等都推出了他们的存算一体系统原型。

近些年,存算一体芯片的已取得了非常显著的研究进展,除IBM、三星、SK海力士等传统半导体巨头外,包括斯坦福大学、普林斯顿大学以及我国清华大学、北京大学、中国科学院微电子研究所等研究机构在该领域的研究处于世界前列。在众多团队的推动之下,存算一体正在由基础研究逐步向产业化迈进。

2021年底,达摩院成功研发出全球首款基于DRAM的3D键合堆叠存算一体AI芯片,号称在特定AI场景中,该芯片性能提升10倍以上,能效比提升高达300倍。2022奶奶,SK海力士推出首款基于PIM技术的产品 – GDDR6-AiM的样本。三星发布的 HBM3 Icebolt 技术采用近存计算架构,通过12层10nm级动态随机存储器堆叠, 实现了高达6.4Gbps 处理速度和高达819GB/s 的带宽。2023年,后摩智能推出我国首款存算一体智驾芯片鸿途™H30,其在功耗仅为35W的情况下,最高物理算力可达256TOPS。

啃下一块“硬骨头”

尽管存算一体技术被视为CPU、GPU架构之后的算力架构“第三极”,但其在当前的实际应用中还存在不少的问题,实际的应用场景和范围比较有限。

北京航空航天大学集成电路科学与工程学院的康旺、寇竞、赵巍胜在论文《存算一体芯片发展现状、趋势与挑战》中提到,“在终端侧,核心要解决的问题是多模态信息的超低功耗处理. 现有的感存算一体芯片方案集中于单一模态(如听觉、视觉、触觉等)的信号处理,而智能体对环境的感知和判断往往需要综合分析多模态的数据。”

相较针对单一场景的单一模态数据处理,多模态信息处理面临着数据融合、模型设计、计算资源、数据标注、应用适配和数据隐私等多方面的复杂挑战,如智能驾驶、智能安防等对数据处理的实时性都有着极高的要求。

在数据处理中,排序算法是非常重要的一环,通过对海量的候选内容进行快速排序,找出最相关项进行处理。在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。不过,排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,这也导致其实际应用始终局限于单一场景,也在一定程度上制约了下一代人工智能计算硬件发展。

北京大学集成电路学院人工智能研究院陶耀宇研究员在接受芯师爷等媒体采访时表示,“排序之所以成为CIM发展中迟迟未突破的难点,归根结底在于其“非结构化”“控制密集”的计算特性,这与当前以存内线性加速为核心的PIM设计理念天然存在张力。因此,若能突破排序在存算一体中的实现瓶颈,不仅是一项工程难题的攻克,更意味着CIM迈向通用智能计算平台的一大步。”

针对这一“硬骨头”,全球各大科研机构都在想方设法攻克,这其中也包括北京大学的团队。近日,北京大学团队在这方面取得领先突破,国际上首次实现了基于存算一体技术的高效排序硬件架构。这意味着,北京大学团队解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用提供更高效算力支持。

“正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为人工智能相关任务构建了全链路的底层硬件架构支持。”论文通讯作者、北京大学人工智能研究院陶耀宇研究员表示。目前,该成果由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的团队完成,已在国际顶级学术期刊《自然∙电子》上发表。

据了解,为了实现对排序的攻关,科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。主要突破主要有四点:

5.png

首先,开发了一套基于新型存内阵列结构的高并行比较机制;第二,开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计;第三,在算子层面,优化了面向人工智能任务的算法-架构协同路径,同时兼容现有矩阵计算;第四,完全自主设计的器件-电路-系统级技术栈整合。

论文第一作者、北京大学集成电路学院博士生余连风介绍道,“排序的核心是比较运算,需要精准地实现‘条件判断+数据搬移’,在复杂的应用场景中,要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较-选择’的比较器单元,而传统存算一体架构主要面向‘乘加’、‘累加’等操作,难以支持这样的复杂运算,我们的工作成功解决了这一难题,设计了一种‘无比较器’的存算一体排序架构。”

据科研团队提供的实测结果显示,该硬件方案在典型排序任务中提升速度超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。

突破了排序和信息处理瓶颈的存算一体芯片适用于各类人工智能场景和元宇宙计算,如可穿戴设备、移动终端、智能驾驶、数据中心等。陶耀宇研究员表示,“根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘AI芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。更重要的是,在社会层面,该技术有望推动新一代智慧交通、智慧医疗、智能制造、数字政府系统更加高效运行,释放数据价值,助力新质生产力形成。”

值得一提的是,除了在产业发展上的经济价值之外,北京大学团队在存算一体芯片方面的突破还别具战略意义。该科研团队表示,“这一成果不仅是技术层面的突破,更是攻克了存算一体化排序加速的‘硬骨头’难题,在面向人工智能基础操作的硬件加速领域实现了突破,将为我国建设科技强国,实现高水平科技自立自强注入新算力。”

此前,北京航空航天大学集成电路科学与工程学院的康旺、寇竞、赵巍胜在论文《存算一体芯片发展现状、趋势与挑战》中,提到了发展存算一体芯片对我国有着重大的战略意义。文中指出,首先,存算一体芯片通过架构创新,突破现有CPU 和GPU的“存储墙”和“功耗墙”瓶颈,有望成为后摩尔时代芯片发展的主流:其次,通过存算一体计算架构与先进封装集成技术的协同创新,可以在一定程度上规避国外先进工艺封装。

就现有研究而言, 存算一体芯片在28nm工艺节点下的性能即可比肩传统的7nm数字芯片,因此发展存算一体芯片对于我国突破国外先进工艺封锁,实现我国芯片产业“弯道超车”有着重要意义:最后,目前全球范围内存算一体芯片并未形成统一、完善的产业体系和技术路径。 因此,把握存算一体芯片先机,积极推动存算一体及新型存储器相关技术研发,在理论、材料、工艺、架构、电路等领域取得关键性突破和革命性进展,有助于我国突破当前的算力困境与国外的商业限制,抢占人工智能算力高地,为新一轮人工智能技术革命奠定算力基础。