AI 算力困局待解,移动芯片从 GPU 迈向 NPU 新路径
在当今科技飞速发展的时代,边缘人工智能、GenAI 以及下一代通信技术的崛起,给手机带来了前所未有的挑战。手机不仅要满足高性能的需求,还得兼顾低功耗,而领先的智能手机供应商们也在努力跟上本地化生成人工智能、标准手机功能以及在手机和云之间频繁传输数据等需求不断增长的计算和功率要求。
除了像面部识别这类边缘功能,手机还需适应持续更新的通信协议、系统和应用程序。更为关键的是,它们要在一次充电的情况下完成所有任务,同时在使用时保持较低的温度。正如 Imagination Technologies 产品管理、细分战略高级总监 Vitali Liouti 所说:“如果你观察任何高端手机配置,就会发现所有 SoC 都采用异构架构,它们由不同的模块组成,执行不同的功能,但又相互协作。从系统角度来看,每个移动 SoC 制造商都是这么做的。他们以异构的方式看待系统,并从平台的角度(包括硬件和软件)进行考量。”
(图1:手机电路板,右上角显示片上系统 (SoC),包含 Arm CPU 和其他组件。)
Cadence 硅片解决方案事业部 Tensilica DSP 产品管理和营销总监 Amol Borkar 指出,AI 网络的快速发展和模型需求的多样化,让移动市场 SoC 的设计变得愈发复杂。AI 模型,尤其是大型语言模型和 Transformer 变体,在架构、大小和计算需求方面不断变化,芯片设计人员必须提前将对未来 AI 功能的支持融入硅片,且制造后难以更改。同时,要支持大规模基于云的模型和针对设备推理优化的紧凑模型,这进一步加剧了设计的挑战。
AI 不仅推动了 SoC 系统视角的变革,也促使单个处理器及其任务分配发生改变。Synaptics 副总裁兼物联网和边缘 AI 处理器总经理 John Weil 表示,当前主要有两个变革方向:一是 Arm 生态系统和 RISC - V 中的 CPU 架构不断增强,通过添加矢量数学单元块来加速基于 Transformer 的模型所需的数学函数;二是神经处理器的增强,可看作专注于边缘 AI 模型加速的 GPU,旨在加速模型内的各种操作数。
(图2:移动 SoC 设计,其中 AI 加速器可以是另一个 GPU、NPU 或高端 ASIC。)
过去几年,GPU 和 NPU 的设计不断更新以适应新的用例。GPU 通常占据高端手机硅片面积的 25% 左右,NPU 的尺寸也在不断增大。Imagination 的 Liouti 表示,根据工作负载的不同,NPU 或 GPU 会在不同层面发挥主导作用,NPU 已成为低功耗和始终在线应用的最佳选择,但强大的 CPU 对于初始工作和管理也至关重要。
关键在于并行处理的能效,无论是图形处理、通用计算还是人工智能专用计算。“我们一直在研究我们的 ALU 引擎,并对其进行了彻底的重新设计和调整,以实现非常节能的数字运算,”Imagination 技术洞察副总裁 Kristof Beets 表示。“下一步是将更多 NPU 领域的技术引入 GPU—— 数据类型是更专用的处理流水线,以提供足够的性能。此外,我们需要在整个客户群中实现可扩展性。我们不能忽视开发者社区,因为我们如何让人们访问它?我们如何确保一切开箱即用?然后,如何有效地优化和调整它们?”
总体而言,将人工智能融入芯片设计变得更加容易。英飞凌物联网、消费电子和工业 MCU 高级副总裁 Steve Tateosian 表示,如今开发人员利用 AI 工具创建模型更加便捷,工具的显著改进让更广泛的开发人员能够参与其中。
随着人工智能的发展,其呈现出视觉化的趋势,这对处理能力提出了更高要求。同时,手机的无线化使得模拟内容增加,通信标准的不断发展也给 SoC 设计人员带来了挑战。Synopsys 移动、汽车和消费 IP 产品管理执行总监兼 MIPI 联盟主席 Hezi Saar 表示,实现 AI 用例并推动 UFS 落地,加速规范制定至关重要,且从 UFS 设备到 SoC 的读取连接需要高效,以降低延迟和功耗。
多模态模型和 GenAI 工具的兴起进一步增加了复杂性,这要求 AI 子系统的设计兼顾未来发展,具备灵活性和高效性。Cadence 的 Borkar 表示:“这些模型需要灵活高效的计算结构,能够处理各种数据类型和执行模式。为了在不确定性和 AI 快速发展面前保持韧性,AI 子系统的设计必须兼顾未来发展。这通常涉及将可编程 IP 模块与 NPU 集成,使 SoC 能够在流片后适应新的模型架构和工作负载。要支持如此广泛的 AI 用例,SoC 不仅需要强大高效,还需要架构敏捷,这使得以 AI 为中心的芯片设计成为移动计算领域最具活力和挑战性的前沿领域之一。”
手机算法在处理触摸信号时也面临挑战。Synaptics 产品营销总监 Sam Toba 指出,显示屏变薄会导致触摸层受显示噪声影响,从大噪声中识别有效手指信号变得更加困难。这款超低功耗芯片需要判断哪些信号有意义,然后才能唤醒主机 SoC。
手机中 AI 应用不断增加,本地处理 AI 功能和模型具有诸多优势,如降低延迟、保护数据隐私、降低功耗和成本等。Imagination 的 Liouti 表示,在超优化时代,设计师需要将技术债务降至最低,才能让手机发挥更大的潜力和性能。“数据移动造成了 78% 的功耗。我们的主要关注点是‘如何减少这种数据移动?’这可以在 GPU 层面实现,这也是我们关注的重点,但也可以在平台层面、SoC 层面实现。我们必须开发极其先进的技术来减少数据移动,而对于神经网络来说,这变得更加复杂 —— 尤其是对于大型神经网络,因为它们需要大量的数据。”
(图 3:智能手机中正在实施的用例,其中 LLM 或 AI 引擎需要在存储设备上可用。)
尽管越来越多的设备端 AI 处理正在发生,但由于电池和功率限制,有些功能仍将在云端运行。Imagination 的 Liouti 认为,这只是一段伟大旅程的开始,几年后情况将截然不同。同时,更强大的 GPU 将成为解决方案的一部分,但英飞凌的 Tateosian 观察到,每次新版本发布之后,手机用户体验并没有太大变化,软件在一定程度上吞噬了设备性能和内存的提升。
有几个关键趋势推动着移动 SoC 设计的变革。Ansys 的 Swinnen 表示,模拟技术、视频和人工智能的发展以及高性能计算的需求,要求芯片具备强大计算能力,但手机制造商受限于低功耗、小尺寸和低成本的要求。设计人员必须从硬件和软件两个角度设计 SoC,进行软硬件协同设计,涉及多个不同学科,才能在竞争中取得领先地位。

热门文章
- 深圳 180 亿芯片黑马受瞩目,华为猛下单开启合作新篇 2025-05-15
- Bourns 推出六款全新 Riedon™ 工业分流电阻产品线 2024-09-10
- 英伟达市值一夜蒸发近2万亿,市场动荡引关注 2024-09-04
- 业界首款!湖北发布高性能车规级芯片DF30 2024-11-11
- ABLIC(艾普凌克)存储器IC产品选型手册 2024-09-27
- MRDIMM—— 存储领域的新兴 “宠儿” 来袭 2025-05-08
- 一文带你了解ADC码值转换过程 2024-11-01
- 曝英伟达最强 AI 芯片遇重大设计缺陷!至少推迟三个月发货! 2024-08-09
- 三星Q3利润未达预期,芯片业务负责人罕见发声致歉 2024-10-08
- 华为申请固态电池专利:掺杂硫化物材料助力锂离子电池寿命提升 2024-11-11