您的位置:首页 > 行业资讯 > 正文

当前处理器架构升级:挑战与提升机会并存

时间:2025-07-21 09:59:10 浏览:35

在当今科技飞速发展的时代,处理器作为电子设备的核心组件,其性能和功耗一直是行业关注的焦点。多年来,处理器设计主要聚焦于性能提升,然而如今,功耗问题已成为不可忽视的关键因素。若性能的微小提升会导致功耗大幅增加,设计人员往往会选择更具能效的方案。尽管现有的处理器架构在性能和功耗方面有一定进步,但进一步提升的难度日益增大。

Cadence Tensilica 音频 / 语音 DSP 产品营销总监 Prakash Madhvapathy 指出:“当下,每个人都在重新设计微架构,以控制功耗。” 许多为提高计算吞吐量而设计的处理器功能,如乱序执行,虽能提升性能,但增加了电路复杂度,导致功耗和电路面积上升。由于功耗成本的考量,类似改进在当下可能不再被接受。那么,当前的处理器架构究竟还有哪些提升机会呢?

高效实现:仍有改进空间

众多提升效率的举措都围绕现有架构的优化设计展开,且在这方面仍有一定进展。Ansys 产品营销总监 Marc Swinnen 表示:“在实现层面,存在多种节能技术。” 利用工艺改进是一种基本方法,它能以更低功耗完成更多任务。“摩尔定律并未失效,我们仍在不断获得更小的工艺技术,这始终是降低功耗的首要途径。虽然这种方法即将面临瓶颈,但尚未完全耗尽潜力。”

0.png

工艺改进还会影响工艺节点的选择。Madhvapathy 提到:“22 纳米工艺本质上是 28 纳米工艺的优化版本,其能耗特性有显著提升。” 他还指出,12 纳米也是高效设计中常用的工艺节点。此外,3D - IC 技术提供了一种介于单片芯片和 PCB 级组件之间的新功耗解决方案。Swinnen 解释道:“3D - IC 的功耗虽高于单片芯片,但相较于传统 PCB 走线连接的多芯片方案,其功耗更低、速度更快。” 共封装光学器件(CPO)技术将光学器件更靠近硅片,同样有助于降低功耗,但该技术的商业化应用仍面临一定挑战。

并非所有技术都实用

一些听起来有趣的实现技术,在实际应用中却面临诸多挑战。异步设计便是其中之一。Swinnen 解释道:“异步设计中,每个寄存器能以最快速度与下一个寄存器通信,无需中央时钟,消除了时钟架构和数据路径等待问题。然而,该技术存在性能不可预测的问题,且每个芯片的时序可能因工艺变化而略有不同。” 此外,异步设计中触发器的复杂性增加,导致功耗上升,因此其在实际应用中并未成为主流设计方法。

数据和时钟门控技术可抑制杂散功耗或毛刺功耗,但会增加电路面积。Madhvapathy 表示:“虽然面积增加,但对杂散功耗的抑制效果显著。” 不过,在 RTL 层面,功耗节约的空间有限,架构层面的改进才是关键。

昂贵的功能:性能与成本的权衡

人工智能计算使设计团队面临内存墙挑战,业界在关注 AI 训练和推理的同时,也需平衡执行功耗和数据移动功耗。尽管时钟频率持续缓慢提升,但对性能的推动作用已不如从前。为使处理器保持高效运行,设计人员采用了多种架构特性,如推测执行(分支预测)、乱序执行和有限并行性。

推测执行旨在避免在分支指令执行后等待结果,而是推测性地选择最可能的分支。但如果推测错误,需回溯计算并重新启动另一个分支,这会增加功耗和延迟。分支预测通常与乱序执行配合使用,允许指令以不同于程序顺序的方式执行,以提高指令执行效率。然而,这些系统的成本与其效益可能不成比例。西门子 EDA 高级综合部门项目总监 Russ Klein 举例说明:“分支预测器的大小和复杂度会影响性能和功耗,大型复杂的预测器虽能提升性能,但会占用更多空间和功耗。”

Cadence 通过重构编解码器代码,减少分支数量,实现了 5% - 15% 的性能提升。Madhvapathy 表示:“在典型程序中,约 20% 的指令为分支指令,这些都是推测执行的潜在机会,性能提升可达 30% 或更高,但总开销可能在 20% - 30% 之间。”Klein 提到的 “杀戮法则” 指出:“若为 CPU 添加功能导致面积增加超过性能提升,那么该功能不应被添加。”

并行计算:简单而有效的方法

并行性是提升性能的另一种途径,但当前处理器中的并行性有限。主流处理器主要通过实例化多个核心和核心内的多个功能单元来实现并行性。功能单元是执行实际指令的基本单元,一个给定的功能单元通常能执行多种指令。通过提供多个功能单元,可在一个单元忙碌时,让其他单元处理不同指令,实现指令的并行执行。

然而,真正实现并行化计算并非易事。虽然多核处理器早在十多年前就已商业化,但由于很少有算法能完全并行化,且大多数算法包含串行执行的部分,受阿姆达尔定律限制,多核处理器未能取得显著成功。不过,在某些情况下,即使算法看似不适合并行化,仍存在并行计算的机会。例如,在图像处理中,通过同时计算多个像素,可实现并行处理。如今,数据中心服务器的处理器拥有多达约 100 个核心,用于为不同用户执行多个程序。

并行化的挑战与解决方案

尽管并行计算具有提升性能的潜力,但处理器的并行编程面临诸多挑战。并行编程通常需要显式管理代码的并行性,这比传统编程更复杂,需要开发者了解数据依赖性,以确保程序按顺序执行。目前虽有一些辅助工具,但尚未成为主流软件开发方法。

此外,手动管理并行性可能需要针对不同处理器编写不同程序,且当所需线程数超过处理器硬件管理能力时,程序性能可能会受到影响。软件开发者对显式并行编程的接受度较低,这也是多核处理器商业失败的原因之一。不过,并行化主要是为了提升性能,降低功耗还需采用适度核心和激进的降功耗策略,以确保空闲核心不消耗能量。

Klein 认为:“由大量简单 CPU 组成的阵列是可行的解决方案,但需要改变编程方法。目前,唯一的希望是 AI 能够创建并行编译器,这是行业尚未实现的目标。” 在实际应用中,我们通常采用加速器作为非阻塞卸载,让加速器处理特定任务,而 CPU 则执行其他任务或进入休眠状态。

加速器:通用与定制的选择

各类加速器已存在数十年,如今,能加速训练和推理的加速器备受关注,因为它们能满足特定的密集计算需求。Expedera 营销副总裁 Paul Karazuba 表示:“异构计算结合处理核心,可实现优化的功耗和性能,其中 NPU 能解决所有 AI 处理问题,避免了 CPU 和 GPU 效率较低的问题。但不同 NPU 在方法、架构和利用率上存在差异。”

加速器可分为高度特定(定制)和通用两种类型。如果 AI 工作负载稳定,定制 NPU 能显著提高功耗和成本效率;若需要支持多个模型或适应未来 AI 趋势,通用 NPU 则更具灵活性,且易于与现有软件生态系统集成。定制加速器能更精准地适应工作负载,提高能效。Karazuba 指出:“创建更侧重于应用的 NPU 是提高处理器子系统效率的有效方法。定制 NPU 通常采用专门的 MAC 阵列和执行管道,针对特定数据类型和模型结构进行优化;通用 NPU 则包含可配置的计算单元,支持多种数据类型,能处理更广泛的层和运算符。”

Expedera 在实际应用中发现,部署定制 NPU 后,处理器效率(以 TOPS/W 衡量)可提高约 3 - 4 倍,利用率(实际吞吐量 / 理论最大吞吐量)可提高 2 倍以上。

未来展望:架构创新的必要性

尽管当前处理器架构仍有提升空间,但在不久的将来,我们可能会面临创新枯竭的风险。届时,新的处理器架构将成为解决问题的关键。然而,由于当前架构依赖庞大的生态系统,改变并非易事。幸运的是,已经出现了一些新的架构理念,以及放弃部分通用性的可能性。未来,随着技术的不断发展,我们有望看到处理器架构的重大突破,为电子设备带来更高效、更低功耗的性能表现。