您的位置:首页 > 设计应用 > 正文

高通 Nuvia 架构:从起源到应用的全面解读

时间:2025-06-26 10:08:36 浏览:21

随着计算技术的持续进步,CPU 架构的优化与创新已成为提升计算性能和降低功耗的关键所在。高通 Nuvia CPU 架构作为新一代 CPU 架构的杰出代表,凭借其独特的设计理念和先进的制造工艺,在计算机领域引发了广泛关注。

Nuvia 背景与高通收购

Nuvia 于 2019 年由三位经验丰富的芯片设计师 Gerard Williams III、Manu Gulati 和 John Bruno 创立。他们此前在苹果、Google 等公司从事核心芯片架构设计,有着丰富的履历。其中,Gerard Williams 是苹果的前首席架构师,主导了多个 A 系列处理器的设计。Nuvia 成立的目标是为数据中心市场提供新的、高效的 CPU 解决方案,其首款产品 “Phoenix” 旨在成为低功耗高性能的服务器处理器,通过创新架构设计实现超越现有竞争对手的性能表现。

2021 年,高通以 14 亿美元收购 Nuvia,这一举措具有多重战略意义。一方面,强化自研 CPU 核心技术,减少对 ARM CPU 的依赖。高通虽在移动处理器市场占据主导,但芯片设计依赖 ARM 架构授权,收购 Nuvia 后可开发自有高性能 CPU 核心,降低成本并获得更多设计自主权。另一方面,有助于高通竞争移动、PC 及服务器市场,将 Nuvia 技术应用于多个领域,与苹果、AMD 和 Intel 等展开更全面的竞争。与传统 ARM 架构不同,Nuvia 采用完全定制的架构,虽遵循 ARM 指令集,但在核心和非核心部件上大量优化,能更好地优化特定数据中心任务,具备显著的性能和功耗管理优势。

Oryon CPU 架构

Oryon 是基于 Nuvia 设计的高通新 CPU 品牌,旨在为 Snapdragon 处理器系列提供强大计算能力,主要面向 Windows - on - Arm 笔记本电脑和移动设备。不过,这一过程中存在法律争议,Arm 公司对高通提起诉讼,称其在未获许可的情况下使用 Nuvia 设计,这可能影响高通使用 Arm 架构的能力。

Oryon CPU 架构介绍

高通披露了Snapdragon X Elite SoC的架构,其中的Oryon CPU核心设计展现了其独特之处。与传统的架构不同,Oryon采用了均匀的核心设计,而非单独针对性能和能效优化的核心。这意味着Oryon核心在性能和能效方面的表现都很突出,而不需要牺牲某一方面的能力。

1.png

它采用均匀核心设计,性能和能效表现均突出,无需牺牲某一方面。该架构包含多个部分:

●CPU 部分:Qualcomm Oryon™ CPU 有 12 个自定义 CPU 核心,分三个簇,每簇 4 个核心,通过 L2 缓存共享数据,适合多任务处理。

GPU 部分:Qualcomm® Adreno™ GPU 负责图形渲染和处理,支持 3D 图形高效渲染并优化功耗,适用于游戏和图像密集型应用。

神经处理单元(NPU):Qualcomm® Hexagon™ NPU 专为 AI 和机器学习设计,加速推理与计算操作,用于图像识别和语音处理等 AI 功能。

摄像头处理单元:Qualcomm® Spectra ISP™负责摄像头数据处理,支持高分辨率图像和视频捕获,具备噪声抑制、色彩校正、HDR 等高级图像处理功能。

安全处理单元:Qualcomm® Secure Processing Unit 保护敏感数据,如生物识别信息、加密密钥等,增强设备安全性。

感知集线器:Qualcomm® Sensing Hub 处理低功耗下的传感器数据,适用于手势识别和语音激活等背景传感器应用,提高电池续航。

内存子系统:包括系统级缓存(SLC)和系统内存管理单元(SMMU),高效管理内存资源和模块间数据共享。

I/O 接口:负责 SoC 的输入 / 输出操作,与外部设备和系统模块通信。

连接性模块:集成 5G 调制解调器和 Wi - Fi、蓝牙连接模块,确保快速数据传输和低延迟无线通信。

电源管理模块:PMIC 负责整个 SoC 的电源管理,提高系统能效比。

音频处理模块:提高音频质量,增强用户体验。

共享 L2 缓存

高通在 Snapdragon X 和 Oryon CPU 核心集群上采用扁平的缓存层次结构,每四个核心共享一个 12MB 的 12 路相联 L2 缓存,访问延迟仅 17 个周期。这种包容性缓存设计简化了数据驱逐操作,提高了能效。同时,采用 MOESI 协议确保缓存一致性,L2 缓存以全核心频率运行,支持完整 64 字节操作,实现数百 GB 字节的带宽,优化了集群间的数据访问。此外,Snapdragon X 的四核心集群并非 Oryon CPU 集群的最大配置,其设计具备支持 8 核心配置的能力,展现出作为服务器处理器的潜力。

Oryon 核心的 L1 指令缓存达 192KB,是 Intel Redwood Cove 的三倍,取指单元每个周期能检索多达 16 条指令。其解码前端宽,每周期可解码 8 条指令,所有解码器对称设计,避免特殊情况的瓶颈。

后端执行转换

Oryon 的后端执行转换设计精妙。其重排序缓冲区(ROB)超过 650 个条目,通过乱序执行提升指令并行性和整体性能。解码器每周期输入 8 条指令并输出 8 个微操作,确保高效指令处理。庞大的寄存器重命名池提供超过 400 个整数运算寄存器和 400 个向量单元寄存器,支持高效并行处理。执行管道包括 6 个整数管道、4 个浮点数 / 向量管道和 4 个加载 / 存储管道,整数管道能执行基本 ALU 操作,部分支持分支处理和乘累加指令,向量管道配备 NEON 单元,支持多种数据类型。

数据加载存储

Oryon 的数据加载 / 存储单元灵活高效。L1 数据缓存为 96KB 的 6 路组相连缓存,多端口和精细分片设计提高并发访问效率。加载 / 存储单元使用 L1 dTLB 管理地址转换,支持 4KB 和 64KB 转换粒度。流水线每周期可执行最多 4 次加载 / 存储操作,支持存储到加载的转发,减少数据依赖等待。加载和存储队列管理未完成操作,确保执行流畅。与大容量 L2 缓存紧密集成,减少内存访问延迟。同时,采用多种高级预取技术,覆盖多种数据访问模式,支持多级预取,优化数据访问。

内存管理单元(MMU)功能

Oryon 的 MMU 负责内存地址转换和虚拟内存管理,支持 4KB 和 64KB 的内存页大小转换,适应不同应用场景。支持虚拟化和两级地址转换、嵌套虚拟化,增强虚拟机支持能力。L1 指令和数据 TLB 支持虚拟地址到物理地址的转换,单周期访问降低内存访问延迟。L2 - TLB 采用 8 路组相连结构,存储大量地址转换结果,适用于大内存占用应用。页表缓存存储多级页表描述符,硬件页表遍历器支持每个核心多个并发页表遍历请求,确保高并发下高效处理地址转换。

内存子系统

Oryon 芯片的内存子系统设计旨在优化性能和效率。系统级缓存(SLC)容量为 6MB,延迟 26 - 29 纳秒,带宽每个方向 135GB/s。动态随机存取存储器(DRAM)采用 LPDDR5x,规格为 8448MT/s,8 个通道,16 位宽度,带宽 135GB/s,最大内存容量 64GB,延迟 102 - 104 纳秒。CPU 集群通过总线接口单元(BIU)与 SLC 交互,通过 fabric 与 DRAM 子系统相连,实现数据读写。L3 缓存仅为 6MB,虽小但访问速度极快,能与 DRAM 提供相同带宽,用于 L2 缓存和 DRAM 之间的数据传递。

CPU 的安全性

高通在 Oryon CPU 中集成了多种先进安全功能。控制流完整性措施包括指针认证和分支目标 ID,防止代码注入和恶意跳转。内置硬件侧信道缓解措施,防护熔毁、幽灵等著名安全漏洞,使用内部块密码进行微架构混淆,增加攻击难度。每个集群配备独立的随机数发生器,提高安全性。采用最先进的安全架构,如信任区隔离受保护代码和数据,密码学扩展提供额外加密功能。强调指针认证、分支目标 ID、推测屏障和 RCTX 指令的重要性,以及随机数生成在安全中的作用,对特定攻击类型具有抵抗力。

较高的性能

高通宣称 Snapdragon X 在每核心基础上,性能高于竞争对手 AMD 和英特尔的架构,且效率更高。与 AMD Ryzen 9 7940HS、Intel Core Ultra 9 155H 和 Intel Core Ultra 9 185H 相比,Qualcomm Oryon™ CPU 在性能和能效方面具有竞争优势,尤其在低功耗区间能提供更高性能,这对移动设备和高效能处理应用程序至关重要。