您的位置：首页 > 设计应用 > 正文

高通 Nuvia 架构：从起源到应用的全面解读

时间：2025-06-26 10:08:36 浏览：21

随着计算技术的持续进步，CPU 架构的优化与创新已成为提升计算性能和降低功耗的关键所在。高通 Nuvia CPU 架构作为新一代 CPU 架构的杰出代表，凭借其独特的设计理念和先进的制造工艺，在计算机领域引发了广泛关注。

Nuvia 背景与高通收购

Nuvia 于 2019 年由三位经验丰富的芯片设计师 Gerard Williams III、Manu Gulati 和 John Bruno 创立。他们此前在苹果、Google 等公司从事核心芯片架构设计，有着丰富的履历。其中，Gerard Williams 是苹果的前首席架构师，主导了多个 A 系列处理器的设计。Nuvia 成立的目标是为数据中心市场提供新的、高效的 CPU 解决方案，其首款产品 “Phoenix” 旨在成为低功耗高性能的服务器处理器，通过创新架构设计实现超越现有竞争对手的性能表现。

2021 年，高通以 14 亿美元收购 Nuvia，这一举措具有多重战略意义。一方面，强化自研 CPU 核心技术，减少对 ARM CPU 的依赖。高通虽在移动处理器市场占据主导，但芯片设计依赖 ARM 架构授权，收购 Nuvia 后可开发自有高性能 CPU 核心，降低成本并获得更多设计自主权。另一方面，有助于高通竞争移动、PC 及服务器市场，将 Nuvia 技术应用于多个领域，与苹果、AMD 和 Intel 等展开更全面的竞争。与传统 ARM 架构不同，Nuvia 采用完全定制的架构，虽遵循 ARM 指令集，但在核心和非核心部件上大量优化，能更好地优化特定数据中心任务，具备显著的性能和功耗管理优势。

Oryon CPU 架构

Oryon 是基于 Nuvia 设计的高通新 CPU 品牌，旨在为 Snapdragon 处理器系列提供强大计算能力，主要面向 Windows - on - Arm 笔记本电脑和移动设备。不过，这一过程中存在法律争议，Arm 公司对高通提起诉讼，称其在未获许可的情况下使用 Nuvia 设计，这可能影响高通使用 Arm 架构的能力。

Oryon CPU 架构介绍

高通披露了Snapdragon X Elite SoC的架构，其中的Oryon CPU核心设计展现了其独特之处。与传统的架构不同，Oryon采用了均匀的核心设计，而非单独针对性能和能效优化的核心。这意味着Oryon核心在性能和能效方面的表现都很突出，而不需要牺牲某一方面的能力。

它采用均匀核心设计，性能和能效表现均突出，无需牺牲某一方面。该架构包含多个部分：

●CPU 部分：Qualcomm Oryon™ CPU 有 12 个自定义 CPU 核心，分三个簇，每簇 4 个核心，通过 L2 缓存共享数据，适合多任务处理。

●GPU 部分：Qualcomm® Adreno™ GPU 负责图形渲染和处理，支持 3D 图形高效渲染并优化功耗，适用于游戏和图像密集型应用。

●神经处理单元（NPU）：Qualcomm® Hexagon™ NPU 专为 AI 和机器学习设计，加速推理与计算操作，用于图像识别和语音处理等 AI 功能。

●摄像头处理单元：Qualcomm® Spectra ISP™负责摄像头数据处理，支持高分辨率图像和视频捕获，具备噪声抑制、色彩校正、HDR 等高级图像处理功能。

●安全处理单元：Qualcomm® Secure Processing Unit 保护敏感数据，如生物识别信息、加密密钥等，增强设备安全性。

●感知集线器：Qualcomm® Sensing Hub 处理低功耗下的传感器数据，适用于手势识别和语音激活等背景传感器应用，提高电池续航。

●内存子系统：包括系统级缓存（SLC）和系统内存管理单元（SMMU），高效管理内存资源和模块间数据共享。

●I/O 接口：负责 SoC 的输入 / 输出操作，与外部设备和系统模块通信。

●连接性模块：集成 5G 调制解调器和 Wi - Fi、蓝牙连接模块，确保快速数据传输和低延迟无线通信。

●电源管理模块：PMIC 负责整个 SoC 的电源管理，提高系统能效比。

●音频处理模块：提高音频质量，增强用户体验。

共享 L2 缓存

高通在 Snapdragon X 和 Oryon CPU 核心集群上采用扁平的缓存层次结构，每四个核心共享一个 12MB 的 12 路相联 L2 缓存，访问延迟仅 17 个周期。这种包容性缓存设计简化了数据驱逐操作，提高了能效。同时，采用 MOESI 协议确保缓存一致性，L2 缓存以全核心频率运行，支持完整 64 字节操作，实现数百 GB 字节的带宽，优化了集群间的数据访问。此外，Snapdragon X 的四核心集群并非 Oryon CPU 集群的最大配置，其设计具备支持 8 核心配置的能力，展现出作为服务器处理器的潜力。

Oryon 核心的 L1 指令缓存达 192KB，是 Intel Redwood Cove 的三倍，取指单元每个周期能检索多达 16 条指令。其解码前端宽，每周期可解码 8 条指令，所有解码器对称设计，避免特殊情况的瓶颈。

后端执行转换

Oryon 的后端执行转换设计精妙。其重排序缓冲区（ROB）超过 650 个条目，通过乱序执行提升指令并行性和整体性能。解码器每周期输入 8 条指令并输出 8 个微操作，确保高效指令处理。庞大的寄存器重命名池提供超过 400 个整数运算寄存器和 400 个向量单元寄存器，支持高效并行处理。执行管道包括 6 个整数管道、4 个浮点数 / 向量管道和 4 个加载 / 存储管道，整数管道能执行基本 ALU 操作，部分支持分支处理和乘累加指令，向量管道配备 NEON 单元，支持多种数据类型。

数据加载存储

Oryon 的数据加载 / 存储单元灵活高效。L1 数据缓存为 96KB 的 6 路组相连缓存，多端口和精细分片设计提高并发访问效率。加载 / 存储单元使用 L1 dTLB 管理地址转换，支持 4KB 和 64KB 转换粒度。流水线每周期可执行最多 4 次加载 / 存储操作，支持存储到加载的转发，减少数据依赖等待。加载和存储队列管理未完成操作，确保执行流畅。与大容量 L2 缓存紧密集成，减少内存访问延迟。同时，采用多种高级预取技术，覆盖多种数据访问模式，支持多级预取，优化数据访问。

内存管理单元（MMU）功能

Oryon 的 MMU 负责内存地址转换和虚拟内存管理，支持 4KB 和 64KB 的内存页大小转换，适应不同应用场景。支持虚拟化和两级地址转换、嵌套虚拟化，增强虚拟机支持能力。L1 指令和数据 TLB 支持虚拟地址到物理地址的转换，单周期访问降低内存访问延迟。L2 - TLB 采用 8 路组相连结构，存储大量地址转换结果，适用于大内存占用应用。页表缓存存储多级页表描述符，硬件页表遍历器支持每个核心多个并发页表遍历请求，确保高并发下高效处理地址转换。

内存子系统

Oryon 芯片的内存子系统设计旨在优化性能和效率。系统级缓存（SLC）容量为 6MB，延迟 26 - 29 纳秒，带宽每个方向 135GB/s。动态随机存取存储器（DRAM）采用 LPDDR5x，规格为 8448MT/s，8 个通道，16 位宽度，带宽 135GB/s，最大内存容量 64GB，延迟 102 - 104 纳秒。CPU 集群通过总线接口单元（BIU）与 SLC 交互，通过 fabric 与 DRAM 子系统相连，实现数据读写。L3 缓存仅为 6MB，虽小但访问速度极快，能与 DRAM 提供相同带宽，用于 L2 缓存和 DRAM 之间的数据传递。

CPU 的安全性

高通在 Oryon CPU 中集成了多种先进安全功能。控制流完整性措施包括指针认证和分支目标 ID，防止代码注入和恶意跳转。内置硬件侧信道缓解措施，防护熔毁、幽灵等著名安全漏洞，使用内部块密码进行微架构混淆，增加攻击难度。每个集群配备独立的随机数发生器，提高安全性。采用最先进的安全架构，如信任区隔离受保护代码和数据，密码学扩展提供额外加密功能。强调指针认证、分支目标 ID、推测屏障和 RCTX 指令的重要性，以及随机数生成在安全中的作用，对特定攻击类型具有抵抗力。

较高的性能

高通宣称 Snapdragon X 在每核心基础上，性能高于竞争对手 AMD 和英特尔的架构，且效率更高。与 AMD Ryzen 9 7940HS、Intel Core Ultra 9 155H 和 Intel Core Ultra 9 185H 相比，Qualcomm Oryon™ CPU 在性能和能效方面具有竞争优势，尤其在低功耗区间能提供更高性能，这对移动设备和高效能处理应用程序至关重要。

上一篇：铜柱取代焊球，半导体封装开启 “铜” 时代新篇章下一篇：小芯片未来：IMEC 最新路线图勾勒 2039 年产业蓝图

高通 Nuvia 架构：从起源到应用的全面解读

热门文章

电子百科