GPU

2025-07-08 14:22:14

摘要:图形处理单元 (GPU) 是一种电子电路,用于处理图像并加速计算机、智能手机和游戏机等消费设备上 3D 计算机图形的渲染。虽然 GPU 和 CPU 都是至关重要的硅基计算引擎,但 GPU 架构专为在屏幕上渲染图像而设计。GPU 的内核更小、数量更多、专业化程度更高,旨在将处理任务划分为多个任务集,并在多个内核上并行处理。这显著提升了性能。

 

什么是图形处理单元 (GPU)?


图形处理单元(GPU)是一种电子电路,旨在加速各种设备上的计算机图形和图像处理。这些设备包括显卡、系统板、手机和个人电脑 (PC)。

通过快速执行数学计算,GPU 可以缩短计算机运行多个程序所需的时间。这使其成为机器学习 (ML)、 人工智能 (AI)和 区块链等新兴及未来技术的重要推动者。

在 20 世纪 90 年代 GPU 发明之前,个人电脑和视频游戏控制器中的图形控制器依赖于计算机的中央处理器 (CPU)来运行任务。自 20 世纪 50 年代初以来,CPU 一直是计算机中最重要的处理器,负责运行程序所需的所有指令,例如逻辑、控制和输入/输出 (I/O)。

然而,随着 20 世纪 90 年代个人游戏和计算机辅助设计 (CAD) 的出现,业界需要一种更快、更有效的方法来快速组合像素。

2007 年,Nvidia 构建了 CUDA™(统一计算设备架构),这是一个软件平台和应用程序编程接口 (API),使开发人员能够直接访问 GPU 的并行计算能力,使他们能够将 GPU 技术用于比以前更广泛的功能。

在 2010 年代,GPU 技术获得了更多的功能,其中最重要的可能是光线追踪(通过追踪来自相机的光线方向来生成计算机图像)和张量核心(旨在实现 深度学习)。

由于这些进步,GPU 在 AI 加速和深度学习处理器中发挥了重要作用,有助于加速 AI 和 ML 应用的开发。如今,除了为游戏机和编辑软件提供支持外,GPU 还为许多企业至关重要的尖端计算功能提供支持。

图形处理单元 (GPU)

GPU 如何工作?


GPU 拥有自己的随机存取存储器 (RAM),这是一种用于存储代码和数据的电子存储器,芯片可以根据需要访问和修改这些代码和数据。高级 GPU 通常配备 RAM,用于存储计算密集型任务(例如图形编辑、游戏或 AI/ML 用例)所需的大量数据。

两种流行的 GPU 内存是图形双倍数据速率 6 同步动态随机存取存储器 (GDDR6) 和更新一代的 GDDR6X。GDDR6X 的单位传输功耗比 GDDR6 低 15%,但由于速度更快,其总功耗也更高。iGPU 可以集成到计算机的 CPU 中,也可以插入 CPU 旁边的插槽并通过 PCI Express 端口连接。

GPU 和 CPU 有什么区别?


CPU 和 GPU 的设计类似,包括用于处理任务的类似数量的内核和晶体管,但 CPU 的功能比 GPU 更通用。而 GPU 则更专注于单一、特定的计算任务,例如图形处理或机器学习。

CPU 是计算机系统或设备的心脏和大脑。它们接收来自程序或软件应用程序的有关任务的一般指令或请求。而 GPU 则负责更具体的任务——通常涉及快速处理高分辨率图像和视频。GPU 不断执行渲染图形或其他计算密集型功能所需的复杂数学计算,以完成其任务。

最大的区别之一是 CPU 往往使用较少的内核,并以线性顺序执行任务。而 GPU 则拥有数百甚至数千个内核,能够进行并行处理,从而实现闪电般的处理能力。

首批 GPU 是为了加速 3D 图形渲染而打造的,旨在使电影和视频游戏场景更加逼真、引人入胜。首款 GPU 芯片——英伟达 (Nvidia) 的 GeForce——于 1999 年发布,随后迅速进入快速发展期,凭借其高速并行处理能力,GPU 的功能扩展到了其他领域。

并行处理或并行计算是一种依靠两个或多个处理器来完成整体计算任务的不同子集的计算。

在 GPU 出现之前,老一代计算机一次只能运行一个程序,通常需要数小时才能完成一项任务。GPU 的并行处理功能可以同时执行多项计算或任务,使其比老一代计算机中的 CPU 更快、更高效。

GPU 有哪些不同类型?


GPU 有三种类型:

  • 独立 GPU

  • 集成 GPU

  • 虚拟 GPU

独立 GPU

独立 GPU(dGPU)是独立于设备 CPU 的图形处理器,CPU 负责接收和处理信息,使计算机能够正常运行。独立 GPU 通常用于具有特殊要求的高级应用程序,例如编辑、内容创作或高端游戏。它们是独立的芯片,带有用于连接独立电路板的连接器,并通过快速插槽连接到 CPU。

最广泛使用的独立 GPU 之一是英特尔 Arc 品牌,专为 PC 游戏行业打造。

集成 GPU

集成 GPU(iGPU)内置于计算机或设备的基础设施中,通常安装在 CPU 旁边。集成 GPU 由英特尔于 2010 年代设计,随着微星、华硕和英伟达等制造商注意到将 GPU 与 CPU 结合使用(无需用户自行通过 PCI Express 插槽添加 GPU)的强大功能,集成 GPU 变得越来越流行。对于笔记本电脑用户、游戏玩家以及其他在 PC 上运行计算密集型程序的用户来说,集成 GPU 仍然是热门选择。

虚拟 GPU

虚拟 GPU(vGPU)具有与独立或集成 GPU 相同的功能,但没有硬件。它们是为云实例构建的基于软件的 GPU 版本,可用于运行相同的 工作负载。此外,由于它们没有硬件,因此比物理 GPU 更简单、更便宜。

什么是云 GPU?


云 GPU 是指通过云服务提供商 (CSP) 访问虚拟 GPU。近年来,受云计算加速发展和基于 AI/ML 的应用日益普及的推动,基于云的 GPU 服务市场蓬勃发展。《财富商业洞察》的一份报告显示,GPU 即服务 (GPUaaS) 市场规模预计将从 2024 年的 43.1 亿美元增长到 2032 年的 498.4 亿美元。

许多云服务提供商(CSP),包括 Google Cloud Platform、Amazon Web Services (AWS)、Microsoft 和 IBM Cloud®,都提供 按需访问可扩展GPU 服务,以优化工作负载性能。CSP 在其数据中心 提供按需付费的虚拟化 GPU 资源。他们通常使用 Nvidia、AMD 和 Intel 等顶级 GPU 制造商的 GPU 硬件来支持其基于云的基础架构。

基于云的 GPU 产品通常预配置,易于部署。这些功能可帮助企业避免与物理 GPU 相关的前期成本和维护成本。 此外,随着企业寻求集成生成式 AI工作负载来执行高级计算任务(例如内容创建、图像生成),基于云的 GPU 提供的可扩展性和成本效益对企业业务至关重要。

什么是 GPU 基准测试?


GPU 基准测试提供了在各种条件下评估 GPU 性能的流程。这些专业的软件工具可以帮助用户(例如游戏玩家、3D 艺术家、系统开发人员)深入了解他们的 GPU,并解决诸如瓶颈、延迟以及与其他软件和硬件的兼容性等性能问题。

GPU 基准测试主要分为两种类型:合成基准测试和真实基准测试。合成基准测试在标准化环境中测试 GPU 的原始性能。真实基准测试则测试 GPU 在特定应用程序中的性能。

GPU 基准测试工具会关注速度、帧率和内存带宽等性能指标。它们还会评估热效率和功耗,以帮助用户根据特定需求实现最佳性能。一些 GPU 基准测试平台还包含一些测试,用于衡量固态硬盘 (SSD) 与 GPU 的交互效果。

现代 GPU 用例


随着 GPU 的不断发展,技术进步使其更加可编程,并发现了更多功能。具体来说,GPU 能够将任务划分到多个处理器上(即并行处理),这使得它们成为各种应用领域不可或缺的一部分,例如 PC 游戏、高性能计算 (HPC)、3D 渲染工作站、数据中心计算等等。

下面我们将详细介绍 GPU 技术的一些最重要的现代应用,包括:

人工智能

如果没有 GPU 计算,人工智能及其众多应用几乎不可能实现。GPU 能够比传统 CPU 更快、更高效地解决高技术问题,因此其不可或缺。GPU 是许多超级计算机(尤其是人工智能超级计算机)的关键组件。

GPU 为许多领先的 AI 应用提供支持,例如IBM 的云原生 AI 超级计算机 Vela, 这些应用需要高速计算来处理越来越大的数据集。AI 模型在数据中心 GPU 上训练和运行,这些 GPU 通常由进行科学研究或其他计算密集型任务的企业运营。

机器学习 (ML) 和深度学习 (DL)

机器学习(ML)是人工智能的一个特定学科,它关注如何使用数据和算法来模仿人类的学习方式。深度学习(DL)是机器学习的一个子集,它使用 神经网络来模拟人脑的决策过程。GPU 技术对这两个领域的技术进步都至关重要。

在机器学习和深度学习领域,GPU 能够增强模型对海量数据集进行分类和推理的能力,使其能够像人类一样进行推理。GPU 尤其增强了内存和优化能力,因为它们可以同时执行多项计算。此外,在机器学习和深度学习中使用的 GPU 比 CPU 消耗更少的资源,且性能和准确性不会下降。

区块链

区块链是用于记录交易和追踪商业网络中资产的账本,它严重依赖 GPU 技术,尤其是在“工作量证明”这一步骤中。 在许多广泛使用的区块链(例如加密货币)中,工作量证明步骤对于交易的验证至关重要,从而允许将其添加到区块链中。

游戏

游戏行业在 20 世纪 90 年代首次利用 GPU 的强大功能,以更快的速度和更高的图形精度提升整体游戏体验。如今,由于超现实场景、实时交互以及广阔、沉浸式的游戏世界,个人游戏对计算的要求极高。

虚拟现实 (VR)、更高的刷新率和更高分辨率的屏幕等游戏趋势都依赖于 GPU,以便在要求更高的计算环境中快速提供图形。游戏 GPU 包括 AMD Radeon、Intel Arc 和 Nvidia GeForce RTX。

视频编辑

传统上,较长的渲染时间一直是消费级和专业编辑软件应用的一大障碍。自 GPU 发明以来,它稳步减少了 Final Cut Pro 和 Adobe Premiere 等视频编辑产品的处理时间和计算资源。

如今,配备并行处理和内置人工智能的 GPU 大大加快了从专业编辑套件到智能手机应用程序等一切内容的编辑能力。

内容创作

处理能力、性能和图形质量的提升,使得 GPU 对于内容创作行业的转型至关重要。如今,配备顶级显卡和高速互联网的内容创作者可以创作逼真的内容,利用人工智能和机器学习技术进行增强,并以前所未有的速度进行编辑并将其直播给现场观众——这一切很大程度上都归功于 GPU 技术的进步。

高性能计算

在 HPC 系统中,GPU 使用并行处理能力来加速计算密集型任务,例如药物发现、能源生产和天体物理学等领域的复杂数学计算和大数据分析。

可视化与模拟

许多行业对 GPU 的需求都很高,它们用于增强复杂专业应用程序的体验和培训能力,包括产品演示、CAD 绘图以及医疗、地震或地球物理成像。GPU 在高级可视化(例如,消防员、宇航员、学校教师的专业培训)中至关重要,它包含 3D 动画、AI 和 ML、高级渲染以及超逼真的虚拟现实 (VR) 和增强现实 (AR)体验。

此外,工程师和气候科学家使用基于 GPU 的模拟应用程序来预测天气状况、流体动力学、天体物理学以及车辆在特定条件下的行为。Nvidia RTX 是目前用于科学可视化和能源探索的最强大的 GPU 之一。

GPU、NPU 和 FPGA


随着人工智能和新一代人工智能应用的蓬勃发展,值得研究另外两种专用处理设备以及它们与 GPU 的比较。如今的企业会根据具体需求使用所有三种类型的处理器——CPU、GPU 和 FPGA。

什么是神经处理单元(NPU)?

神经处理单元(NPU)是一种专用计算机微处理器,旨在模拟人脑的处理功能。NPU 也称为AI 加速器、   AI 芯片 或深度学习处理器,是一种硬件加速器,旨在加速 AI 神经网络、深度学习和机器学习。  

NPU 和 GPU 都能增强系统的 CPU 性能,但它们之间存在显著差异。GPU 包含数千个核心,可实现图形渲染和游戏所需的快速、精确的计算任务。NPU 旨在加速 AI 和新一代 AI 工作负载,实时优先处理数据流和内存层次结构,并降低功耗和延迟。

什么是现场可编程门阵列(FPGA)?

高性能 GPU 非常适合深度学习或 AI 应用,因为它们能够在多个核心中处理大量计算,并拥有海量可用内存。现场可编程门阵列 (FPGA)是一种多功能集成电路,可以重新编程以实现不同的功能。与 GPU 相比,FPGA可以提供灵活性和成本效益,从而在需要低延迟的深度学习应用(例如医学成像和边缘计算)中提供更佳性能。