AWS 科普芯片:认识芯片的本质与应用
就像人类生存离不开电、自来水以及跳动的心脏等基本要素一样,计算机芯片也早已融入到我们日常生活的方方面面,以至于我们常常忽略它的存在。当我们在智能手机上滑动屏幕、观看喜欢的节目、驾驶汽车,甚至使用食品加工机制作薯片时,芯片都在背后默默发挥着作用。然而,大多数人对这个处于众多现代设备核心位置的基本构造块却知之甚少,从而错过了芯片背后的精彩世界。
在亚马逊,自 2015 年收购专业微电子公司 Annapurna Labs 以来,便开始为 AWS 数据中心构建和设计芯片。其硬件和软件工程师在从芯片设计到服务器部署的每一个开发阶段都保持紧密协作。与传统的先构建芯片,再将其集成到系统中,最后编写软件的方式不同,亚马逊采用的是开发整个系统并从头开始的模式,为特定类型的工作负载打造更加定制化的芯片。这种垂直整合、系统优先的思维模式,正是亚马逊芯片的独特之处。
那么,什么是芯片呢?计算机芯片是一块薄如晶圆的半导体材料薄片,通常由硅制成,内部嵌入了电子电路,可以将其视为电子设备内的决策者。所有芯片,无论是应用于智能手机、笔记本电脑,还是用于训练人工智能的芯片,外观上大致相似,并且都采用先进技术制造。但它们的设计目的却各不相同。例如,智能手机芯片功能多样,需要管理消息传递、网页浏览等多种功能,同时还要尽可能延长电池寿命。而像 AWS Trainium 这样的定制人工智能芯片,则拥有强大的计算能力,其设计目标就是专门处理海量数据,推动生成式人工智能的发展。
在过去的几十年里,芯片的发展日新月异,变得越来越精密和强大。随着工程师们不断挖掘这些微小元件的处理能力,芯片的复杂度也在不断增加。芯片的处理能力很大程度上依赖于其以接近光速的超高速传输数据的能力。哪怕数据传输的距离只增加一点点,都会对整体性能产生不利影响。这就要求芯片架构师精心 “优化” 芯片蓝图或平面图,以减少频繁交换信息的组件之间的空间。由于芯片的额外接地长度可能只有单个原子的长度,比人类头发的宽度短数千倍,所以架构师几乎没有容错空间。任何微小的瑕疵,都可能导致项目延误数月甚至一年。考虑到芯片涉及价值数百万甚至数十亿美元的设备和材料,芯片的设计和制造绝非易事。
以 AWS 的 Trainium 芯片为例,它主要用于训练机器学习模型。Trainium 芯片专为满足人工智能的特定需求而设计,需要具备强大的计算能力来处理海量数据。一块 Trainium 芯片每秒可以完成数万亿次计算,要知道,一个人数到 1 万亿需要 31700 多年的时间。要真正了解 Trainium 等芯片的强大功能和复杂性,我们不妨换个视角,将芯片想象成一座城市。硬件如同城市的建筑环境,数据流就像货物和人员的流动,电力则通过地下网络输送到需要的地方。
芯片设计师就像城市规划师一样,需要考虑如何以最佳方式连接交通繁忙区域和人流量较少的区域,确保交通系统高效运行,为不同需求区域提供合理的公共设施平衡,以及最大限度地降低能源消耗等问题。如果将 Trainium 芯片比作一座城市,它包含不同的区域,每个区域都有特定的功能。芯片的核心是 “市中心”—— 脉动阵列,这里是活动最频繁的地方,密集的计算昼夜不停。脉动阵列是一个由数千个专用计算单元组成的网格,这些单元像城市街区一样排列,每个单元都能同时执行计算。它们以有节奏的脉动模式将数据传递给相邻的单元,就像心脏泵血一样,因此被称为 “脉动阵列”。
脉动阵列不断进行 MAC 运算,即 “浮点乘法和累加计算”,这是一种基本算术计算,一步执行乘法和累加两个运算。就像市中心的摩天大楼通过最大限度地利用垂直空间来容纳数千名工人一样,脉动阵列密集地封装计算单元,以同时处理数十亿个人工智能操作。这个区域永不停歇,不断地计算、处理,并将结果传递给邻近的单元。在高峰时段,数据流动速度极快且协调性完美。
为整个市中心供电的是数十亿个晶体管,它们排列在比邮票还小的区域。这些微型开关类似于交通信号灯,每秒可以变化数十亿次。它们通过导通或阻断电流来控制电流,并用数字语言表示为 “1” 或 “0”。当数十亿个晶体管协同工作时,就能执行各种计算,使沉浸式视频游戏、语音助手等应用成为可能。
没有高效的交通系统,城市就无法高效运转,Trainium 芯片也不例外。数据通过被称为 “数据总线” 的专用路径和网络在芯片内部和芯片之间传输。就像城市的道路、高速公路和公共交通系统一样,数据总线传输信息的方式与城市交通网络将人们送入和送出市中心的方式类似。连接脉动阵列和内存的高流量区域需要像 “高速公路” 一样宽阔的数据总线,以便快速传输大量信息;而连接监控系统的低流量数据总线则可能更像较窄的 “小巷”。AWS 工程师会像城市规划人员设计交通系统以避免交通拥堵一样,优化数据路径,确保处理顺畅。因为一旦出现信息瓶颈,性能就会受到影响,就像高峰时段的拥堵会减慢通勤速度一样。
虽然计算在市中心进行,但数据存储在芯片的存储单元中,也就是 “外围区域”。这些存储单元是高效的存储空间,可容纳人工智能处理所需的海量数据集。它们对于确保市中心的脉动阵列获得所需信息至关重要,而且需要快速提供这些信息。存储单元被战略性地排列,频繁访问的数据会被放置在靠近脉动阵列的位置,而较大的数据集则可能位于较远的位置。存储单元与市中心的距离决定了数据检索和处理的速度,就像通勤时间取决于居住地点与工作地点的距离一样。
在 Trainium 芯片的底部,有一个被称为中介层的部分。两个计算核心芯片(市中心脉动阵列)和四个高带宽内存堆栈(外围区域)都位于中介层之上。中介层在计算核心和内存芯片之间建立重要的连接(微观电通路),使数据能够在芯片间无缝流动,并管理电力传输。就像城市地下的基础设施,如电力线、水管和光纤一样,中介层创建了一个看不见却至关重要的运输和电力输送系统,将资源精准地输送到需要的地方。芯片设计人员会根据不同区域的需求,将更多的电力输送到计算密集型区域,同时在需求较低的区域节省能源。正是这个网络,使得不同芯片上的数十亿个晶体管能够像在一块硅片上构建一样进行通信,极大地扩展了芯片设计的物理可能性。
我们对单个芯片的探索就到这里,但值得思考的是,当这些芯片连接起来形成更大的系统时会是什么样子,就像城市相互连接形成更大的大都市区一样。在 AWS 数据中心,一台 Trainium 服务器可以容纳 16 块芯片,AWS 现在将四台这样的服务器连接在一起,形成一个称为 “UltraServer” 的服务器。这使得 64 块互连的芯片能够协同工作,显著加速复杂计算,并为下一波生成式人工智能提供强大动力。当把这种规模扩展到数十万个芯片和多个数据中心时,最终可能会得到世界上最强大的用于训练人工智能的计算机之一,这一切都得益于最细致的规划以及在微观尺度上实施的伟大创意。

热门文章
- YAGEO(国巨)产品选型指南 2024-09-14
- 三星发力 1c DRAM 研发,HBM4 量产开启高端存储新征程 2025-07-22
- 塔塔公司收购和硕印度唯一iPhone工厂,深化苹果供应链合作 2024-11-18
- 芯片制造核心:半导体薄膜测量方法全解析 2025-07-02
- 松下(Panasonic)电感器产品选型手册(2024) 2024-09-14
- 脑机接口芯片三问:技术、性能与未来走向 2025-07-17
- 移为(Queclink )SC350MG E-bike IoT智能终端 20240123 2024-09-12
- 单颗3GB GDDR7显存将率先应用于RTX 5090移动GPU 2025-01-03
- Carling Technologies(嘉灵科技)微型开关产品选型手册 2024-10-16
- 英特尔放弃Falcon Shores AI芯片,战略布局生变 2025-02-12