数据中心 ARM 架构之路:困难究竟何在?
在当今科技飞速发展的时代,ARM 芯片在诸多领域展现出了强大的竞争力,但在数据中心领域,ARM 架构的应用却一直面临着诸多困境。作为一名 ARM 芯片推崇者,我在过去很长一段时间都在思索,ARM 处理器为何多年来在数据中心难有作为。近期,一位热衷于尝试新技术的工程师朋友在企业采用 ARM 架构处理方面遭遇难题,这促使我深入探讨当下企业数据中心采用 ARM 架构所面临的挑战。
现有数据中心的兼容性难题
目前,大多数企业的数据中心运行的是 x86 计算集群,英特尔至强(Xeon)处理器占据主导地位。尽管 AMD EPYC 可能在 2025 - 2027 年的某些关键指标上超越英特尔至强,但从现状来看,至强在未来几年仍将保持领先。这就导致 ARM 处理器与现有基础设施存在兼容问题。企业在现有的 x86 架构上投入了大量资源,从软件到硬件,从操作系统到应用程序,都已形成稳定的运行体系。若突然切换到 ARM 架构,就如同给一辆开了多年的汽车更换全新发动机,不仅要重新调整硬件,还要重新部署软件,甚至可能需要重新培训员工,成本极高。
此外,曾经被视为 ARM 优势的节能特性,如今也不再显著。AMD EPYC 采用了与台积电相同的领先制造技术,限制了切换到 ARM 所能获得的节能效果。以一台功率为 1kW 的服务器为例,切换到 ARM 架构最多节省 50W 功耗,一年最多节省约 438kWh 电能,按每度电 0.5 元计算,一年最多节省 219 元。而要实现这一节能效果,却需投入大量时间和精力重新部署系统,显然得不偿失。
硬件选择的 “瓶颈”
即便对 ARM 架构的节能效果有所期待,部署 ARM 服务器也并非易事。目前,虽然可以从多数供应商处获得 NVIDIA Grace 服务器,但这些服务器的双 CPU 模块最多只有 144 个核心,用户需在较低容量的固定内存与较高带宽,或者较高容量的固定内存与较低带宽之间做出艰难选择。
而且,大多数主要供应商虽出售 NVIDIA ARM 解决方案,但 NVIDIA 并不专注于在企业中支持其用于通用工作负载。
目前,对于企业来说,获取现代ARM CPU的选择非常有限。AmpereOne可能是最好的选择,但如果你想从戴尔(Dell)、联想(Lenovo)或惠普企业(HPE)那里找到一台服务器,那将是一项艰巨的任务。
更难的是,不仅找到硬件,而且你的销售代表是否会优先销售AmpereOne服务器?很可能不会。从顶级服务器供应商那里,真正可用的选项只有像Supermicro MegaDC ARS - 211M - NR这样的产品。然而,即使你想要不同的形式因素、CPU配置等,你仍然会陷入困境。
举个例子,假设你是一家大型企业的IT负责人,你需要采购一批新的服务器来支持企业的业务。你发现AmpereOne服务器看起来不错,但当你联系戴尔、联想或惠普企业时,他们却告诉你没有现货,或者需要等很长时间才能拿到货。这显然会让你感到非常沮丧。相比之下,x86服务器的供应就非常充足,你可以轻松地从多个供应商那里获得所需的硬件。
另外,ARM硬件的性能也是一个“短板”。NVIDIA Grace Arm Neoverse V2核心已经开始变得有些过时了。在每个节点的基础上,大多数情况下,你选择更高核心数的英特尔或AMD解决方案会更好。这是因为NVIDIA Grace Arm Neoverse V2核心在性能上已经无法满足企业对通用工作负载的需求。选择ARM硬件,这就像你选择了一辆小型汽车去参加赛车比赛,虽然它看起来很酷,但在速度和性能上却无法和其他专业的赛车相比。
无法获取云服务一样对等的功能
混合多云是当下及未来的热门趋势,但要实现与云服务功能对等却困难重重。亚马逊有其自研的Graviton芯片,仅在其云服务中使用。像甲骨文这样的公司有其Ampere Altra和AmpereOne实例。其他一些提供商则混合使用Ampere Altra和定制的ARM处理器。但每个选项都有非常不同的能力,如果你有大量浮点运算的应用程序,那么这些并不是Ampere的设计优化点。如果你想要一些许多人都认为理所当然的简单功能,比如嵌套虚拟化,那么你就不想在Ampere Altra(Max)平台上运行。
云服务提供商声称这些芯片成本更低,但这在一定程度上避开了超大规模客户谈判定价的方式。超大规模客户非常精明,他们可以计算硅片面积、建立模型以计算制造硅片的产量和成本,加上封装等成本,从而得出制造芯片的成本。然后他们会为芯片供应商提供一定的利润率,这就是他们购买芯片的价格。
另外,云服务提供商采用ARM架构还有“锁定客户”的价值。实际上,我们在超大规模云定价中看到的ARM处理器的折扣被用于不同的目的。
云实例定价中不仅包含芯片的价格。相反,云服务提供商知道每个实例都有一个附加率与其他服务相关联。如果一个网络应用程序在云中使用计算实例构建,它通常会附加存储、备份存储、云出口带宽等服务。因此,获得一个计算实例意味着云服务提供商可以围绕该实例销售更多服务。
而且这也为云服务提供商带来了另一个好处。如果没有真正的企业硬件供公司迁移实例,那么实际上就没有合法的方法可以下载实例映像,并在你从主要供应商购买的本地服务器上启动它。如果你使用的是x86架构,那么这将不是问题,因为有许多选项可以在本地运行。云服务提供商知道这一点,因此ARM成为了一个“偏远酒店”,酒店的服务很好,价格也很便宜,但你却无法离开这家酒店,因为外面没有其他地方可以去。
软件支持的 “短板”
从软件层面看,世界被分为 “云原生” 和众多许可软件包。在云原生领域,在 ARM 应用堆栈上运行 WordPress 已较为容易,但在企业级层面,推动 ARM 架构应用的动力不足。企业若无法购买 ARM 服务器,就无法进行部署;若没有 ARM 的安装基础,现有应用程序也无法在 ARM 上运行。这形成了一个恶性循环:没有软件支持,企业不会要求服务器 OEM 制造并销售 ARM 服务器;没有服务器部署,独立软件供应商(ISV)也不会关注支持 ARM。
此外,许可证问题也让企业头疼不已。ARM 服务器供应商乐于推广云原生应用程序,因其通常无许可证费用。但对于使用微软 Windows Server 等许可软件的企业客户而言,若要获得支持的本地 Windows Server 的 ARM 版本,就需为其获取许可证。目前,该许可证按核心数量计算,对于按物理核心许可的产品,SMT(同时多线程)和每个核心的最大性能等特性更具优势。若按核心数量付费,多数人会倾向于选择 SMT 核心。
朋友的 “实践与抉择”
我的这位朋友一直对运行不同架构的服务器持开放态度,但最终还是放弃了采用 ARM 架构的计划。原本他打算用 ASRock Rack 的 Ampere Altra 服务器替换 EPYC 7001 硬盘节点,但由于 Proxmox VE 没有 ARM 版本,且担心兼容性和恢复虚拟机的问题,最终选择了 ASRock Rack AMD EPYC 8004 Siena 平台。
从管理的角度来看,朋友对运行ARM服务器已经完全习惯了。然而,购买用于部署的ARM服务器的选择有限,虚拟化平台没有ARM版本,可能会遇到一些兼容性问题,这些问题并不难解决,但迁移并不是像关闭一个虚拟机然后在ARM服务器上运行它那么简单。
最终,即使运行ARM可能会因为客户有大量的零部件库存而成本大幅降低,但感觉这仍然是一个错误的决定,因为它会将部署分成两个不同的池。这就像你买了一辆新车,却发现它没有你想要的某些功能,这显然会让你感到非常沮丧。
最终,朋友选择了ASRock Rack AMD EPYC 8004 Siena平台。这个平台不仅兼容性强,而且性能也很出色。虽然它的核心数量可能不如ARM服务器那么多,但它的每个核心的性能都很高,这使得它在处理复杂任务时表现出色。此外,这个平台还支持Proxmox VE,这使得朋友可以轻松地管理和部署虚拟机。
最后的思考
通过与朋友的交流,我深刻认识到企业数据中心采用 ARM 架构面临着现有基础设施兼容性、硬件限制、云服务功能对等性、软件支持和许可证问题等多方面的挑战。这些挑战使得企业在采用 ARM 架构时需谨慎考量,朋友的经历也充分反映了这些问题在实际应用中的影响。希望本文能帮助大家更好地理解企业数据中心采用 ARM 架构的困难,以及企业在选择服务器架构时需综合考虑的各种因素。

热门文章
- 小芯片困局待解:生态系统、标准及技术难题剖析 2025-05-19
- 高通:Arm 已撤回违约指控,无终止许可协议计划 2025-02-06
- 大联大友尚集团携手炬芯科技,推出创新蓝牙音箱解决方案 2024-09-19
- Frore Systems固态散热新方案:全面赋能英伟达AI开发板,解锁极致性能 2024-12-26
- 三星将为高通骁龙座舱平台提供OLED面板,推动车载显示技术革新 2025-02-05
- 台积电 “撤离” 氮化镓,谁会是下一个行业领军者? 2025-07-14
- Google发布最新量子计算芯片Willow,开启量子计算新篇章 2024-12-10
- 英伟达 6 月量产特供版 AI 芯片,瞄准中国市场 2025-05-27
- ASIC 市场扩容,各厂商竞逐新赛道 2025-06-06
- 动力电池组中电加热膜在低温环境下的应用探索 2024-08-08