您的位置:首页 > 行业资讯 > 正文

华为全新芯片发布,国产 AI 芯片需应对的三个关键难题

时间:2025-09-28 09:11:22 浏览:78

在当今科技迅猛发展的时代,中国的算力芯片领域正经历着一场深刻的变革。在 2025 年华为全连接大会上,华为展示了其强大的技术实力和创新能力,发布了多款具有里程碑意义的重磅芯片新品,其中包括昇腾 950 系列、960 以及 970 等 AI 芯片,并且公布了未来三年的昇腾 AI 芯片产品路线图。这一举措犹如一颗重磅炸弹,在芯片行业激起了层层涟漪。

其中,昇腾 950 系列采用了独特的设计,有两个不同的后缀 ——PR(Prefill & Recommendation,预填充与推荐)、DT(Decoder & Training,推理解码与训练)。传统 AI 芯片在处理大模型推理时,常常遭遇资源争抢的难题,而互联网平台企业的推荐算法推理模型对内存容量的需求又极为庞大。如何在算力、内存容量和内存带宽之间找到最佳平衡点,成为提升投入产出比的关键所在。

华为的 “P/D 分离” 设计,正是针对这一现实挑战做出的大胆尝试。它试图通过为不同应用场景配置不同的算力、内存容量和带宽,来实现资源的优化配置。在中国 AI 市场,能够运行 DeepSeek 满血版几乎成为了衡量 AI 计算系统的重要标准。然而,要承载 671B 的参数,仅仅是采用不同版本 Memory 这一项的成本差异就高达数万美金。

可以说,中国AI产业的市场化需求,倒逼了国产芯片的产品创新。从产品角度看,发布会上的这一最大看点,也是一个强烈的行业信号:

1)以DeepSeek为代表的应用与基础模型产业方,在持续不断且深度推动着中国AI芯片的发展;更进一步,受益于中国庞大的数据中心基础设施规模与未来需求,“华为-海光-其他”的生态格局基本形成;

2)时代亟需一个具备技术背景、但又对市场应用娴熟于心、同时又具有平衡取舍之道的产品经理人才梯队;

3)AI产业的繁荣与领先,是AI芯片突破与创新的前提。

产能已经不是问题,下一步是生态

从近期华为主动发出的信号,以及作者作为多年从业者获得的行业信息,华为的产能约束基本上得到了缓解。数据中心的三大基石是计算、通信(网络互连)和存储,这是分析算力系统必须牢记的前提。在AI算力系统中,影响计算性能的,也可以划分为三个部分,设计算力值、计算(算力)核之间高速互联以及存储带宽。

在《软银投资20亿,英特尔成为全球高端制造业最大变数》中,笔者曾经提到算力的大小和工艺制程强相关,而这种高端工艺制程的主要体现就是Fab的高端产能与先进封装。为华为提供类CoWoS封装的企业,今年已经出现产能盈余并向外释放,说明在7nm节点附近,华为的需求已基本得到满足。

再来看高速互联。

WAIC期间,超节点是AI基建的重头戏。其中,华为的CloudMatrix384成为了亮点,它的显著特征是其点对点、全互联、超高带宽的网络,通过 UB 协议连接所有的 NPU 和 CPU。

1.jpg

CloudMatrix384通过Ultra-High-Performance Networking实现了CPU、NPU、内存、网卡(NICs)以及其他资源的完全点对点解耦与池化,其点对点硬件架构,包含用于超节点内扩展的超高带宽统一总线(UB)、用于超节点间通信的 RDMA ,以及用于与数据中心网络集成的虚拟专有云(VPC)。这再次证明,通信技术本就是华为的核心优势。

2.jpg

再来看内存带宽。

华为本来在通信领域有深厚积累,可以说高速互联技术是华为的“老本行”。这次的发布会上,华为发布了950、960、970系列产品,其中最为引人注目的950系列推出了两个版本,从应用上看这标志着PD分离在硬件层面的解偶,但从结果来看,内存带宽也跟了上来。

计算、高速互联与存储带宽这些硬件上都有了大的突破,产能问题得到解决的华为,需要攻克的下一个堡垒就是产品的生态了。2022年,当业内开始注意到CUDA生态之于英伟达的意义时,构建生态似乎成了老生常谈。

生态的本质是生意。

intel建构了X86生态,英伟达建构了CUDA生态,哪怕苹果、小米、腾讯都有各自的生态。其共同点,正是依附于这一生态中的每一家企业、机构、开发者,都可以在其中找到自己的生态位、并在其中商业变现、进而获利。

总不能指望,当一家企业举起了生态大旗,就有许多企业不求回报地进行资源的投入。无利不起早,才是商业世界的常态。

具有生意(潜力)是生态建立的基础。

那么,传统的华为可能就面临着(也在进行着)模式的转变,从封闭到开放,从肥水不流外人田到利益共享。Intel和英伟达作为带头大哥走过的路,华为也要走一遍。这条路上华为并不孤独,因为还有,海光。

地缘政治的风险里,孕育了自主可控的机遇。作为技术国产化成功的典范,海光凭借X86架构的优势,其CPU在信创领域和国产化市场中所向披靡。随着资本的积累日渐丰盈,其技术实力与产品涉足领域也与日俱增。除了CPU之外,AI算力芯片、RAID Controller、高速网络芯片也日渐成熟,在数据中心的重要芯片上,海光在一步步地攻城略地。

2025年5月下旬,海光宣布将会合并曙光。而在更早,这两家兄弟公司已经在生态层面开始协同,重新对旗下各家企业进行定位,通过让渡市场的措施,实现同国内服务器厂商和其他产业链上企业的合作,构建系统层面的生态。

可以说,“华为-海光-其他”的格局基本形成。

基于这个观察,可以进一步推演:

●华为会在不久的将来做出选择,到底是IDM还是Fabless模式。当然,不论做何选择,他应该还是会继续保持对产能的强力控制;

合并后的海光下一步,就是入股高端产能,在当下的中国,也就意味着Fab大概率是SMIC或者华虹。从商业实操方面看,华虹可能性更大。至于OSAT,通富微电本来就和海光有着千丝万缕的关系。

中国芯片产业的产品经理时代到来了

此外,当前时代对专业的 AI 芯片产品经理的需求日益迫切。本次发布的 950 系列的 “P/D 分离” 设计,背后反映的是大模型发展带来的现实挑战。

3.jpg

大模型的参数量是从Billion(十亿)级别起跳,百亿千亿是常态,直至万亿级规模。这些参数需要容量非常大的空间进行存储,且由于计算时需要极高速访问这些存储器,就需要极高的带宽。这就催生出了HBM这种既有大容量又有高带宽的新型存储器。

在进行计算时,算力的大小也决定着计算的效率,因此一颗AI芯片的目标设计算力也会做得尽量大。然而,很少有产品经理在设计中深入思考算力与存储带宽的最佳配比关系。毕竟,除了英伟达和Broadcom为大平台订制的AI芯片之外,能用起来已经是了不起的存在了。

但是,一个现实问题是,HBM的成本实在是太贵了,单GB容量的HBM是DDR的近乎10倍、甚至更高。对于中国的AI芯片公司来说,不仅成本压力大,而且想要获得足够的产能、甚至是稳定的供应都是一个挑战。

一个优秀的产品经理、架构师,之所以称为合格、优秀,就是要会优化、取舍,Trade-Off。做好优化与取舍的前提,是要对应用场景有深刻的理解与洞察。

在AI的应用场景中,对资源需求最高的的,除了模型的训练过程,一个是大家耳熟能详的大语言模型,一个是每一家互联网公司的主要利润来源——推荐算法。

在大模型推理中,常用以下两项指标评估性能:

●TTFT(Time-To-First-Token):首 token 的生成时间,也就是从用户输入完毕到大模型回复的第一个字(母)所花费的时间,主要衡量 Prefill 阶段性能,这是一种计算密集型任务,对并行能力要求高,但是对内存带宽相对可以低一点;

TPOT(Time-Per-Output-Token):生成每个 token 的时间,也就是用户直接感受到的回复速度,主要衡量 Decode 阶段性能,这一阶段对内存容量和内存带宽的要求更高。

5.jpg

当 Prefill 和 Decode 在同一块AI芯片上运行时,由于两阶段的计算特性差异,会导致 TTFT 和 TPOT 之间的资源争抢。若优先处理 Prefill 阶段以降低TTFT,Decode 阶段的性能(TPOT)可能下降。若选择提升 TPOT,则会增加 Prefill 请求的等待时间,导致 TTFT 上升。这次华为的两个型号,采用不同的内存容量和内存带宽,应该是采取了PD分离思路,正是为了打破这一矛盾。可以运行DeepSeek满血版,几乎成为国内衡量一个AI计算系统的试金石。

然而,要放得下671B的参数,仅仅是采取不同版本HBM这一项的成本差异就可达数万美金。而在互联网平台企业中,其推荐算法推理模型所需的内存容量也颇为巨大。如果可以在算力、内存容量和内存带宽间取得优化、取舍与平衡,投入产出比(ROI)就会提高。

时代呼唤专业的AI芯片产品经理。

事实上,在国内的芯片企业中,真正具备产品经理经理能力的人才非常稀缺。在曾经芯片主要还是由外企垄断的时代,一家芯片企业的Product Marketing 或 Product Line Manager是产品线的核心管理岗位,一般是由在总部的极少数人担任,随着中国市场的需求和美国出现了一定程度的不同,才有中国大陆人逐步跻身这一岗位。

而在中文语境下,“市场经理”常被理解为负责市场传播(Marcom)或市场推广(Business Development)的角色。在今天的国内AI芯片企业中,目前仍然是研发岗在定义产品。

从DeepSeek的满血版提出的要求,到FP8数据精度的国产化需求,直至这次P/D分离,隐隐中可以看到模型应用提出需求进而驱动产品定义这一趋势在中国已然发生。那么理所应当地,一个具备技术背景、但又对市场应用娴熟于心、同时又具有平衡取舍之道的产品经理,将成为下一阶段定义和推动算力芯片和系统发展的主导力量。

这个趋势,是AI芯片与AI系统专业化、精细化的开端,是产品运营上了新台阶的标志。

这个趋势,是“需求决定供给”这一经济学规律在AI的中国市场中的再次体现。

AI产业是战略高地,AI芯片与AI产业可互相促进

最后,我们必须明确,不能为了发展 AI 芯片而阻碍 AI 产业的发展。AI 产业的繁荣与领先是 AI 芯片突破与创新的前提。在当前的地缘政治格局下,大国之间的竞争围绕着 AGI 和可控核聚变这两座生产力高峰展开。企业之间也在努力保持竞争力,不被时代淘汰。正如在战争中不能仅靠热血和口号,而要利用一切优势资源确保胜利一样,在 AI 产业竞争中,我们要先确保在竞争中占据有利地位。

只要 AI 产业处于世界领先水平,其所带来的趋势、丰富场景、明确需求以及资本、人才和行业经验的积累,最终都会推动 AI 芯片和算力系统取得突破。作为一个超大规模经济体,中国具备同时发展世界顶级算力设施和扶持国产算力的实力和意愿。在这个产业变革与飞速发展的时代,我们每个人都面临着机遇和挑战,这不仅是理性者的福音,也是魄力者的机遇,更是普通奋斗者可能的逆袭之路。


版权声明: 部分文章信息来源于网络以及网友投稿.本网站只负责对文章进行整理、排版、编辑.是出于传递更多信息之目的.并不意味着赞同其观点或证实其内容
的真实性如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理。

网址:https://www.icpdf.com/news/2295.html