Copyright 2016-2024 柠檬网 版权所有 京ICP备19012579-1号
AI产业发展的都能感受到,掌舵英伟达“算力帝国”的黄仁勋,最近越来越焦虑了,开始频繁地提起“中国”和“华为”。
“中国做得太棒了,全球50%的人工智能研究人员都是中国人,你无法阻止他们,也无法阻止他们推进人工智能的发展。如果有人以为,一招就能切断中国发展人工智能的能力,那他绝对是无知的。”黄仁勋近期在台北电脑展上表示。
5月19日,英伟达CEO黄仁勋在台北电脑展上发表演讲 图自台媒5月19日,英伟达CEO黄仁勋在台北电脑展上发表演讲 图自台媒
今年4月,美国政府再度对英伟达中国“特供版”芯片H20发出禁令。公告一出,黄仁勋立刻把皮衣换成西装,飞往中国,这是他3个月里第二次来华。在与政府官员的会面中,黄仁勋多次强调中国市场的重要性,表示希望继续与中国合作。
最新禁令,导致英伟达计提了55亿美元的库存损失,令黄仁勋“深感痛苦”。
事实上,如果仅仅是数十亿美元的损失,对英伟达并不算“伤筋动骨”。这家市值超过3万亿美元的巨头,在AI风口下赚得盆满钵满,2025财年收入达到了1305亿美元,同比增长114%;净利润达到729亿美元,同比增长145%;毛利率达到惊人的75%。
真正让黄仁勋感到焦虑的,是中国自主技术正在美国禁令逼迫下快速突围。在英伟达的关键护城河中,不仅有GPU这种硬件,还有并行计算平台和编程模型CUDA,以及高速互联技术NVLink。在单点竞争上,中国企业可能很难撼动英伟达地位,但系统竞争并不一定。
近期,华为对外详细介绍了昇腾CLoudMatrix 384超节点技术,该技术使用国产昇腾芯片,在算力规模、训推效率和可靠性等关键维度上,全面超越了英伟达最强的NVL72系统。其中的核心在于,华为跳出了单卡算力的竞争,通过计算、存储、网络和架构的协同创新,弥补了硬件和芯片工艺的局限性,最大化发挥了芯片和系统能力。
中国建立了替代英伟达的方案,才是黄仁勋最担心的。这不仅可能导致该公司在中国遭受永久性损失,更可能动摇其“算力帝国”的统治根基。他喊话美国政府:赢得开发者的平台才能最终获胜,出口管制应该强化美国平台,而不是迫使全球一半的AI人才流向竞争对手。
看到中国再度突破,美国政客其实也很着急,但他们显然忽视了黄仁勋放宽管制的呼声。在严格限制英伟达对华出口的同时,美商务部最近还试图在全球封杀华为昇腾芯片,同时逼迫EDA巨头对华断供。但就像黄仁勋说的,这样只会激活中国企业绝处逢生的能力。
就在今年4月,美国对华断供H20之际,华为云率先在芜湖商用了CLoudMatrix 384超节点,随后又在贵安和乌兰察布等地商用,内部人士将其称为“核弹级创新”,今年上半年还将有数万卡规模上线,目标是“彻底终结行业算力焦虑”。而近日华为再度重磅宣布,已经成功在昇腾平台上实现了准万亿MoE模型的全流程训练,集群训练系统的性能上实现了业界领先,进一步验证了国产AI基础设施的自主创新能力。
图源:观察者网图源:观察者网
“四年前,英伟达在中国的市场份额高达95%,如今只有50%。如果我们不在中国竞争,而是让中国开发出新的平台,建立一个丰富的生态系统,并且它们不是美国的,在世界推广人工智能技术的时候,他们的技术和领导力将会传播到世界各地。”不难看出,黄仁勋的焦虑感正越来越重,但美国政客仍在一意孤行,行业对老黄说辞也逐步失去了新鲜感。
现在更令人感兴趣的是,华为是如何在没有先进工艺的情况下,用超节点反超英伟达的?
华为造出“算力核弹”
电影《横空出世》中有这样一个片段,西北核基地总指挥冯石与海外归国的专家陆光达,在戈壁滩上聊天,冯石讲述了多年以前的经历:“在朝鲜战场上,我们抓了一个美军俘虏,一个小小的下士,竟敢在我面前,大声喊叫着,扔个原子弹让我们尝尝,给我们做外科手术。”
“武器落后,受气啊。可尽管这样,咱们屈服了吗?”冯石激动地说道。
在那个年代,苏联在没有任何征兆的情况下突然中断协议,撤走所有提供技术援助的专家,美国则对华实行技术封锁。电影画面显示,在缺乏计算机支持的情况下,我方专家决定采取人海战术,通过昼夜不停地打算盘,最终在一年多的时间里算出答案,助力原子弹研发。
《横空出世》剧照《横空出世》剧照
60年过去,美国依然试图通过技术封锁的手段,阻碍中国AI产业发展,这确实给中国带来了算力焦虑,毕竟大模型的Scaling Law(尺度定律)依然有效,越多的参数和数据,就能带来越强的性能和智能,这势必会导致对算力、显存和带宽的需求指数级增长。
但即便芯片制造工艺短期无法赶上,中国也并非束手无策。随着模型规模越来越庞大,单卡算力优势相对弱化,集群化、系统化的算力方案是大势所趋,这对中国是挑战更是机遇。
制裁重压下,华为技术团队提出了“用数学补物理”、“非摩尔定律补摩尔定律”、“用系统补单点”等核心思想:基于实际可获得的芯片制造工艺,计算、存储和网络技术协同创新,开创计算架构,打造“超节点+集群”系统算力解决方案,长期持续满足算力需求。
2022年下半年,“身处暴风雨中”的华为启动超节点研发,项目涉及海思、计算和云等多个业务团队。一位项目组专家回忆道,当时64卡的方案也够用,但华为目标是布局未来,并且准备以昇腾AI云服务的方式向行业提供算力,可以把超节点算力分开或合并,做大了没问题,做小了可能就会很被动。经过内部研讨,华为决定坚定投入384超节点研发。
严格意义上说,超节点(SuperPod)并非一个新概念,谷歌、英伟达等巨头很早就在探索。这项技术兴起的背景是,当Transformer这样的大型神经网络模型横空出世,对算力和显存的需求呈爆炸式增长,单个GPU甚至单个服务器已经难以招架,这时就需要构建大量高速计算芯片的高效统一结构,也就是超节点。相比传统的计算集群,超节点不仅要把大量GPU的算力堆起来,更需要在GPU之间、服务器之间构建超高速互联,来降低并行计算的开销,通过将大量GPU融为一体,提供庞大的有效AI算力,共同承担训练和推理任务。
去年3月,英伟达推出了GB200 NVL72超节点。通过“内部高速专线”NVLink,英伟达将36个Grace CPU和72个Blackwell GPU紧密集成,形成一个逻辑上的“巨型GPU”,总算力规模达到了180Pflops,网络互联总带宽达到130TB/s,内存总带宽达到576TB/s。按照英伟达的说法,GB200 NVL72超节点,可以将万亿参数大模型推理速度提高30倍。
在国内也有不少企业在探索超节点技术,像百度昆仑芯构建的超节点,通过自研互联通信协议XPU Link,单柜可容纳32/64张昆仑芯AI加速卡,单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器。此外,阿里、腾讯、中国移动(112.590, 0.95, 0.85%)等巨头,也联合了多家软硬件企业,发起了不同的超节点互联开放标准。
但目前来看,使用全国产芯片构建超节点,还能全面超越英伟达NVL72的,只有华为。昇腾CLoudMatrix 384超节点在高速互联总线联接下,共由12个计算柜和4个总线柜构成,是目前业界最大规模的超节点,算力总规模达300Pflops,是英伟达NVL72的1.7倍;网络互联总带宽达269TB/s,比英伟达NVL72提升107%;内存总带宽达1229TB/s,比英伟达NVL72提升113%。 更重要的是,通过最佳负载均衡组网等方案,昇腾超节点还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,未来可以支撑更大规模的模型演进。
昇腾CLoudMatrix 384超节点结构