国产在线高清无码|欧美日韩国sss|久久51.com|超碰在线公开97|曰夲AV一区二区|成人免费AV网站|成人97在线观看

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

用“系統(tǒng)工程”打破算力封鎖 昇騰的另類突圍路徑

每日經(jīng)濟新聞 2025-06-17 13:55:32

日前,華為發(fā)布的昇騰384超節(jié)點已開始發(fā)貨,該超節(jié)點由384顆昇騰AI芯片組成集群,可提供高達300PFLOPs的密集BF16算力,性能接近英偉達GB200NVL72系統(tǒng)的兩倍。華為專家表示,這是通過系統(tǒng)工程思維實現(xiàn)的“突圍”,目前眾多頭部客戶已采購并投入核心大模型訓(xùn)練。昇騰384超節(jié)點還解決了通信傳輸、散熱等難題,并構(gòu)建了基于中國標(biāo)準(zhǔn)的架構(gòu)。

每經(jīng)記者|王晶    每經(jīng)編輯|馬子卿    

“昇騰算力到底能不能給大家底氣和信心,有些人將信將疑,甚至認為昇騰訓(xùn)練不出先進的大模型。”華為專家開場的這句話,揭示出人們對國產(chǎn)AI(人工智能)算力的焦慮:在美國芯片禁令的陰影下,這支國產(chǎn)算力艦隊究竟能否突破算力封鎖、重構(gòu)AI產(chǎn)業(yè)格局?

答案正隨著盤古Pro MoE模型、盤古Ultra MoE模型、昇騰384超節(jié)點等各種實踐的落地而變得清晰。

近日,記者從一位華為專家處獲悉,華為發(fā)布的昇騰384超節(jié)點已經(jīng)開始發(fā)貨,這不僅是目前業(yè)界規(guī)模最大的超節(jié)點,更是一項技術(shù)突破:華為將384顆昇騰AI芯片連接在一起組成了集群,通過全對等高速互聯(lián)的架構(gòu),基于系統(tǒng)工程的方法,對計算、內(nèi)存、通信的極致優(yōu)化調(diào)度,可提供高達300 PFLOPs的密集BF16算力,該性能表現(xiàn)接近英偉達GB200 NVL72系統(tǒng)的兩倍。

這引出一個關(guān)鍵問題:在單芯片工藝暫時落后的情況下,昇騰是如何實現(xiàn)算力超越的?

“集群”絕非簡單的“芯片堆疊”,而是華為在極端壓力下,以系統(tǒng)工程思維進行的一次“突圍”。“華為內(nèi)部有個算力會戰(zhàn),把華為云、模型、底座、芯片、硬件工程、基礎(chǔ)軟件的人集結(jié)在一起,深度協(xié)同。打造復(fù)雜、先進的超節(jié)點系統(tǒng),需要通過這樣的環(huán)境和機制,把華為幾十年積累的‘大雜燴’的能力整合在一起。”華為專家說道。

幾乎在昇騰加速研發(fā)的同時,美國對華芯片出口管制持續(xù)加碼。今年4月,美國芯片制造商英偉達發(fā)布通知稱,美國政府于4月9日告知,公司H20芯片出口到中國需要許可證,此后又于4月14日告知,這些規(guī)定將無限期實施。據(jù)悉,這一新規(guī)將影響英偉達共計約55億美元的季度費用,涉及H20的庫存、采購承諾和相關(guān)儲備。

外部環(huán)境急劇收緊下,以昇騰為代表的國產(chǎn)算力正不斷突破,其戰(zhàn)略意義遠超商業(yè)價值本身。

從被迫替代到主動選擇,黃仁勛稱“性能上超越了英偉達”

人工智能的浪潮席卷全球,巨量的模型訓(xùn)練與實時推理需求對算力提出了前所未有的要求。在此領(lǐng)域,英偉達憑借其CUDA生態(tài)和強大的GPU(圖形處理單元)單卡性能,長期占據(jù)統(tǒng)治地位,其最新的GB200 NVL72系統(tǒng)集成了72塊Blackwell GPU,單柜算力驚人。

國產(chǎn)算力陣營中,昇騰無疑是具有實力的代表之一。

2018年10月,華為全聯(lián)接大會正式發(fā)布首款采用華為自研達芬奇架構(gòu)的AI芯片昇騰910與昇騰310。其中,昇騰310是SoC(系統(tǒng)級芯片)小芯片,和人們的手機芯片差不多,只有指甲蓋那么大;昇騰910是大芯片,和人們的掌心差不多大,主要面向云端高性能計算。

2019年昇騰芯片正式投入商用,華為還推出了昇騰AI計算架構(gòu),包括昇騰處理器、昇騰AI加速模塊和昇騰AI開發(fā)環(huán)境,初步形成AI計算解決方案。截至目前,昇騰計算產(chǎn)業(yè)已發(fā)展為包括昇騰系列芯片、硬件、CANN(異構(gòu)計算架構(gòu))、AI計算框架、開發(fā)工具鏈等全產(chǎn)業(yè)鏈的體系。

不過,受限于先進制程的獲取,單顆昇騰芯片的算力約為英偉達Blackwell GPU的三分之一。“過去客戶用昇騰,并不認為昇騰很先進,有的是因為被美國斷供,被迫用昇騰。”專家坦誠介紹的這個情況,事實上,也是中國算力突圍最真實的起點。

轉(zhuǎn)折正在發(fā)生。昇騰384超節(jié)點的發(fā)布與交付,標(biāo)志著昇騰通過系統(tǒng)級創(chuàng)新實現(xiàn)了算力能效的躍遷,其意義正如英偉達CEO(首席執(zhí)行官)黃仁勛所表達的,“從技術(shù)參數(shù)看,華為的CloudMatrix 384超節(jié)點,性能上超越了英偉達”。

華為專家透露,“目前,眾多頭部客戶已經(jīng)采購了昇騰,部分客戶已將其投入核心大模型訓(xùn)練。并且在華為首次、密集披露圍繞昇騰訓(xùn)練和推理的一系列技術(shù)白皮書后,更多的客戶主動聯(lián)系我們做技術(shù)交流。”為幫助客戶用好昇騰,華為還組建了由中高級專家構(gòu)成的“小靈巧突擊隊”,深入客戶現(xiàn)場,為關(guān)鍵信息基礎(chǔ)設(shè)施行業(yè)的客戶提供支持,確保昇騰算力發(fā)揮最大價值。

硬件、軟件、材料??多重攻堅,打造基于中國標(biāo)準(zhǔn)的“愛馬仕”

然而,要讓384張芯片協(xié)同作戰(zhàn),必須解決一些致命難題,比如通信傳輸、散熱等。

當(dāng)前,大模型發(fā)展呈現(xiàn)參數(shù)與效率交替演進的態(tài)勢。一方面,Scaling Law(規(guī)?;▌t)不斷推動模型能力突破極限;另一方面,以DeepSeek(深度求索)為代表的創(chuàng)新架構(gòu)與工程技術(shù),正加速模型能力在千行萬業(yè)的落地應(yīng)用。

在此背景下,MoE(混合專家模型)成為主流模型結(jié)構(gòu),其復(fù)雜的混合并行策略帶來巨大挑戰(zhàn),TP(張量并行)、SP(序列并行)、EP(專家并行)單次通信量高達GB級且難以掩蓋。隨著并行規(guī)模持續(xù)擴大,傳統(tǒng)服務(wù)器跨機帶寬已成為訓(xùn)練的核心阻礙,亟須計算架構(gòu)的創(chuàng)新升級以適配未來模型發(fā)展。

傳統(tǒng)服務(wù)器依賴以太網(wǎng)絡(luò)實現(xiàn)跨機互聯(lián),通信帶寬較低。實踐表明,當(dāng)TP、SP或EP等分布式策略的混合并行域超過8卡時,跨機通信帶寬便成為性能瓶頸,導(dǎo)致系統(tǒng)性能大幅下降。

對此,華為昇騰超節(jié)點打破了以CPU為中心的馮諾依曼架構(gòu),而是建立了自有標(biāo)準(zhǔn)的“全對等互聯(lián)架構(gòu)”,憑借高速總線互聯(lián)技術(shù),把總線從服務(wù)器內(nèi)部,擴展到整機柜,甚至跨機柜。

“西方是繼承發(fā)展,任總(指華為創(chuàng)始人任正非)形象地比喻為‘百衲衣’,就是衣服破了以后不斷地打補丁,協(xié)議不同,互通需要轉(zhuǎn)換,有效載荷會變小。我們不會完全跟在西方標(biāo)準(zhǔn)的后面修修補補,我們內(nèi)部重新定義了對等架構(gòu)的互聯(lián)總線,統(tǒng)一了所有的通信協(xié)議,提升了有效載荷,并且與外部可以是標(biāo)準(zhǔn)的接口互通,打造了基于中國標(biāo)準(zhǔn)的‘愛馬仕’。”華為專家說道。

此外,為實現(xiàn)超大規(guī)模集群,華為還采用跨機架縱向擴展方案,并為此引入光通信技術(shù)。在昇騰384超節(jié)點中,共使用了3168根光纖和6912個400G光模塊。光模塊具有高帶寬和高速率的優(yōu)勢,損耗低,適合更長距離傳輸。

除了硬件創(chuàng)新外,超高密度芯片集成也帶來了散熱難題。“大量的芯片堆到一起有巨大的熱量,熱散不掉系統(tǒng)就會癱瘓,我們超節(jié)點是用液冷散熱,效率很高。針對一體機和不具備液冷條件的機房,也有高效的風(fēng)冷散熱方案。”華為專家說道。

他還強調(diào):“熱是一門科學(xué),散熱更是一門復(fù)雜的工程能力。散熱首先要把熱導(dǎo)出來,導(dǎo)熱墊緊貼芯片的表面,其導(dǎo)熱效率至關(guān)重要,核心是材料科學(xué),我們設(shè)計了精妙的微結(jié)構(gòu)材料,適合液態(tài)或氣態(tài),以實現(xiàn)更高效的熱傳導(dǎo)。”

技術(shù)突破的背后,是華為在基礎(chǔ)研究上的積淀。據(jù)悉,大概10年前華為就在海外設(shè)立了研究所,專門研究熱理論和熱工程,而像這樣的基礎(chǔ)技術(shù)實驗室,華為在全球有86個,并且還有8個材料實驗室,這種“用數(shù)學(xué)補物理”“非摩爾補摩爾”“用系統(tǒng)補單點”等核心思想在業(yè)務(wù)所依賴的基礎(chǔ)理論、材料、制備工藝、軟件工具鏈等方面構(gòu)建起系統(tǒng)工程創(chuàng)新的能力。

產(chǎn)業(yè)生態(tài)不是簡單的“1+1”

如果說硬件性能的突破是基礎(chǔ),那么繁榮的軟件生態(tài)就是昇騰能否贏得開發(fā)者真心、支撐產(chǎn)業(yè)長期繁榮的關(guān)鍵。

科技公司決定將其系統(tǒng)從英偉達CUDA軟件框架開發(fā)的訓(xùn)練代碼移植到華為CANN(Compute Architecture for Neural Networks)平臺,面臨移植成本高、周期長、調(diào)試復(fù)雜等痛點。事實上,英偉達的CUDA系統(tǒng)像Windows一樣成熟,全球90%的AI框架都基于它開發(fā)。

華為專家也坦言:“生態(tài)方面我們劣于英偉達CUDA。”但他表示,近兩年情況有所好轉(zhuǎn)。“業(yè)界的模型從各種各樣的模型逐漸收斂到Transformer架構(gòu),以前的算子有幾萬個,加上衍生的算子有十萬以上,而現(xiàn)在主流的模型聚焦到Transformer、Diffusion以后,核心的算子大概就幾百個。”

華為快速補齊了高質(zhì)量的基礎(chǔ)算子,并向頭部客戶深度開放,客戶可基于這些基礎(chǔ)算子開發(fā)定制自己的算子和算法,并適配自己的模型和應(yīng)用,大幅加速了模型適配進程。這次圍繞昇騰的技術(shù)披露,既是開放高性能基礎(chǔ)算子,也賦能昇騰客戶如何高效開發(fā)他們需要的高性能算子。

當(dāng)生態(tài)根基日益穩(wěn)固,昇騰要把兼容性作為下一步重要的事情,使其在更廣泛的場景得以應(yīng)用。當(dāng)前,許多企業(yè)采用“混合策略”:在英偉達平臺上進行部分訓(xùn)練,同時將推理負載或增量訓(xùn)練遷移至?xí)N騰平臺。這種路徑既降低遷移風(fēng)險,又為國產(chǎn)替代積累經(jīng)驗。對此,昇騰也提供了Day0遷移和一鍵部署等工具鏈,支撐客戶高效遷移到昇騰平臺上。

用功耗換性能,構(gòu)筑AI時代的核心競爭力

客觀來看,集群也面臨諸如能耗、占比面積大等問題。昇騰384超節(jié)點在超越英偉達NVL72的同時,功耗也達到后者的4.1倍,每FLOP功耗高出2.5倍。

不過,功耗缺陷在國內(nèi)并非限制性因素。資訊機構(gòu)SemiAnalysis指出,過去十年間,西方致力于將主要依賴煤炭的電力基礎(chǔ)設(shè)施轉(zhuǎn)向更環(huán)保的天然氣和可再生能源發(fā)電,并提高人均能源使用效率,而中國則因生活方式提升和持續(xù)大規(guī)模投資,面臨巨大的發(fā)電需求。中國能源體系不僅有煤炭驅(qū)動,并且太陽能、水電、風(fēng)電裝機量均居全球首位,當(dāng)前更在核電部署領(lǐng)域占據(jù)領(lǐng)先地位。因此,電力相對充裕而無需受限于能耗約束。

但同時,華為也關(guān)注到能耗是一個永久的問題。“未來是人工智能的時代,AI是最普遍的計算,將是無處不在的。我們會持續(xù)通過技術(shù)的進步,來改進能源的消耗,構(gòu)筑AI時代的核心競爭力,實現(xiàn)可持續(xù)發(fā)展。”華為專家說道。

可以看到,在算力主權(quán)爭奪的戰(zhàn)場上,華為已經(jīng)開辟了一條不同于西方的創(chuàng)新路徑——不簡單追求單點技術(shù)的路線,而是“以面積換能力、以堆疊增容量、以集群擴規(guī)模,通過超節(jié)點的系統(tǒng)工程創(chuàng)新,實現(xiàn)規(guī)模算力的領(lǐng)先和效能的最優(yōu)。”這也是目前中國算力的現(xiàn)實突圍路徑。

事實上,昇騰384超節(jié)點的出現(xiàn),不僅構(gòu)建了英偉達之外的可靠第二選擇,也打破了國產(chǎn)算力“無法訓(xùn)練大模型”的質(zhì)疑。

封面圖片來源:視覺中國-VCG211478193393

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0