
為落實(shí)國(guó)家五部委《關(guān)于深入實(shí)施“東數(shù)西算”工程 加快構(gòu)建全國(guó)一體化算力網(wǎng)的實(shí)施意見》,中國(guó)移動(dòng)在國(guó)家數(shù)據(jù)局指導(dǎo)下,全面參與全國(guó)一體化算力網(wǎng)監(jiān)測(cè)調(diào)度先行先試工作?;谒懔W(wǎng)絡(luò)科學(xué)裝置CFITI(CFN Innovative Test Infrastructure)的算力原生跨架構(gòu)遷移和算網(wǎng)大腦能力實(shí)現(xiàn)全國(guó)一體化算力網(wǎng)監(jiān)測(cè)調(diào)度平臺(tái)的跨主體、跨區(qū)域、跨架構(gòu)算力并網(wǎng)和異構(gòu)算力池化,推動(dòng)構(gòu)建全國(guó)算力“一張網(wǎng)”、“一盤棋”。同時(shí),積極參與構(gòu)建全國(guó)一體化算力網(wǎng)標(biāo)準(zhǔn)體系,主導(dǎo)編寫《全國(guó)一體化算力網(wǎng) 智能算力池化技術(shù)要求》和《全國(guó)一體化算力網(wǎng) 算力資源管理與調(diào)度技術(shù)要求》技術(shù)文件,助力實(shí)現(xiàn)異構(gòu)算力資源的全局統(tǒng)籌與智能調(diào)度。本文重點(diǎn)解讀如何從算力并網(wǎng)和算力池化兩大核心方向全面助力全國(guó)一體化算力網(wǎng)高效建設(shè)。
為什么一體化算力網(wǎng)需要進(jìn)行算力“并網(wǎng)”和“池化”?
全國(guó)一體化算力網(wǎng)作為數(shù)字經(jīng)濟(jì)核心基礎(chǔ)設(shè)施,旨在通過整合多元異構(gòu)算力實(shí)現(xiàn)資源高效調(diào)度、設(shè)施綠色低碳、算力靈活供給、服務(wù)智能隨需,主要面臨以下問題和挑戰(zhàn):
一是“自建水井”太多,資源閑置嚴(yán)重: 算力資源建設(shè)分散孤立,“小作坊”遍地開花,缺乏統(tǒng)一調(diào)度。一邊是算力饑渴的AI大模型嗷嗷待哺,另一邊卻是大量算力設(shè)備閑置“曬太陽”,整體利用率亟待提升。
二是“度量衡”不統(tǒng)一,難以互通: 不同廠商的芯片(CPU、GPU、AI加速卡等),如同說著不同方言、使用不同貨幣。缺乏統(tǒng)一“度量衡”,導(dǎo)致異構(gòu)算力資源難以抽象建模形成統(tǒng)一的共享資源池,無法高效整合和統(tǒng)一調(diào)用。
三是“技術(shù)小圈子”林立,各自為政: 不同硬件廠商構(gòu)筑技術(shù)“護(hù)城河”,軟硬件深度捆綁。應(yīng)用想跨平臺(tái)?難如登天!結(jié)果就是“小圈子”生態(tài)多而不強(qiáng),用戶被鎖定,創(chuàng)新被束縛。
四是“遷移成本”高昂,國(guó)產(chǎn)化遇冷: 應(yīng)用想換個(gè)“國(guó)產(chǎn)芯”?移植難度大、成本高,開發(fā)者望而卻步,“小圈子”生態(tài)難以突破壯大。
打通算力孤島,實(shí)現(xiàn)智算資源池化
為解決上述算力利用率低、異構(gòu)算力統(tǒng)一度量、調(diào)度難,跨架構(gòu)遷移難的問題,全國(guó)一體化算力網(wǎng)重點(diǎn)從算力并網(wǎng)和智能算力池化兩方面破局:
一方面通過算力并網(wǎng)打破算力孤島,廣泛接入樞紐節(jié)點(diǎn)和社會(huì)算力,通過網(wǎng)絡(luò)連接實(shí)現(xiàn)異屬異構(gòu)異地的算力資源高效匯聚。通過制定開放統(tǒng)一API接口將分散在各地的算力中心(無論國(guó)家樞紐節(jié)點(diǎn)還是社會(huì)企業(yè)自建算力)通過高速網(wǎng)絡(luò)連接起來, 實(shí)現(xiàn)異屬(不同所有者)、異構(gòu)(不同芯片架構(gòu))、異地(不同地理位置) 算力資源的可達(dá)和可用,推動(dòng)算力資源便捷接入全國(guó)一體化算力網(wǎng),破解算力孤島困局,為廣泛調(diào)度奠定基礎(chǔ)。
另一方面通過算力池化對(duì)匯入的五花八門算力資源進(jìn)行“抽象”和“虛擬化”管理,形成統(tǒng)一、透明的“算力池”。通過先進(jìn)的虛擬化、資源調(diào)度和抽象建模技術(shù),一是屏蔽異構(gòu)差異, 如同一個(gè)“萬能翻譯官”和“統(tǒng)一度量衡”,將不同芯片的性能、能力轉(zhuǎn)化為標(biāo)準(zhǔn)化的“算力單元”;二是資源池化管理,將物理上分散的算力,在邏輯上聚合成一個(gè)巨大的、可靈活切分的資源池;三是解耦硬件與應(yīng)用,讓應(yīng)用開發(fā)者無需關(guān)注底層芯片異構(gòu)性,大幅降低開發(fā)復(fù)雜度和運(yùn)維成本,支撐全國(guó)一體算力網(wǎng)實(shí)現(xiàn)資源按需分配,動(dòng)態(tài)調(diào)度和應(yīng)用自由遷移,讓算力服務(wù)像水電一樣便捷取用。
中國(guó)移動(dòng)以算力并網(wǎng)筑基,以算力原生“芯合”平臺(tái)賦能全國(guó)一體化算力網(wǎng)
在算力并網(wǎng)方面,中國(guó)移動(dòng)基于算力網(wǎng)絡(luò)試驗(yàn)網(wǎng)CFITI共性開放創(chuàng)新環(huán)境,創(chuàng)新提出并驗(yàn)證三種算力并網(wǎng)技術(shù)模式,聯(lián)動(dòng)產(chǎn)、學(xué)、研、政推進(jìn)超算并網(wǎng)、跨域并網(wǎng)調(diào)度等前沿技術(shù)驗(yàn)證,依托協(xié)同創(chuàng)新基地,聯(lián)合新華三、曙光、浪潮、華為、亞信等合作伙伴創(chuàng)建算網(wǎng)協(xié)同服務(wù)子實(shí)驗(yàn)室,形成1+N合作生態(tài),實(shí)現(xiàn)中國(guó)移動(dòng)百川并網(wǎng)平臺(tái)商用落地,當(dāng)前中國(guó)移動(dòng)已并網(wǎng)匯聚21家智算中心、3家國(guó)家級(jí)超算中心、3家量子計(jì)算中心算力資源。
在智能算力池化方面,中國(guó)移動(dòng)已布局異構(gòu)超融合技術(shù)體系-算力原生,攻克統(tǒng)一算力抽象、統(tǒng)一編程模型、跨架構(gòu)遷移編譯優(yōu)化、自適應(yīng)運(yùn)行、XPU算力資源統(tǒng)一調(diào)度及納管等關(guān)鍵技術(shù),形成算力抽象、統(tǒng)一編程范式等系列標(biāo)準(zhǔn),研發(fā)業(yè)內(nèi)首個(gè)“芯合”異構(gòu)超融合基礎(chǔ)軟件棧,當(dāng)前已實(shí)現(xiàn)多樣異構(gòu)算力資源的統(tǒng)一適配及納管和泛AI應(yīng)用跨7家芯片廠商的一鍵式遷移部署,為支撐實(shí)現(xiàn)全國(guó)一體化算力網(wǎng)提供了有力支撐。
未來中國(guó)移動(dòng)將加速推動(dòng)算力并網(wǎng)和算力池化多路徑示范驗(yàn)證和產(chǎn)業(yè)化規(guī)模應(yīng)用,同時(shí)加大標(biāo)準(zhǔn)及開源投入,促進(jìn)形成產(chǎn)業(yè)共識(shí),全方位支撐全國(guó)一體化算力網(wǎng)建設(shè)和“東數(shù)西算”工程深入實(shí)施。
