
當(dāng)前,大模型推理已成為算力需求的核心增長點。隨著 AI 技術(shù)的快速迭代,算力需求結(jié)構(gòu)正發(fā)生深層次轉(zhuǎn)變 —— 從過去 70% 以上用于集中式訓(xùn)練,轉(zhuǎn)向未來 70% 以上用于分布式推理。與此同時,國產(chǎn)化算力需求持續(xù)提升,全國國產(chǎn)卡占比已超 25%,其中國產(chǎn)卡中昇騰卡占比近 80%。然而,推理加速產(chǎn)業(yè)仍面臨多重挑戰(zhàn):算力服務(wù)商與推理加速企業(yè)因信任壁壘難以深度合作;線下授權(quán)模式無法實現(xiàn)彈性擴縮容與動態(tài)計費;推理加速框架各自為戰(zhàn)、缺乏開源協(xié)同生態(tài);異構(gòu)算力資源調(diào)度與適配效率不足。
為此,由中國信通院牽頭與中國科技云、移動云、硅基流動共同成立“AI推理調(diào)度聯(lián)合體” ,針對上述痛點問題提出創(chuàng)新性解決方案,依托中立第三方身份與長期產(chǎn)業(yè)培育經(jīng)驗,聯(lián)合各方構(gòu)建 “技術(shù)協(xié)同 + 生態(tài)共建 + 商業(yè)共贏” 的合作模式,具體包括:
一是創(chuàng)新動態(tài)授權(quán)與計費機制。聯(lián)合體將基于中國信通院 License Server 搭建推理加速框架動態(tài)授權(quán)平臺,由硅基流動等優(yōu)質(zhì)推理加速企業(yè)提供不同芯片上的最優(yōu)推理加速框架,通過 “動態(tài)授權(quán)碼” 助力算力服務(wù)商按需購買授權(quán),降本增效,用戶可通過實際使用時長按需付費,實現(xiàn)彈性擴縮容、使用最優(yōu)推理加速框架。實現(xiàn)用戶、算力提供商、推理加速提供商三方共贏的新生態(tài)!
二是構(gòu)建開源協(xié)同生態(tài)。聯(lián)合體將以中國信通院算網(wǎng)云系統(tǒng)開放社區(qū)(CNCOS)為基礎(chǔ),推動推理加速技術(shù)開源共享。基于開源推理加速框架 vLLM 及其優(yōu)化方案,聯(lián)合攻關(guān) CPU/GPU 異構(gòu)協(xié)同推理、多模態(tài)推理等關(guān)鍵技術(shù),同時制定統(tǒng)一的接口規(guī)范與適配標準,解決不同框架 “各自閉塞、無法互通” 的問題,讓算力服務(wù)商能為用戶提供 “芯片 - 框架 - 調(diào)度” 一體化的最優(yōu)推理加速服務(wù)。
三是實現(xiàn)異構(gòu)算力高效調(diào)度。依托中國信通院 AICOS 架構(gòu)(AI 云操作系統(tǒng))的資源管理與編排能力,聯(lián)合體將整合移動云、中國科技云等算力服務(wù)商的異構(gòu)資源,通過跨域跨架構(gòu)調(diào)度技術(shù),實現(xiàn)大模型在不同芯片上的快速適配與高效部署,提升整體算力資源利用率。
此次 “AI 推理調(diào)度聯(lián)合體” 的成立,標志著我國算力互聯(lián)網(wǎng)在 “推理加速 + 生態(tài)協(xié)同” 領(lǐng)域邁出關(guān)鍵一步。通過整合技術(shù)、資源與生態(tài)優(yōu)勢,聯(lián)合體將為 AI 產(chǎn)業(yè)發(fā)展注入新動能,為數(shù)字經(jīng)濟高質(zhì)量發(fā)展提供堅實的算力支撐。
