
近日,DeepSeek公司正式發(fā)布并開源其最新技術成果FlashMLA。FlashMLA是專為英偉達Hopper架構(gòu)GPU打造的高效多層注意力(Multi-Layer Attention)解碼內(nèi)核,并特別針對變長序列場景進行了優(yōu)化,可顯著提升大模型推理性能。同時,F(xiàn)lashMLA通過對BF16精度的全面支持,以及采用塊大小為64的頁式鍵值緩存系統(tǒng),實現(xiàn)了更精確的內(nèi)存管理。
在性能表現(xiàn)方面,基于CUDA12.6平臺,F(xiàn)lashMLA在H800SXM5GPU上表現(xiàn)突出:在內(nèi)存受限場景下達到3000GB/s的處理速度,在計算受限場景下則實現(xiàn)580TFLOPS的算力水平。
