GLM-5×昇騰：全球開源第一的大模型，跑在中國自己的算力上

2月12日，智譜新一代旗艦基座模型 GLM-5 發佈，從寫代碼、寫前端的 Vibe Coding，進化到寫工程、完成大任務的 Agentic Engineering。

GLM-5 採用 744B 參數（激活 40B）混合專家（MoE）架構，在編程與智能體能力方面取得開源 SOTA 表現：

– 在全球權威的 Artificial Analysis 榜單中，GLM-5 位居全球第四、開源第一；

– 在 SWE-bench-Verified、BrowseComp 等編程和智能體核心評測中取得開源最高分；

– 真實編程體驗逼近 Claude Opus 4.5。

GLM-5 在昇騰上首次實現 W4A8 混合精度量化，可 Atlas 800T A3 單機部署，實測開箱性能對標 H100 雙機，在長序列、低時延場景下部署成本減少 50%。

核心工作如下：

– W4A8 量化：對模型權重文件採用 W4A8 量化，能夠極大地減少顯存佔用，並提升 Decode 階段的執行速度；

– 高性能融合算子：Lightning Indexer、Sparse Flash Attention 和 MLAPO 等高性能融合算子，可以有效加速模型端到端的推理執行；

– 推理引擎：使用 vLLM-Ascend 和 SGLang 推理引擎，進一步提升了模型推理性能。

推理部署：

https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

訓練部署：

https://modelers.cn/models/MindSpeed/GLM-5

W4A8 量化

1. MsModelSlim 量化工具的易擴展性，全程輕鬆量化

a）按模塊區分量化比特與算法：例如 Attention 與 MLP 主體用 W8A8，MoE 專家用 W4A8；gate 等量化敏感層可按需回退，避免過大精度損失。

b）子圖級開關：通過 enable_subgraph_type 控制對 OV、norm-linear、up-down 的融合與平滑，便於推理框架使用融合算子提升性能。

c）一鍵即可量化：支持 GLM-5 量化過程「預處理 + 子圖融合 + 分層線性量化」的完整流水線，安裝後，只需輸入以下命令行即可輕鬆完成量化：

msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

2. MsModelSlim 提供豐富量化策略，快速精度對齊

a）旋轉 Quarot 算法：對權重做 Hadamard 旋轉與 LayerNorm 融合，降低激活異常值、改善後續量化的數值分佈。

b）多種離群值抑制算法：採用 Flex_AWQ_SSZ 算法和 Flex_Smooth_Quant 算法混合策略，權重採用 SSZ（Smooth Scale Zero）標定，支持縮放因子等超參，在低比特下兼顧精度與穩定性。

c）線性層量化策略：對單層 Linear 做 W8A8 或 W4A8，激活值量化常用 per-token 粒度、minimax 算法；權重量化 per-channel 粒度，msModelSlim 工具提供量化策略配置化，可按模塊自由配置不同量化粒度、算法等。

高性能融合算子

1.Lightning Indexer融合Kernel

長序列場景下 TopK 操作會成爲瓶頸，我們引入了 Lightning Indexer 融合算子，包含 Score Batchmatmul、ReLU、ReduceSum、TopK 等操作，使計算耗時流水掩蓋掉其他操作的耗時，拿到計算流水收益。

2.Sparse Flash Attention 融合 Kernel

我們引入 Sparse Flash Attention，包含從完整 KVCache 中選取 TopK 相關 Token 和計算稀疏 Flash Attention 操作。實現在離散聚合訪存時，計算耗時掩蓋其他操作的耗時，獲取流水並行加速收益。

3.MLAPO 融合 Kernel

GLM-5 在 Sparse Flash Attention 預處理階段將 query 和 KV 進行降維操作，並且把 query 降維後的激活值傳遞給 Indexer 模塊進行稀疏選擇處理。MLAPO 通過 VV 融合（多個 Vector 算子融合）技術，將前處理過程中的 13 個小算子直接融合成一個超級大算子。除此之外，在 MLAPO 算子內部，通過 Vector 和 Cube 計算單元的並行處理及流水優化，進一步提升算子整體性能。

vLLM 推理引擎

1.Prefix Cache

在 vLLM 框架中，利用 Cache 結構優化、空閒雙端隊列等技術，將 KV Cache 的存儲空間從有限的 HBM 顯存擴展到更大的系統內存（如 DDR）或共享存儲，顯著減少了計算資源浪費和端到端延遲，特別是在 GLM-5 的長序列場景下有更大的性能優化。

2.異步調度

在推理的 Decoding 階段，兩次 Decode 步驟之間往往會由於 CPU 和 NPU 之間的同步操作帶來很大的調度空泡，例如在當前 Decode 步驟的結尾，會將 sample 操作的數據從 NPU 拷貝到 CPU（即 D2H 操作）並最終返回，下一步 Decode 是需要等到 Sample 完成之後才開始執行，從而導致中間存在調度因素帶來的空泡。vLLM Ascend 框架需要儘可能掩蓋 CPU 和 NPU 之間的同步操作，並且通過異步調度將當前 Decode 步驟的模型執行過程和下一步 Decode 的準備過程放在一起並行執行，利用下一步 Decode 的準備過程（prepare_input、update_states 等操作）的提前執行來掩蓋當前 Decode 步驟模型執行過程中的 D2H 操作，從而最小化 Decode 步驟之間的調度空泡。

3.局部TP並行切分

選用 Attention DP + MoE EP 部署。由於 O_proj 和 LM_Head 權重內存較大，且在 Decode 階段表現爲明顯的訪存瓶頸，本實踐選用局部 TP 並行。同時爲了降低設備內存佔用，Embedding 層同樣使用 TP 切分。爲了儘可能地減小 TP 並行帶來的通信開銷，TP 域控制在高速互聯 HCCS 域內。

4.FlashComm

通過將 AllReduce 通信過程按原理拆分爲 ReduceScatter 和 AllGather，並與後續計算模塊進行深度算子融合與協同優化，降低通信數據量和中間算子的計算量，從而顯著降低通信延遲並提升大模型的推理性能。

SGLang 推理引擎

1.多流並行架構

Sparse Attention Indexer 部分採用多流並行策略，主流負責 Key 向量的計算與管理，包括 Key 投影、RoPE 位置編碼、KV 緩存的讀寫操作，以及最終的稀疏索引器調用。備用流專注於 Query 向量的異步計算，並行執行 Query 投影和 RoPE 位置編碼，通過事件機制與主流同步，有效隱藏了 Query 路徑的計算延遲。權重流獨立計算索引器的權重投影，並行計算進一步提升硬件利用效率。

2.MTP

MultiToken Prediction 克服了傳統模型每一步都依賴前一步的輸出問題；單次推理生成多個 token 將生成序列所需時間大幅度減少。在長序列推理中還通過提高計算密度優化了 NPU 並行效率，提高算力利用率。

3.Two-Batch-overlap(TBO)

TBO 將請求拆分爲規模更小的 batchs，交替執行注意力計算與分發/合併操作，從而在不產生峰值內存激增的情況下提高整體吞吐量。此外，在 NPU 阻斷通信前，向 NPU 提交計算任務，確保了 NPU 計算單元在通信過程中保持活躍。

4.RadixCache

Prefix Sharing 實現了 KV 緩存的高效重用，RadixCache 使用樹結構來存儲和匹配請求間的前綴，允許共享輸入序列的多個請求重用之前計算的 KV 緩存條目。這減少了冗餘的計算並提升了 NPU 內存的使用。在長序列請求場景下性能提升更爲明顯。

面對 GLM-5 上線後瞬間湧入的數以百萬計的真實流量衝擊，接住這波算力擠兌並完成緊急擴容的，正是這些國產芯片集群。未來，智譜與華爲將持續深化合作，圍繞模型訓練、推理優化及產業落地等方向展開聯合攻關，共同推動國產大模型與國產算力的協同演進，爲中國 AI 產業構建自主可控的全棧技術生態。

瀏覽 5.8萬