GLM-5.1開源：一個獨立工作8小時的模型

從3分鐘的Vibe Coding（氛圍編程）到30分鐘的Agentic Engineering（智能體工程），再到本次我們帶來的8小時長程任務（Long Horizon Task）模型，GLM-5.1再次取得突破。

GLM-5.1是我們迄今最智能的旗艦模型，也是目前全球最強的開源模型。GLM-5.1大大提高了代碼能力，在完成長程任務方面提升尤爲顯著。和此前分鐘級交互的模型不同，GLM-5.1能夠在一次任務中獨立、持續地工作超過8小時，期間自主規劃、執行、自我進化，最終交付完整的工程級成果。

代碼能力是模型智能水平進一步提升的關鍵。下圖是業內最具代表性的三個代碼評測基準的平均結果，包括衡量模型專業級軟件開發工作的SWE-Bench Pro、像工程師一樣操作命令行解決問題的Terminal-Bench 2.0、從零構建完整代碼倉庫的NL2Repo。三項綜合平均分，GLM-5.1取得全球模型第三、國產模型第一、開源模型第一。

在最接近真實軟件開發的SWE-bench Pro基準測試中，GLM-5.1刷新全球最佳成績，超過GPT-5.4、Claude Opus 4.6。SWE-Bench Pro要求模型在真實GitHub倉庫中定位並修復高難度工程Bug，是衡量模型能否勝任專業軟件開發的最硬指標。

你睡覺的8小時，是模型上班的8小時

過去兩年，行業用Benchmark衡量模型有多智能。我們認爲，下一階段的衡量標準應該是「能工作多久」，即模型在長程任務（Long-Horizon Task）中的表現，能獨立完成多長時間的人類任務。

這對模型提出了更深層次的挑戰。在長程任務中保持穩定輸出，模型面對的不只是更大的代碼量，而是一連串複雜的工程決策點：主動跑benchmark、定位瓶頸、修改方案、再跑測試。模型需要像一個真正的工程師一樣，形成「實驗→分析→優化」的完整閉環，而不是寫完一版代碼就停下來等人打分。

在METR榜單的同等評估標準下，GLM-5.1是唯一達到8小時級持續工作的開源模型，也是全球範圍內除Claude Opus 4.6外少數具備這一能力的模型。我們的終極目標是全自治智能體（Autonomous Agent），模型7×24小時不間斷地分解目標、執行交付、自我評價與糾正、自我進化，從此無需人類介入。

看看模型的8小時工作，都能做些什麼。

場景一：8小時從零構建Linux桌面

白天畫好架構草圖，睡前交給GLM-5.1，早上醒來它已產出完整系統。歷時8小時整，執行1200多步，20分鐘時產生第一個有意義的成果，8小時後產出了一套功能完善的Linux桌面系統，包括：完整的桌面、窗口管理器、狀態欄、應用程序、VPN管理器、中文字體支持、遊戲庫等，4.8MB的配套文件，這相當於一個4人團隊一週的開發工作量。

以下視頻是GLM-5.1在8小時內的代碼提交結果：這些不是四五行的小patch，每一次提交都是具有實質意義的系統級演進，而且全程沒有人蔘與測試、審查代碼。模型甚至給自己的代碼寫了一些回歸測試，而且跑過了。

場景二：655次迭代打破向量數據庫優化瓶頸

向量數據庫是AI搜索和推薦系統背後的核心引擎，而近似最近鄰檢索則是其中非常關鍵、也非常考驗算法與工程能力的一環。這個過程既要求模型掌握IVF、HNSW、向量量化等底層算法知識，也要求它具備真實的工程判斷力，能夠在一條優化路徑碰壁時主動識別瓶頸、切換策略，而不是盲目重複同一個方向。

GLM-5.1不是隻會微調參數，而是一路自己完成了從全庫掃描切到IVF分桶召回、引入半精度壓縮、加入量化粗排、做兩級路由，再到提前剪枝的整套優化鏈條。在655輪迭代裏，它持續自主跑Benchmark、定位瓶頸、調整方案，最終把向量數據庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS，提升到初始正式版本的6.9倍。

場景三：1000輪工具調用優化真實機器學習模型負載

GLM-5.1展現的長時間工作和自進化能力，讓其從單純的「代碼生成器」進化爲「主動的系統優化器」。我們在涵蓋50個真實機器學習計算負載的KernelBench Level 3優化基準上，讓GLM-5.1對每個負載獨立進行持續優化。在超過24小時的不間斷迭代中，GLM-5.1自主完成了多輪編譯—測試—分析—重寫循環，最終取得3.6倍的幾何平均加速比，顯著高於超torch.compile max-autotune模式的1.49倍。

模型展現出的優化深度與創造力尤其值得關注。GLM-5.1能夠自主編寫定製Triton Kernel和CUDA Kernel，運用cuBLASLt epilogue融合並實施shared memory tiling與CUDA Graph優化。這些優化策略覆蓋了從高層算子融合到微架構級調優的完整技術棧，每一步都是模型的自主決策。

這一結果表明，在GPU內核優化這一傳統上高度依賴專家經驗的領域，AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。在GPU以及更廣泛的高性能計算領域，長期制約工程效率的優化瓶頸正在被AI逐步打破。

Behind the 8h

讓模型跑8小時並不難，真正難的是讓第8小時的工作仍然有效。

此前包括GLM-5在內的模型，在面對複雜優化任務時，往往在早期快速取得收益後就進入瓶頸期。它們會反覆嘗試已知的優化手段，但無法在一條路走不通時主動切換策略。

GLM-5.1的訓練目標是突破這個瓶頸。在向量數據庫優化任務中，我們觀察到一個典型的"階梯型"優化軌跡：模型在一個固定策略內進行增量調優，當收益趨於停滯時，主動分析Benchmark日誌、定位當前瓶頸，然後跳轉到結構性不同的方案——從全庫掃描到IVF分桶，從單精度到量化粗排，從單層路由到兩級剪枝。每一次跳躍都伴隨着短暫的Recall下降，因爲模型在探索新方向時會暫時打破約束，隨後再調回來。這個"打破-修復"的循環本身就是有效優化的標誌。

在KernelBench上，我們通過對比多個模型的優化曲線，更直接地看到了這個差異。GLM-5在前期上升較快，但很早就趨於平坦；GLM-5.1在同樣的時間窗口內持續上升得更久，最終達到了GLM-5的1.4倍。關鍵在於模型能把"有效優化"的窗口延伸多遠。

在Linux桌面構建任務中，挑戰又不一樣了。前兩個場景都有明確的數值指標（QPS、加速比）可以用來衡量每一步是否有效，但構建一個完整的桌面系統沒有單一指標，什麼算"好"取決於功能完整度、視覺一致性、交互質量的綜合判斷。這要求模型具備初步的自我評估能力：在每一輪執行後審視自己的產出，判斷哪裏需要改進、繼續優化。這是三個場景中反饋信號最弱的一個，也是當前最需要突破的方向。

我們認爲，延長模型的"有效工作時長"是提升智能體能力的一個基礎維度。在這條路上仍然有顯著的技術挑戰：如何克服模型面對複雜任務的上下文焦慮、如何在數千次工具調用後保持執行的一致性、如何更早地跳出局部最優，以及更重要的是如何在沒有確定數值指標的任務上建立可靠的自我評估機制。GLM-5.1是我們在這個方向上邁出的一步，我們會持續推進。

GLM-5.1不只是一個更強的模型，而是一種新的技術範式的開啓。此刻，嘗試給它一個指令，然後離開8小時。

開源與使用方式

即日起，GLM-5.1在Hugging Face與ModelScope平台同步開源，模型權重遵循MIT License。

GLM-5.1已納入GLM Coding Plan（Max/Pro/Lite），支持Claude Code、OpenCode等主流開發工具。

1. 官方API接入

– BigModel 開放平台：https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1

– Z.ai：https://docs.z.ai/guides/llm/glm-5.1

1. 產品體驗

– GLM-5.1即將登陸Z.ai：https://chat.z.ai

1. 開源鏈接

– GitHub：https://github.com/zai-org/GLM-5

– Hugging Face：https://huggingface.co/zai-org/GLM-5.1

– ModelScope：https://modelscope.cn/models/ZhipuAI/GLM-5.1

瀏覽 6.6萬