GLM-5V-Turbo發佈：多模態Coding基座模型

Agent時代，模型能力由模型智能以及其處理的context容量兩個維度定義。一個能夠原生處理圖片、視頻、文本等多模態context，同時擅長複雜編程、長程規劃、動作執行的Coding基座模型，將是所有AI原生應用的基石。

今天，我們發佈GLM-5V-Turbo，面向視覺編程打造的多模態Coding基座模型。

GLM-5V-Turbo從預訓練階段深度融合視覺與文本能力，讓編程不再侷限於純文本輸入。模型能看懂設計稿、截圖、網頁界面，並據此生成完整可運行的代碼，真正做到看得懂畫面、寫得出代碼。

核心要點如下：

– 原生多模態Coding基座：原生理解圖片、視頻、設計稿、文檔版面等多模態輸入，並支持畫框、截圖、讀網頁等多模態工具調用，上下文窗口擴展至200k，將Agent的感知-行動鏈路從純文本延伸到視覺交互。

– 兼顧視覺與編程能力：在多模態Coding、Tool Use、GUI Agent等核心基準上取得領先表現。通過多任務協同RL等技術手段，確保純文本場景下的編程、推理、工具調用等能力不退化。

– 深度適配Claude Code與龍蝦場景：與Claude Code、OpenClaw/AutoClaw等Agent深度協同，支持「看懂環境→規劃動作→執行任務」的完整閉環，並提供全套官方Skills，開箱即用。

多模態Coding基座

在多模態Coding、Agentic任務以及純文本Coding維度的評測基準上，GLM-5V-Turbo均以更小尺寸取得了領先表現。

GLM-5V-Turbo在設計稿還原、視覺代碼生成、多模態檢索與問答、視覺探查等基準上均取得領先表現；在衡量真實GUI環境操控能力的AndroidWorld、WebVoyager等基準上同樣表現突出。在純文本Coding能力方面，GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三項核心基準測試中均保持穩定表現，表明視覺能力引入後，純文本編程與推理能力保持了同等水準。

在AutoClaw等龍蝦Agent中接入GLM-5V-Turbo後，龍蝦具備了真正的視覺能力，能看懂屏幕上的信息。模型在衡量龍蝦Agent任務執行質量的PinchBench、ClawEval和ZClawBench上取得優異成績，驗證了其在複雜任務執行場景中的綜合能力。

內測階段，字節跳動、美團、快手等互聯網大廠合作伙伴對GLM-5V-Turbo給予了高度評價：

「GLM-5V-Turbo 實現了從設計稿到代碼的完整還原，作爲一款視覺理解模型，能夠很好地滿足開發者的前端開發場景。」——TRAE模型測評團隊

「原生多模態能力的引入並未削弱其編程邏輯，其編程能力仍屬於國內第一梯隊。增強了 AI at Work 領域下 D2C、圖片處理等方向的工作體驗。」——美團某團隊

「它爲 Agent 安上了「眼睛」，同時在編程領域展現出優於同類多模態模型的能力，在視覺編程場景中更具競爭力。」——快手萬擎模型測評團隊

GLM-5V-Turbo能夠取得性能領先在於其模型架構、訓練方法、數據構造、工具鏈四個層面的系統性升級：

– 原生多模態融合：GLM-5V-Turbo從預訓練階段開始進行文本與視覺能力深度融合，並在後訓練階段實現多模態協同優化。我們研發了新一代CogViT視覺編碼器，在通用物體識別、細粒度理解、幾何與空間感知上均達最優，也設計了兼容多模態輸入且推理友好的MTP結構，在多模態場景下實現了較高的推理效率。

– 30+ 任務協同強化學習：在強化學習階段同時優化30+任務類型，覆蓋STEM、grounding、video、GUI Agent等子領域，模型在感知、推理、Agentic執行和人類體感上均獲穩健提升，協同強化學習有效緩解了單領域訓練的不穩定性。

– Agentic數據與任務構造：針對Agent數據稀缺和驗證困難的行業挑戰，我們構建從元素感知到序列級動作預測的多層級體系，基於合成環境大規模生成可控、可驗證的訓練數據，並從預訓練階段即注入Agentic元能力（如將GUI Agent PRM數據加入預訓練以降低幻覺），同時探索非對稱優化，用多模態評估任務撬動更強的Agent能力。

– 多模態工具鏈擴展：在文本工具基礎上，GLM-5V-Turbo新增支持多模態搜索、畫框、截圖、讀網頁等多模態tools，將編程與任務執行的感知-行動鏈路從純文本擴展到視覺交互。與Claude Code、AutoClaw等龍蝦的協同效果進一步增強，支持「看懂環境→規劃動作→執行任務」的完整閉環。

典型場景展示

1.圖像即代碼

GLM-5V-Turbo尤其擅長核心視覺編程場景。

– 前端復刻：發送草圖、設計稿、參考網站的截圖或錄屏，模型就能直接理解佈局、配色、組件層級與交互邏輯，生成完整可運行的前端工程，準確還原版式、配色、動效等視覺細節。

– GUI自主探索復刻：結合Claude Code等框架，GLM-5V-Turbo能憑藉自身強大的GUI Agent能力自主探索目標網站，瀏覽頁面結構、梳理各頁面之間的跳轉關係、採集視覺素材與交互細節，最後基於記錄的探索結果直接生成代碼復現整個站點，實現從「看圖復刻」到「GUI探索復刻」的能力躍升。

– 交互式編輯：支持按需求增刪頁面模塊、修改文案與樣式、調整佈局結構，並可補充按鈕反饋、彈窗切換、表單聯動等交互功能，實現可視化迭代編輯。

2.爲龍蝦安上眼睛

龍蝦的任務邊界被大幅拓寬，例如可以瀏覽網頁和文檔，生成圖文並茂的報告、PPT，還可以查詢並解讀K線圖等複雜圖表。

AutoClaw已上線「股票分析師」Skill，利用GLM-5V-Turbo的原生視覺能力，龍蝦能直接看懂K線走勢、估值區間圖和券商研報圖表，實現四路數據源60秒並行採集，輸出圖文交錯的研報。立即在AutoClaw中切換至GLM-5V-Turbo，試試提問「幫我分析今天XXX的股價，生成專業分析報告」。

除視覺編程與龍蝦任務外，GLM-5V-Turbo在多模態搜索、深度研究、GUI Agent、感知Grounding等更廣泛的Agentic場景中也實現了顯著的性能提升。爲此，我們提供了一組官方Skills，涵蓋圖像Captioning、視覺Grounding、基於文檔的寫作、簡歷篩選、提示詞生成等原生能力，以及基於GLM-OCR和GLM-Image構建的文字識別、表格識別、手寫體識別、公式識別和文生圖能力，幫助用戶在更多場景中釋放模型的多模態潛力。上述Skills已上線ClawHub，一鍵安裝即可體驗全部能力。

– ClawHub鏈接：https://clawhub.ai/zai-org/glm-master-skill

– GitHub鏈接: https://github.com/zai-org/GLM-skills

立即體驗

歡迎廣大用戶通過以下方式接入GLM-5V-Turbo：

1.產品體驗

– AutoClaw（澳龍）：https://autoglm.zhipuai.cn/autoclaw/

– Z.ai：https://chat.z.ai

2.官方API接入

– BigModel 開放平台：https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo

– Z.ai：https://docs.z.ai/guides/vlm/glm-5v-turbo

– Coding Plan：現面向Coding Plan用戶開放申請；後續GLM Coding Plan也會納入GLM-5V-Turbo，敬請期待。申請問卷：https://zhipu-ai.feishu.cn/share/base/form/shrcndgpmRlJoD5rMmIavUrPwzg

瀏覽 6.8萬