繁體中文
返回
立即開戶
智譜官方帳號
發表了文章 · 04/02 08:31

GLM-5V-Turbo發佈:多模態Coding基座模型

Agent時代,模型能力由模型智能以及其處理的context容量兩個維度定義。一個能夠原生處理圖片、視頻、文本等多模態context,同時擅長複雜編程、長程規劃、動作執行的Coding基座模型,將是所有AI原生應用的基石。
今天,我們發佈GLM-5V-Turbo,面向視覺編程打造的多模態Coding基座模型。
GLM-5V-Turbo從預訓練階段深度融合視覺與文本能力,讓編程不再侷限於純文本輸入。模型能看懂設計稿、截圖、網頁界面,並據此生成完整可運行的代碼,真正做到看得懂畫面、寫得出代碼。
核心要點如下:
原生多模態Coding基座:原生理解圖片、視頻、設計稿、文檔版面等多模態輸入,並支持畫框、截圖、讀網頁等多模態工具調用,上下文窗口擴展至200k,將Agent的感知-行動鏈路從純文本延伸到視覺交互。
兼顧視覺與編程能力:在多模態Coding、Tool Use、GUI Agent等核心基準上取得領先表現。通過多任務協同RL等技術手段,確保純文本場景下的編程、推理、工具調用等能力不退化。
深度適配Claude Code與龍蝦場景:與Claude Code、OpenClaw/AutoClaw等Agent深度協同,支持「看懂環境→規劃動作→執行任務」的完整閉環,並提供全套官方Skills,開箱即用。
多模態Coding基座
在多模態Coding、Agentic任務以及純文本Coding維度的評測基準上,GLM-5V-Turbo均以更小尺寸取得了領先表現。
Agent時代,模型能力由模型智能以及其處理的context容量兩個維度定義。一個能夠原生處理圖片、視頻、文本等多模態context,同時擅長複雜編程、長程規劃、動作執行的Coding基座模型,將是所有AI原生應用的基石。 今天,我們發佈GLM-5V-Turbo,面向視覺編程打造的多模態Coding基座模型。 GLM-5V-Turbo從預訓練階段深度融合視覺與文本能力,讓編程不再侷限於純文本輸入。模型能看懂設計稿、截圖、網頁界面,並據此生成完整可運行的代碼,真正做到看得懂畫面、寫得出代碼。 核心要點如下: – 原生多模態Coding基座:原生理解圖片、視頻、設計稿、文檔版面等多模態輸入,並支持畫框、截圖、讀網頁等多模態工具調用,上下文窗口擴展至200k,將Agent的感知-行動鏈路從純文本延伸到視覺交互。 – 兼顧視覺與編程能力:在多模態Coding、Tool Use、GUI Agent等核心基準上取得領先表現。通過多任務協同RL等技術手段,確保純文本場景下的編程、推理、工具調用等能力不退化。 – 深度適配Claude Code與...
GLM-5V-Turbo在設計稿還原、視覺代碼生成、多模態檢索與問答、視覺探查等基準上均取得領先表現;在衡量真實GUI環境操控能力的AndroidWorld、WebVoyager等基準上同樣表現突出。在純文本Coding能力方面,GLM-5V-Turbo在CC-Bench-V2的Backend、Frontend和Repo Exploration三項核心基準測試中均保持穩定表現,表明視覺能力引入後,純文本編程與推理能力保持了同等水準
Agent時代,模型能力由模型智能以及其處理的context容量兩個維度定義。一個能夠原生處理圖片、視頻、文本等多模態context,同時擅長複雜編程、長程規劃、動作執行的Coding基座模型,將是所有AI原生應用的基石。 今天,我們發佈GLM-5V-Turbo,面向視覺編程打造的多模態Coding基座模型。 GLM-5V-Turbo從預訓練階段深度融合視覺與文本能力,讓編程不再侷限於純文本輸入。模型能看懂設計稿、截圖、網頁界面,並據此生成完整可運行的代碼,真正做到看得懂畫面、寫得出代碼。 核心要點如下: – 原生多模態Coding基座:原生理解圖片、視頻、設計稿、文檔版面等多模態輸入,並支持畫框、截圖、讀網頁等多模態工具調用,上下文窗口擴展至200k,將Agent的感知-行動鏈路從純文本延伸到視覺交互。 – 兼顧視覺與編程能力:在多模態Coding、Tool Use、GUI Agent等核心基準上取得領先表現。通過多任務協同RL等技術手段,確保純文本場景下的編程、推理、工具調用等能力不退化。 – 深度適配Claude Code與...
在AutoClaw等龍蝦Agent中接入GLM-5V-Turbo後,龍蝦具備了真正的視覺能力,能看懂屏幕上的信息。模型在衡量龍蝦Agent任務執行質量的PinchBench、ClawEval和ZClawBench上取得優異成績,驗證了其在複雜任務執行場景中的綜合能力。
內測階段,字節跳動、美團、快手等互聯網大廠合作伙伴對GLM-5V-Turbo給予了高度評價
「GLM-5V-Turbo 實現了從設計稿到代碼的完整還原 ,作爲一款視覺理解模型,能夠很好地滿足開發者的前端開發場景。」——TRAE模型測評團隊
「原生多模態能力的引入並未削弱其編程邏輯 , 其編程能力仍屬於國內第一梯隊。增強了 AI at Work 領域下 D2C、圖片處理等方向的工作體驗。」——美團某團隊
「它爲 Agent 安上了「眼睛」,同時在編程領域展現出優於同類多模態模型的能力,在視覺編程場景中更具競爭力。」——快手萬擎模型測評團隊
GLM-5V-Turbo能夠取得性能領先在於其模型架構、訓練方法、數據構造、工具鏈四個層面的系統性升級
原生多模態融合:GLM-5V-Turbo從預訓練階段開始進行文本與視覺能力深度融合,並在後訓練階段實現多模態協同優化。我們研發了新一代CogViT視覺編碼器,在通用物體識別、細粒度理解、幾何與空間感知上均達最優,也設計了兼容多模態輸入且推理友好的MTP結構,在多模態場景下實現了較高的推理效率。
30+ 任務協同強化學習:在強化學習階段同時優化30+任務類型,覆蓋STEM、grounding、video、GUI Agent等子領域,模型在感知、推理、Agentic執行和人類體感上均獲穩健提升,協同強化學習有效緩解了單領域訓練的不穩定性。
Agentic數據與任務構造:針對Agent數據稀缺和驗證困難的行業挑戰,我們構建從元素感知到序列級動作預測的多層級體系,基於合成環境大規模生成可控、可驗證的訓練數據,並從預訓練階段即注入Agentic元能力(如將GUI Agent PRM數據加入預訓練以降低幻覺),同時探索非對稱優化,用多模態評估任務撬動更強的Agent能力。
多模態工具鏈擴展:在文本工具基礎上,GLM-5V-Turbo新增支持多模態搜索、畫框、截圖、讀網頁等多模態tools,將編程與任務執行的感知-行動鏈路從純文本擴展到視覺交互。與Claude Code、AutoClaw等龍蝦的協同效果進一步增強,支持「看懂環境→規劃動作→執行任務」的完整閉環。
典型場景展示
1.圖像即代碼
GLM-5V-Turbo尤其擅長核心視覺編程場景。
前端復刻:發送草圖、設計稿、參考網站的截圖或錄屏,模型就能直接理解佈局、配色、組件層級與交互邏輯,生成完整可運行的前端工程,準確還原版式、配色、動效等視覺細節。
GUI自主探索復刻:結合Claude Code等框架,GLM-5V-Turbo能憑藉自身強大的GUI Agent能力自主探索目標網站,瀏覽頁面結構、梳理各頁面之間的跳轉關係、採集視覺素材與交互細節,最後基於記錄的探索結果直接生成代碼復現整個站點,實現從「看圖復刻」到「GUI探索復刻」的能力躍升。
交互式編輯:支持按需求增刪頁面模塊、修改文案與樣式、調整佈局結構,並可補充按鈕反饋、彈窗切換、表單聯動等交互功能,實現可視化迭代編輯。
2.爲龍蝦安上眼睛
龍蝦的任務邊界被大幅拓寬,例如可以瀏覽網頁和文檔,生成圖文並茂的報告、PPT,還可以查詢並解讀K線圖等複雜圖表。
AutoClaw已上線「股票分析師」Skill,利用GLM-5V-Turbo的原生視覺能力,龍蝦能直接看懂K線走勢、估值區間圖和券商研報圖表,實現四路數據源60秒並行採集,輸出圖文交錯的研報。立即在AutoClaw中切換至GLM-5V-Turbo,試試提問「幫我分析今天XXX的股價,生成專業分析報告」。
除視覺編程與龍蝦任務外,GLM-5V-Turbo在多模態搜索、深度研究、GUI Agent、感知Grounding等更廣泛的Agentic場景中也實現了顯著的性能提升。爲此,我們提供了一組官方Skills,涵蓋圖像Captioning、視覺Grounding、基於文檔的寫作、簡歷篩選、提示詞生成等原生能力,以及基於GLM-OCR和GLM-Image構建的文字識別、表格識別、手寫體識別、公式識別和文生圖能力,幫助用戶在更多場景中釋放模型的多模態潛力。上述Skills已上線ClawHub,一鍵安裝即可體驗全部能力。
立即體驗
歡迎廣大用戶通過以下方式接入GLM-5V-Turbo:
1.產品體驗
AutoClaw(澳龍)https://autoglm.zhipuai.cn/autoclaw/
2.官方API接入
Coding Plan:現面向Coding Plan用戶開放申請;後續GLM Coding Plan也會納入GLM-5V-Turbo,敬請期待。申請問卷:https://zhipu-ai.feishu.cn/share/base/form/shrcndgpmRlJoD5rMmIavUrPwzg
風險及免責聲明:以上內容僅代表作者個人觀點,不代表富途任何立場,亦不構成任何投資建議,富途對此不作任何保證與承諾。更多信息
強
3
瀏覽 6.8萬
舉報
評論
搶沙發
3
4