明略科技大模型再獲世界級突破！Mano以72B參數獲 OSWorld 榜單Specialized 模型第一

明略科技（2718.HK）自研大模型 Mano 再獲世界級突破！

據 OS-World E2E官方榜單最新數據（截至 2025 年10 月），明略科技自研的 GUI 智能體大模型 Mano 以 54.0% 的任務成功率刷新紀錄，位列 Specialized 模型第一、模型總榜第二，僅次於 Anthropic 最新發布的 Claude 4.5。

Mano以72B參數在OSWorld-Verified 榜單的 Foundation E2E GUI 評測總榜位列第二。

與今年9月首次提交的數據相比，Mano 的參數規模從 7B 擴展至 72B（約 720 億），任務完成率從40.1% 提升到 54.0%，性能實現了顯著提升。這也標誌着專用智能體在真實操作任務中的執行能力達到新高度。

Mano以72B參數在OSWorld-Verified 榜單的 Foundation E2E GUI & Specialized Model 評測中位列第一。

從語言到行動：智能體的下一階段

OSWorld 是目前全球最具權威的「操作智能」評測體系，涵蓋 10 類應用、369 個跨應用任務。它要求模型在真實的桌面和瀏覽器環境中執行連續操作——例如打開電子表格、搜索信息、整理數據、完成填報。這類任務遠比問答生成複雜，因爲每一步都需要模型既理解內容，又理解「界面結構」，並能在多次操作中保持邏輯連貫。

在此前的測試中，即便是頂級的通用大模型，在 OSWorld 上的成功率也常停留在 30%–40% 區間。而 Mano 72B 的最新成績——54.0% 的端到端任務成功率——不僅刷新了中國模型的最高紀錄，也讓「專用智能體」第一次在這個「AI 操作考場」中站上了前列。

這背後的技術路線也與傳統語言模型截然不同。明略科技在最新版技術報告《Mano Technical Report》（報告鏈接：https://arxiv.org/abs/2509.17336）中系統闡述了其方法：模型的訓練並不是基於單純的文本對話，而是在高保真的模擬電腦環境中反覆嘗試與學習。可以理解爲，Mano 被放進了一個巨大的虛擬操作系統，在其中學習如何移動光標、點擊按鈕、識別菜單、輸入數據，並通過反覆試錯掌握任務完成的最佳路徑。

技術原理：讓模型在「真實環境」中學習

Mano 的訓練框架包含三個階段：監督微調（SFT）、離線強化學習（Offline RL）和在線強化學習（Online RL）。簡單來說，SFT 階段相當於「老師教範例」，模型學習基礎操作方法；離線強化學習階段讓模型通過過去的任務經驗學會「舉一反三」；而在線強化學習階段則是在真實環境中持續練習、發現新策略。

明略科技還引入了一個名爲「Think–Act–Verify」的執行閉環：模型在操作時，會先判斷當前界面狀態（Think），再執行具體動作（Act），最後驗證結果是否正確（Verify）。如果執行出錯，模型會自動調整步驟重新嘗試。這讓 Mano 在面對複雜、多變的操作場景時，能夠實現自我修正和容錯。

舉個通俗的例子：當你讓智能體「下載一份財務報表」時，通用大模型可能只會給出一段操作說明，而 Mano 會真的打開瀏覽器、登錄帳戶、識別下載按鈕、選擇正確的日期範圍，並在出現錯誤提示時重新登錄、重試。這種能力的獲得，正是通過強化學習與高保真訓練環境協同實現的。

根據論文數據，Mano 在加入在線強化學習後，模型平均任務完成率提升了約 14 個百分點，尤其在多步驟任務（multi-turn task）中表現穩定。研究團隊指出，這種「在環境中學習」的方式，是實現操作智能的關鍵：模型不再依賴靜態語料，而是通過持續交互獲得反饋，從而具備「學習如何行動」的能力。

專用智能體的競爭力

長期以來，大模型的性能評估主要集中在語言理解、知識問答或內容生成任務上。而 GUI 智能體的出現，讓 AI 的邊界從「文字世界」延伸到了真實的操作系統中。與通用大模型相比，專用智能體的核心優勢在於——它們不追求覆蓋所有知識，而是致力於在特定任務上實現更高的執行深度與穩定性。

Mano 的成績正是這一趨勢的體現。通過結構化的任務數據、針對性的強化學習和驗證機制，模型在界面識別、動作規劃和過程穩定性方面表現出了持續進步。OSWorld 官方評述指出，這一成果「展示了專用智能體在真實任務執行中的潛力，也標誌着多模態智能體研究的工程化進展。」

對明略科技而言，Mano 不僅是一項研究成果，也正逐步成爲企業智能系統的底層技術。公司正在探索如何將 Mano 的操作智能嵌入到數據分析、營銷自動化、合規管理等具體場景，使模型能在實際業務流程中承擔「數字助理」的角色。研究團隊同時提到，未來的方向包括提升推理效率、減少交互步長，並推動端側輕量化部署，讓智能體在普通硬件環境中也能穩定運行。

從 7B 到 72B，從 40.1% 到 54.0%，Mano 的進化歷程不僅是一次參數增長，更是一種能力遷移——從語言理解到操作智能的跨越。明略科技技術團隊在報告中表示，未來 Mano 將繼續優化推理效率與任務泛化能力，並探索端側部署與行業級落地路徑，使智能體能力真正融入企業生產流程。當模型不再只「輸出答案」，而是真正「完成任務」，人工智能才開始具備通往真實世界的執行力。

報告鏈接：https://arxiv.org/abs/2509.17336 榜單鏈接：https://os-world.github.io/

瀏覽 3.7萬