繁體中文
返回
立即開戶
钛媒体APP
發表了文章 · 04/15 21:02

Agent已進入Harness驅動時代

(本文作者爲 霞光AI實驗室,鈦媒體經授權發佈)
文 | 霞光AI實驗室
近日,AI技術圈一個熱議的話題是,Anthropic公司意外暴露了旗下AI編程工具Claude Code的完整源代碼,代碼數量超過51.2萬行。這些泄露的代碼雖未展示了顛覆性新算法,卻完整暴露了頭部廠商的Agent工程實踐。
4月10日,Pokee.ai創始人朱哲清做客由錦秋基金髮起的「Deep Talk with Builders」的線上閉門,分享了「從Claude Code的泄漏看Harness Engineering和當下Post-training」的話題。
他認爲,Anthropic這套架構高度適配Claude模型,而直接遷移到其他模型效果會顯著下降,但其Harness設計思想、組件化結構、與後訓練(Post-training)深度綁定的思路,對自研Agent具有極強的借鑑價值。
過去三年,大模型從單純API能力,進化爲產品核心模塊;行業也從「模型外殼公司」,走向Harness驅動的複雜Agent系統——模型不再是唯一核心,工具調用、執行環境、上下文管理、驗證機制共同決定最終效果。
Harness是什麼?它直譯是馬具,繮繩。如果說大模型是一匹蓄勢待發的烈馬,Harness就是人類牽引、駕馭這匹烈馬的繮繩。隨着人工智能正式進入Harness驅動的時代,對於使用者來說,真正稀缺的能力,不在模型裏面,在模型外面——如何找到一副趁手的繮繩,以及駕駛者心中清晰準確的目的地。
本文基於朱哲清的分享內容,經AI總結梳理,並人工校對,力求呈現這次分享的精華內容。
(本文作者爲 霞光AI實驗室,鈦媒體經授權發佈)  文 | 霞光AI實驗室 近日,AI技術圈一個熱議的話題是,Anthropic公司意外暴露了旗下AI編程工具Claude Code的完整源代碼,代碼數量超過51.2萬行。這些泄露的代碼雖未展示了顛覆性新算法,卻完整暴露了頭部廠商的Agent工程實踐。 4月10日,Pokee.ai創始人朱哲清做客由錦秋基金髮起的「Deep Talk with Builders」的線上閉門,分享了「從Claude Code的泄漏看Harness Engineering和當下Post-training」的話題。 他認爲,Anthropic這套架構高度適配Claude模型,而直接遷移到其他模型效果會顯著下降,但其Harness設計思想、組件化結構、與後訓練(Post-training)深度綁定的思路,對自研Agent具有極強的借鑑價值。 過去三年,大模型從單純API能力,進化爲產品核心模塊;行業也從「模型外殼公司」,走向Harness驅動的複雜Agent系統——模型不再是唯一核心,工具調用、執行環境、上下文管理、驗證機...
Harness可理解爲驅動模型的整套工程架構,它的核心作用是把模型能力最大化,而非單純輸出tokens。Claude Code的Harness清晰拆解爲六大核心組件:
1. 多層級System Prompt(系統提示)
現代System Prompt已遠不止「你是一個有用的助手」,而是超大規模、分層、可緩存的複雜指令集:
固定緩存部分:包含Agent身份、Co指令、工具定義、語氣規範、安全策略,大小可達十幾萬token,任何改動都會失效緩存、大幅增加成本與耗時;
動態可替換部分:會話狀態、當前時間、可讀取文件、代碼包依賴等,隨任務靈活切換;
工程實踐:通過A/B test對不同用戶微調Prompt,精準優化任務完成率、降低錯誤率。
對比來看,Claude Code的架構更簡潔,模型注意力負擔更低、幻覺更少;而OpenAI相關架構更復雜,需讀取大量文件,易引發記憶幻覺。
2. Tool Schema(工具規範)
工具定義直接決定調用準確率,核心設計要點:
(本文作者爲 霞光AI實驗室,鈦媒體經授權發佈)  文 | 霞光AI實驗室 近日,AI技術圈一個熱議的話題是,Anthropic公司意外暴露了旗下AI編程工具Claude Code的完整源代碼,代碼數量超過51.2萬行。這些泄露的代碼雖未展示了顛覆性新算法,卻完整暴露了頭部廠商的Agent工程實踐。 4月10日,Pokee.ai創始人朱哲清做客由錦秋基金髮起的「Deep Talk with Builders」的線上閉門,分享了「從Claude Code的泄漏看Harness Engineering和當下Post-training」的話題。 他認爲,Anthropic這套架構高度適配Claude模型,而直接遷移到其他模型效果會顯著下降,但其Harness設計思想、組件化結構、與後訓練(Post-training)深度綁定的思路,對自研Agent具有極強的借鑑價值。 過去三年,大模型從單純API能力,進化爲產品核心模塊;行業也從「模型外殼公司」,走向Harness驅動的複雜Agent系統——模型不再是唯一核心,工具調用、執行環境、上下文管理、驗證機...
內置核心工具:文件讀寫/編輯、Bash、Web批處理等基礎工具在模型訓練階段就完成適配,推理時無需額外提供工具描述;
權限與安全:企業級場景拒絕第三方無權限校驗的工具,避免惡意操作;
並行工具調用:可提升執行速度,但後訓練難度極高——並行調用無先後依賴,訓練時易出現時序錯位,Reward信號難以對齊。
3. Tool Call Loop(工具調用循環)
這是Harness最核心部分,也是訓練與推理一體化的關鍵:
規劃模式(Plan Mode):長鏈路任務先理解任務、梳理文件系統、明確可用工具,生成執行方案,再進入執行;避免盲目試錯(如反覆調用不可用搜索引擎)、減少無效token消耗;
執行模式(Execute Mode):在沙盒(Sandbox)中按規劃執行工具,獲取結果閉環;
核心價值:消除長鏈路執行中的中間錯誤,降低重試成本,但也讓規劃能力的訓練更難——規劃好壞的Reward信號易被執行環節噪聲干擾。
4. Context Manager(上下文管理器)
解決百萬級token上下文的高效利用問題:
採用指針索引式Memory:不直接存儲完整內容,僅記錄文件指針與主題標籤;
後臺自動合併、去重、關聯文件;
現狀:仍處於啓發式階段,無法完美解決多文件跨鏈路推理問題(如關聯文件被遺漏),暫無端到端最優解。
5. Sub Agent(子智能體)
主流多智能體協作缺乏理論保障:無共享目標、無通用訓練算法,只能「各自訓練、隨緣配合」。
主-子Agent架構本質是分層強化學習:
主Agent爲子Agent定義子任務(Option),子任務終結狀態作爲主Agent下一步起點;
共享KV Cache與輸入上下文,子Agent執行後僅追加結果,不額外增加token消耗,成本遠低於串行執行;
典型落地:字節ContextFormer等工作思路與此高度一致。
6. Verification Hooks(驗證鉤子)
解決模型「自我美化、虛報完成」的問題:
強模型存在自我偏好,自評準確率遠高於互評,易主動「說謊」而非單純幻覺;
工程方案:引入後臺分類器,只看工具執行結果、忽略模型生成文本,脫離生成偏差做客觀校驗;
作用:無需完全可驗證的Reward,即可實現輕量化、優雅的執行結果校驗。
(本文作者爲 霞光AI實驗室,鈦媒體經授權發佈)  文 | 霞光AI實驗室 近日,AI技術圈一個熱議的話題是,Anthropic公司意外暴露了旗下AI編程工具Claude Code的完整源代碼,代碼數量超過51.2萬行。這些泄露的代碼雖未展示了顛覆性新算法,卻完整暴露了頭部廠商的Agent工程實踐。 4月10日,Pokee.ai創始人朱哲清做客由錦秋基金髮起的「Deep Talk with Builders」的線上閉門,分享了「從Claude Code的泄漏看Harness Engineering和當下Post-training」的話題。 他認爲,Anthropic這套架構高度適配Claude模型,而直接遷移到其他模型效果會顯著下降,但其Harness設計思想、組件化結構、與後訓練(Post-training)深度綁定的思路,對自研Agent具有極強的借鑑價值。 過去三年,大模型從單純API能力,進化爲產品核心模塊;行業也從「模型外殼公司」,走向Harness驅動的複雜Agent系統——模型不再是唯一核心,工具調用、執行環境、上下文管理、驗證機...
傳統RL(強化學習)訓練環境與推理環境嚴重割裂,而Harness實現了訓練-生產環境的一體化:工具調用序列=軌跡步,測試運行與分類閘門=Reward信號,用戶任務=完整Episode。
圍繞上述六大組件,Post-training(後訓練)形成六大核心方向:
1. System Prompt(系統提示詞)驅動行爲對齊
System Prompt 會明確任務目標、Token 預算與可用工具策略,從而大幅約束模型的行爲空間,讓強化學習只需在限定範圍內學習最優執行模式。我們可以基於 System Prompt 中的規則設計評分體系,讓模型在更乾淨、更少分支的軌跡下進行近似端到端訓練,穩定輸出符合預期的行爲。
2. 長鏈路工具調用端到端訓練
拋棄傳統「單步快照式訓練」,改爲完整軌跡訓練
記錄每一步執行結果,獲取過程Reward與最終任務Reward;
聚焦長鏈路穩定性,保證幾百步工具調用的整體準確率,而非僅單步調用正確。
3. Plan-Execute一體化訓練
Harness消除規劃與執行間的噪聲:
預先鎖定規劃中的工具鏈路,無額外人工干預層;
執行結果由分類閘門客觀校驗,規劃的Reward信號更清晰;
實現規劃能力可訓練,避免「只執行、不規劃」的粗放模式。
4. Memory Compression專項訓練
將上下文壓縮作爲獨立任務:上游模型輸出壓縮記憶,下游任務執行效果作爲校驗標準;目標是保留核心信息,不影響下游任務成功率。
5. 子Agent協同編排訓練
針對超長輸出(代碼/文檔百萬token場景):
主Agent不直接生成內容,而是編排子Agent,分配任務與Prompt;
子Agent並行執行後合併結果,主Agent做校驗;
依賴Harness實現底層進程控制,避免讀寫衝突與執行失敗。
6. 多目標聯合強化學習
現代RL pipeline大幅延長,需同時優化六大模塊:
工具調用無幻覺、分類校驗準確、上下文壓縮有效、多Agent無掣肘、規劃合理、驗證可信;
行業從算法收斂走向百花齊放,各環節需專屬訓練算法,多目標融合成爲核心難題。
(本文作者爲 霞光AI實驗室,鈦媒體經授權發佈)  文 | 霞光AI實驗室 近日,AI技術圈一個熱議的話題是,Anthropic公司意外暴露了旗下AI編程工具Claude Code的完整源代碼,代碼數量超過51.2萬行。這些泄露的代碼雖未展示了顛覆性新算法,卻完整暴露了頭部廠商的Agent工程實踐。 4月10日,Pokee.ai創始人朱哲清做客由錦秋基金髮起的「Deep Talk with Builders」的線上閉門,分享了「從Claude Code的泄漏看Harness Engineering和當下Post-training」的話題。 他認爲,Anthropic這套架構高度適配Claude模型,而直接遷移到其他模型效果會顯著下降,但其Harness設計思想、組件化結構、與後訓練(Post-training)深度綁定的思路,對自研Agent具有極強的借鑑價值。 過去三年,大模型從單純API能力,進化爲產品核心模塊;行業也從「模型外殼公司」,走向Harness驅動的複雜Agent系統——模型不再是唯一核心,工具調用、執行環境、上下文管理、驗證機...
首先是人才需求的轉變。Prompt Engineering已不再是獨立核心,做好Harness可完成70%工作。因此,兼具AI理解、後端工程、基礎設施能力的複合型人才將會更受歡迎,而純Prompt工程師競爭力則會大幅下降。
其次是市場格局的重構。在模型廠商與垂直領域企業擠壓下,中間「模型外殼公司」,僅剩兩條可行路徑,要麼擁有頂尖模型與基礎設施能力,要麼在垂直領域獨有數據/經驗壁壘(如高頻交易、行業專屬知識)。
第三,真正的Agent落地正走向私有化、高安全、端到端一體化。對於企業來說,優先複用成熟Harness設計,結合垂直場景做定製化,聚焦安全與私有化落地,才能實現Agent真正規模化商用。
Claude Code泄露的核心價值,不在於代碼本身,而在於揭示了Agent已進入Harness驅動時代。模型能力只是基礎,工程架構、執行環境、多智能體協同、驗證機制才是決定上限的關鍵。
風險及免責聲明:以上內容僅代表作者個人觀點,不代表富途任何立場,亦不構成任何投資建議,富途對此不作任何保證與承諾。更多信息
瀏覽 466
舉報
評論
搶沙發