钛媒体APP

發表了文章 ·

十款AI龍蝦橫評，誰是國產第一蝦？

（本文作者爲光錐智能，鈦媒體經授權發佈）

文 | 光錐智能，作者｜魏琳華，編輯｜劉俊宏、王一粟

開年爆火的OpenClaw，讓我們一連吃了三個月的「國產龍蝦大餐」。

從最先端上的雲端版本，到後期號稱「原生龍蝦體驗」的本地小龍蝦，別說用戶分身乏術，就連每天要追產品測評的我們，都追得眼冒金星。

它們帶火的，不僅是一個產品，更是一種想象——「讓AI替我打工」。

當大佬們紛紛曬出跑龍蝦消耗的海量Token，當社交媒體上充斥着「讓AI幫我幹活」的炫酷截圖，無數打工人心裏都燃起了一個樸實無華的念頭：我也想要一個能替我幹活的小龍蝦。最好便宜，最好好用，最好比我同事還靠譜。

但熱鬧是廠商的，作爲用戶，我卻感到了一種空虛：產品剛發佈我就安到電腦上，但報錯報的人頭皮發麻，一天時間可能都體驗不了兩個任務；複雜的活給它好像搞不定，不復雜的我爲什麼不用Manus，要用它？

一衆蝦之中，到底哪款蝦能讓我無痛擁有可以媲美OpenClaw的體驗？

帶着這樣的想法，光錐智能測評了市面上10款小龍蝦產品，從一個沒有AI基礎的用戶視角出發，看看它們到底能不能扛得起測試「拷打」。

由於有的用戶只想嚐鮮用蝦對付簡單工作，有的用戶想當「逮蝦戶」和蝦一起向硅基生命的方向進化，針對不同需求，我們由淺入深地做了套測評：先從最簡單的定時日報、蒐集信息做起，再進階到看看這批蝦能不能玩轉Skill，帶我手把手完成大佬們同款的複雜任務。

先說結論，大多數蝦都能搞定簡單任務。但想幹點難活，大部分蝦都成了「時間殺手」，還不保證成功。

誰能讓用戶做「逮蝦戶」，誰讓用戶當「蝦奴」？我們做了個大橫評。

「吃蝦」的最開始，我的心情非常愉悅，因爲每一款的安裝體驗都非常絲滑。

如果你自己嘗試過部署OpenClaw，且沒有開發經驗，我敢打賭你肯定浪費過一天以上的人生，否則也不會讓千元上門安裝OpenClaw變成一門生意。

國產小龍蝦的貢獻，就是把「小龍蝦」的門檻從專業級降到了消費級：

其中，雲端小龍蝦目前基本都能做到開箱即用，不需要用戶操作，你和雲端蝦對話就像打開個AI模型網址的對話框一樣簡單。本地龍蝦的安裝也不難，和正常的電腦應用下載過程一樣，只要你會從官網下載安裝包，問題不大。

安裝相當於起跑線，從配置開始，就是廠商們「八仙過海，各顯神通」的時刻。

你不想要個冷冰冰的AI助手，想讓它更像個人。好辦，你可以給蝦設定好你想要的性格。

比如飛書、階躍、百度的龍蝦，它們都有當下流行的性格配置（Soul.md），可以讓你定義龍蝦怎麼稱呼你、用提示詞描述你想要的小龍蝦「性格」，讓它交流起來更像真人對話。

我在DuClaw上配置的龍蝦性格

我把這批小龍蝦的人設全都變成了「靠譜但愛吐槽的同事」，於是，階躍蝦會在跑任務時抱怨流程太複雜了，百度會說「放心交給我」。告別了AI的冰冷味兒，這種帶點脾氣的賽博同事，報錯時好像也沒那麼氣人了。

如果只能在電腦前用AI，那它的便利性就要大打折扣。「小龍蝦之父」的初衷就是給自己找個遠程辦公的助手，所以能不能接入手機，也是一個關鍵的功能。

相比還要自己辛苦配置的OpenClaw，國內各大IM平台開始主動給龍蝦「開後門」，現在大多隻需要用戶掃個碼，再等上幾分鐘，平台自己就給你配置好了。

比如，微信做了插件歡迎各大龍蝦掃碼接入，飛書和QQ等產品現在都能做到一步掃碼就完成連接。

龍蝦建好了，蝦能給你手機發消息了，現在我們就可以正式支配小龍蝦乾活。

到了幹活環節，想象與現實的落差就出來了：用戶的悲歡並不相通，蝦與蝦的腦子也並不一樣好用。

先以測試AI日報任務爲例，這是一個定時任務，需要AI不僅能夠按照你的要求從各大信息源上扒到所需信息並整合成日報，還需要它每天按照固定的時間發給你。

測試結果令人意外：按照「第一次就能準時完成」的標準，我們直接篩掉了一半產品。

其中，第一次能做到準時發我的，包括智譜、KimiClaw、MiniMax、QClaw，剩下的幾個報錯理由各異，還要人工陪蝦「改作業」。

雲端vs本地的差異在這裏體現得尤爲明顯。對於沒有條件配備專用設備（如Mac mini）的用戶來說，本地龍蝦如果關機或者斷網，定時任務的執行有可能受到影響。而云端版本可以做到每天穩定推送，不受本地設備狀態限制。

再從內容質量的角度評估，智譜的AutoClaw、阿里JVS Claw和百度Duclaw給的信息更豐富全面，基本確保了是前一天的新鮮內容。也有蝦出了時間和事實性錯誤，比如KimiClaw就出現了把去年新聞當成今年新聞的情況，錯誤明顯。

光會做日報的小龍蝦，只能算得上是路邊一條。打工人也需要把各種工作中的簡單需求丟給AI處理，看看它能不能真的辦成各種雜活。

以需求較高的「文生圖」任務作爲測試標準，我們讓每個蝦都做一份之前爆火的Nano Banana風格的卡通風「一圖介紹xxx」的主題圖。介紹的對象則是自己。

從最終生成質量來看，阿里蝦JVS Claw的表現一騎絕塵，它從Vercel團隊的官方Skill網站找到了個人用戶上傳的技能，一口氣給出了5張產品介紹圖，雖然調用的是小紅書生圖的Skill，但整體風格已經滿足了卡通講解的需求。

除了阿里，階躍星辰也調用了自家水產市場中的skill，這個skill明確用Nano Banana命名，最終產圖雖然是英文版的，但卡通風格實現了，也符合了一張圖講解的要求。

其它幾款產品雖然也通過丟給我文生圖提示詞或者接入API的方式生成了圖片，雖然都做出來了，但和我想要的風格差了十萬八千里。

「不是哥們，生成自我介紹你給我出這麼個圖嗎」

說白了，任務執行的效果，最終還是靠小龍蝦本身接入的模型理解能力如何、Skill庫中的儲備是否夠豐富。雖然都接入Gemini的畫圖模型，但生成圖片的效果，仍然因爲龍蝦本身的理解和調用情況產生了天差地別的效果。

「能用」和「好用」之間，往往隔着十萬八千里。

進階玩法的核心，是Skill生態。

爲什麼網上大佬們的小龍蝦那麼厲害？今天能做賈維斯，明天又能當理財管家？要解鎖想象力，讓龍蝦辦到更多複雜任務，用戶是沒有耐心打上幾百字小作文教AI幹活的。

互聯網上豐富的Skill生態，就是小龍蝦可以按需安裝和拆卸「爪牙」。在開源生態中長起來的Skill，就來自於每個開發者的貢獻——

當Ta有長期大量的同質化任務需求，比如每天都需要跑郵件來確定日程，就可以把這一套寫給AI的提示詞固定下來，下次再調用的時候就可以直接選擇這個Skill執行，輔導孩子未必能有100%回報率，但教蝦可以。

Skill的數量和質量，就代表了蝦的擴展能力。

廠商的預裝是用戶好體驗的開始，我讓小龍蝦們來搜索了一下上述這些產品初始預裝的Skills數量，並做成表格發給我。表現突出的是智譜，完整找到了所有產品，並且給出了多數正確的結果。

智譜AutoClaw給出的表格

錯的離譜的是騰訊的QClaw和MiniMax的MaxClaw，它們連「對標OpenClaw的產品」這個指令都無法理解，找成了字節釦子這類Agent產品，百度連產品也沒篩出來，統計的對象甚至是公司。

其中，三種Skill基本成了裝配的剛需：

Creator，讓用戶能按需創造自己的Skills；

Find Skill免去用戶自己上Skill網站下載安裝，它直接幫你在後台找到你需要的Skill並安裝；Vetter則確保你安裝的Skills安全，它會對每個需要安裝的Skill審查一遍，避免帶着惡意行爲的Skill損害你的電腦。

但有的即使安裝了Skill，卻沒有實現它該有的效果。

比如百度Duclaw也配置了安全相關的審查Skill，但它的做法是先安裝，再提示用戶有風險，被我們指出後才表示「下次會先審查」。這個「下次」來得未免太遲了。

skill生態的質量也很重要

在海外已有一些Skill網站的情況下，國內也有不少產品選擇自建Skill生態，目前包括騰訊、階躍星辰、獵豹的官方Skill商店有做相關的儲備。比如階躍星辰就做了一個5000+Skills的水產市場，裏面涵蓋了官方和用戶自主上傳的Skills，前文階躍調用的Nano Banana相關Skill，就是來自於他們自己搭建的「水產市場」。

例：EasyClaw的Skill商店裏，還標出了傅盛版小龍蝦的同款技能

Skill固然重要，那麼小龍蝦能根據我的需求找到對的那個Skill嗎？

我們讓這些小龍蝦都來找一個技能——前段時間很火的「龍蝦辦公室」可視化項目，你可以通過這個辦公室界面，看到小龍蝦是在辦公、思考還是坐在沙發前摸魚。QClaw由於自帶這個功能，跳過本次測試。

雖然我下班沒力氣運動，但龍蝦還能舉鐵圖源QClaw

我讓它們幫我搜集這種能搭建「小龍蝦辦公室」的Skill，多數都能找到對的項目，但在運行效果上，大家表現不一：

阿里的JVS Claw加載失敗了一次後就運行成功，EasyClaw一次就安裝成功了，算是反應速度比較快的；智譜審題失敗後安裝成了儀表盤，沒聯動也沒有辦公室界面。甚至有蝦要給我自己寫個代碼，用沈騰的話說，就怕人「又笨又勤快」。

可以看到，單靠描述完成「找和安裝」，對於絕大部分龍蝦來說已經不是難題。但很多壞就壞在後面一連串的執行上。

我們又找了個稍微複雜一點的任務，讓蝦幫我接上自己的郵箱，整理好未讀郵件的內容，相當於以後我都不需要看郵件，只需要AI告訴我，我就知道自己大概都收到了什麼。

配置郵件這個需求看似簡單，細究起來全是麻煩事：讓AI幫我以接郵箱API的方式進行，所以AI還涉及到教我怎麼開通相關配置，引導我開通郵箱API，接入的過程中，涉及到刷新令牌（Refresh Token）過期的情況，蝦們還要幫我想想如何解決時間問題。

這是StepClaw盤了一遍自己到底都做了哪些工作的總結

看起來只需要接個API的事情，這十幾個龍蝦做起來，總共花了我3個多小時的時間。我明明想讓AI幫我省事，但花在教它們的時間上，長得讓人懷疑人生。

先執行完成的是階躍星辰的StepClaw，雖然中間它無數次委婉提示我可以直接手動導入郵箱數據來讓它分析（像極了我推活的同事），但在我堅持要求「不要讓人類動一下手」後，它自己繞過了獲取Token的坎，乾脆自己寫了個可以在網頁端運行的腳本來自行讀取Token給它。在它一遍遍催促我「要快」的情況下，終於連接成功了。

持續吐槽後，我連接成功的第一個案例

後面，Kimi Claw也寫了個自動獲取Token的腳本給我，但最終腳本點擊不開，失敗；智譜AutoClaw執着讓我用命令行，但大多沒有響應；MiniMax給的鏈接越來越抽象，它給我寫好的腳本我也沒辦法運行，失敗；EasyClaw糾結環境問題，兩遍失敗後才開始想辦法，最終也沒等到靠譜辦法。

選擇「走捷徑」的是QClaw和百度的DuClaw、阿里的JVS Claw，這得益於它們找到的Skill用了更簡單的方法，就是push我在Google上設置個專給應用使用的密碼，就能無需獲取我真正登錄的密碼信息直接看消息，不過阿里和百度都一次成功了，百度還記得我之前的要求，直接幫我把郵件總結的結果發過來了，贊！

QClaw已讀不回

但QClaw似乎被系統設置堵住了，然後就是頻發的「遇到困難睡大覺」，六次裏有4次都響應失敗，更別提怎麼處理問題了。

可以說，即使能執行成功，沒有編程基礎的小白，能做的只是跟着蝦的結果一遍遍操作，賭它會不會成功，然後在一次次試錯中，要麼成功，要麼喪失耐心。

爲什麼蝦之間表現差異這麼大？相對複雜的任務，考驗的是配置模型的能力和Harness的設計。

前者決定了模型能不能用它的Agent相關能力幫你搭些好用的工具，在遇到上述環境問題幫你解決問題。後者是最近風很大的Harness，這個詞本身直譯是馬的挽具，用在Agent身上也一樣——Harness就相當於Agent套的那層殼，所有工程化的配置加在一起，就是Harness。

模型能力決定了AI能否在遇到問題時自主找到解決方案。測試中我們發現，「便宜沒好貨」在AI領域同樣適用。

比如用下來好用的智譜，一次統計表格的任務就花掉了我300積分（智譜增送的免費額度是500），相比來說，QClaw雖然沒那麼好用，但可能也和內置的模型便宜大碗有關係，畢竟能豪橫地送我一天4000w Tokens的消耗量。

QClaw大氣！

由於大部分類OpenClaw產品基本不支持外界接入其他模型，這一點在大模型創企上和雲廠商的產品上比較明顯。但類似EasyClaw、QClaw這類本地產品還是支持的，在模型不同的情況下，很難對比Harness的區別。

但從穩定性和自我修復的能力上評斷，其中一些產品出現了明顯的問題。比如EasyClaw、StepClaw都在我使用的時候出現過報錯，前者沒有「網關重啓」的設置給我啓動，後者雖然主推能拿階躍自己的Agent助手「修理」StepClaw，但我多次嘗試的效果並不好。

順帶一提，上面那倆我百思不得其解，最終還是靠阿里的JVS Claw一步步指導我怎麼針對Windows系統寫特定的網關重啓命令行，才修好的。

阿里蝦和我一點一點碰出來的命令行

到這裏，你也明白了，靠養蝦能解鎖的上限其實很高，就看你想怎麼用：

各大Skill網站相當於裝滿了武功秘籍的商店：做爆款小紅書文案、讓蝦每天早上「自我學習進化」等玩法琳琅滿目。你要想學習更多場景下腦洞大開的玩法，剩下的就是交給AI來替你去做。

但能做到什麼程度，穩定不穩定、能不能「舉一反三」，那就看各家產品靠模型和Harness各顯神通了。

如同被指責套殼的Manus在一年內少有敵手、沒被大廠成功抄作業，這類OpenClaw的平替產品，要想真正進化到好用的程度，還需要大家多下功夫。接下來就是怎麼快速迭代到產品上，讓用戶們不再對着頻繁死機、報錯的小龍蝦抱怨了。

在我的電腦每隔一會兒就會彈出莫名其妙的命令行界面、安裝數十種蝦導致C盤爆紅（因爲有的蝦不支持我改工作區到D盤）等一系列副作用後，測評結果也基本落幕了。

從穩定性、可用性的維度評判，雲端比較推薦的是阿里雲的JVS Claw，在面對一系列問題的時候，它基本沒有報錯，在日報任務、郵箱配置等任務上的表現也令人滿意。

對比同類雲端部署產品，它在產品社交上也比較完善。比如，百度和字節的蝦都需要靠雲盤文件上傳的方式來傳圖片，字節的ArkClaw甚至需要手動配置網盤，或者接管雲電腦來上傳。但阿里的版本就能直接上傳，和KimiClaw、MaxClaw這類有Agent產品基礎的設計也比較接近。而且雲電腦的設置意味着它能在雲端操作一些模擬本地的任務方式，但Kimi們又沒有云電腦模式。

本地端產品來說，表現比較突出的是階躍星辰和智譜兩家的產品：

其中智譜AutoClaw的穩定性更勝一籌，同樣是基本沒怎麼報錯的產品，它在搜索信息彙總表格的任務上都做到了第一檔體驗；階躍星辰雖然穩定性上表現不佳，又給人一種「推事蝦」的感覺，但日報、郵件連接任務表現也很出色，它能自己做個網頁工具處理任務，這體驗和蝦幫你自動找工具、接API的體驗接近。

排在中等的是KimiClaw、MaxClaw、QClaw、DuClaw，前兩個穩定性沒問題，只是在任務表現上處於中等水平；後兩個不時會出現報錯無反饋的情況，但沒有出現無法修復的問題，可能和服務器有關，任務表現也是在中等水平。

印象最差的是WorkBuddy和ArkClaw，這兩個非常明顯的情況就是無法持續使用，比如WorkBuddy大規模報錯的情況應該就出現了兩次，雖然第一次是大規模流量湧入導致的問題，但後續也出現了長達兩天的無響應情況，後續恢復之後回覆速度快了、也能達到及格水平；ArkClaw則基本上問2-3句才能回覆一次。當正常使用都變成了奢望，就更別提測試具體任務表現了。

無論哪種形態，穩定性和任務成功率才是決定用戶體驗的核心指標。再花哨的功能，不如穩定運行一次。

當然，「誰是國內OpenClaw平替」的爭奪才剛剛掀開帷幕。

比起搶跑、先發的佔領式更新，後續的更新和維護，決定了這些蝦能不能持續出現在用戶的電腦、手機上，而不是在短暫嚐鮮後被卸載。

對比雲端和本地產品也能看出，雲端顯然更適合當下用戶對電腦安全的要求，畢竟本地端如果隨便修改了電腦配置和文件，損失未必能通過它再還原；但從功能拓展上，靠着本地端權限開放的優勢，小龍蝦能做到的任務範圍更廣，表現也更驚豔。

第一波測評的尾聲中，我們又看到了釦子版小龍蝦的發佈，以及QClaw V2版本的大更新等等。在用戶吐槽難用、昂貴的當下，小龍蝦的迭代還在加速進化。

爆款蝦或許就在路上。

瀏覽 6.3萬