小馬智行發佈PonyWorld世界模型2.0：可自主進化的物理AI引擎

4月10日，小馬智行 $小馬智行 (PONY.US)$ 正式發佈其在物理AI領域的最新技術成果——PonyWorld世界模型2.0。

這是自動駕駛核心訓練體系的一次重大升級。與1.0相比，2.0最本質的變化在於世界模型具備了自我診斷與定向進化的能力：AI不再依賴工程師花大量精力判斷模型哪裏有問題、需要採集什麼樣的數據來迭代，而是能夠自主診斷自身短板，自我定向進化，並主動「指導」人類團隊的研發和數據採集工作。這一變化標誌着小馬智行的自動駕駛技術進入全新的研發訓練範式。

目前，世界模型2.0已經應用在小馬智行L4級無人駕駛車隊和研發體系中，來確保車輛不斷提升安全性、舒適性和通行效率，從而帶動更快的擴張速度和商業變現能力。當無人駕駛車隊規模從百輛躍升至千輛乃至萬輛，要確保安全性等各項指標整體上穩步提升，自動駕駛技術亦需要不斷迭代進化，世界模型2.0是目前技術的最優解。PonyWorld不侷限於優化自動駕駛場景，也具有探索其他物理AI場景和應用的可能。

作爲物理AI的第一個成熟商業化落地的應用，L4級自動駕駛和Robotaxi對安全性的要求極高，只有遠超人類的安全性，才能大規模上路運營並被公衆接受。正因如此，小馬智行 $小馬智行-W (02026.HK)$ 認爲自動駕駛模型的訓練目標不應是「像人開得一樣」，而是「比人開得好」，這意味着一種範式的變化——從模仿學習到強化學習。小馬智行從2020年起，通過數年時間逐步打造並完善了一套貫穿雲端與車端的完整體系，讓AI通過強化學習增強模型開車能力，使AI可以在「虛擬駕校」中反覆開車、訓練車端模型的駕駛能力，這也就是「世界模型」。世界模型不是簡單生成虛擬數據的仿真環境，而是一套完整的強化學習訓練系統以及開發範式，幫助AI提升駕駛中最重要的博弈交互能力。

只有世界模型的精度足夠高，AI司機才可以在這個環境中取得正向訓練結果，否則AI模型的駕駛能力可能越學越錯，甚至還不如引入海量人類駕駛數據的模仿學習。通過世界模型，小馬智行提升自動駕駛能力的過程，本質上也是提升世界模型精度的過程。

而隨着AI司機的能力尤其是安全性已經遠超人類，小馬智行世界模型的精度也達到了很高的高度，如何進一步高效率提升世界模型精度的迭代效率便成爲核心目標。小馬智行爲此打造了一套更進化的世界模型系統——由AI驅動，可以主動找到自己精度不足的場景，主動尋求人類幫助去提升——也就是PonyWolrd世界模型2.0。

PonyWorld世界模型2.0三大核心能力突破，精度持續提升

1) 自我診斷能力：AI知道自己「哪裏不行」

PonyWorld 2.0結合小馬智行車端模型的Intention（意圖）語義層，實現了對每一次駕駛決策的自動化回溯與歸因分析。系統能夠自動區分問題根源，並將診斷結果精準反饋至模型訓練流程。

2) 定向進化能力：從「廣撒網」到「精準補短板」

基於自我診斷結果，PonyWorld 2.0能夠自動識別世界模型精度不足的具體場景，並主動生成定向數據採集任務。例如，系統可自動推送指令：「請於特定時段在指定路口重點採集逆光條件下非機動車與行人混行場景數據。」研發與測試團隊由此圍繞世界模型的「精度需求」高效協作，實現AI引導下的定向數據採集與模型迭代。

3) 訓練效率躍升：專練「難題」，跳過「送分題」

PonyWorld 2.0可根據車端模型的薄弱環節，在世界模型中自動生成針對性訓練場景，大幅減少無效訓練數據的存儲與計算開銷，顯著提升每一輪迭代的效率和效果。

小馬智行強調，世界模型精度的持續提升依賴於一個自我強化的精度飛輪：大規模L4無人車隊商業運營 → 產生真實世界高價值數據 → 世界模型提升精度 → 車端模型持續增強 → 支撐更大規模L4部署 → 產生更多高精度數據

當AI駕駛能力已遠超人類司機水平後，普通人類駕駛數據對世界模型精度的提升價值趨近於零。只有L4級全無人車隊在真實交通環境中獨立運營所產生的數據——包含AI與其他交通參與者之間獨特的交互模式——才能持續推動世界模型進化。小馬智行已積累千萬公里級多城市複雜場景的純無人駕駛數據，覆蓋城區、高速、園區、停車場等多元場景，形成了難以複製的結構性優勢。

自動駕駛研發範式變革：從「人類驅動」走向「AI驅動」

從更廣義的視角看，小馬智行此次發佈的世界模型2.0，是自動駕駛研發範式的一次深層轉變。

在行業發展早期階段，AI能力弱於人或者與人接近，所以研發高度依賴人類工程師的經驗——由人來設計規則、標註數據、判斷訓練重點。這種由人類驅動的研發模式，效率天花板受限於團隊規模和工程師的認知帶寬。

PonyWorld世界模型2.0所展現的方向是，當AI在一項任務的水平遠超人類水平後，人類不一定能很好地評估其能力和繼續幫助AI進化，AI系統開始接管自身進化過程中越來越多的環節，甚至整個公司的研發環節（包含數據收集、模型訓練、仿真效果評估等）都主要由AI驅動。人類工程師的角色從「駕校教練」逐漸轉變爲「定向數據採集員」，成爲AI大腦自我進化的物理執行者。這讓研發節奏不再依賴人類經驗判斷，而是由AI系統根據自身進化需求自動生成，也顯著的提高了世界模型的持續迭代效率。爲後續物理AI的更多應用場景提供進化能力的基礎。

瀏覽 2.8萬