小馬智行

發表了動態 ·

小馬智行世界模型進化史：從教AI開車的虛擬駕校，到自我演進的物理AI引擎

01自動駕駛比下圍棋難很多

整整十年前的2016年3月，通過自我對弈進行強化學習的AlphaGo，在一場五番棋比賽中4:1擊敗頂尖職業棋手李世石，成爲第一個不借助讓子而擊敗圍棋職業九段棋手的圍棋AI，立下了人工智能行業的里程碑。AlphaGo成功地讓世界看到了AI的潛力，帶來了AI產業的爆發，很多科技巨頭進行戰略轉向，開始押注人工智能，包括小馬智行在內的很多AI公司也成立於2016年。

當時業界有人樂觀地認爲：通過人工標註的數據，AI可以擁有人類的感知能力，從而即將很快地實現人類的駕駛能力，實現L4級自動駕駛。然而，開車遠比識別照片裏的貓要複雜：

一方面，圖像識別的成功率，99%已經足夠好、足夠商用，但1%的錯誤在L4級自動駕駛場景中意味着闖紅燈、碰撞，意味着違章與事故，是完全不可接受的——尤其是，人開車犯錯不是新聞，但AI開車犯錯一定是新聞，公衆對於AI司機的要求是顯著高於人類司機的。

另一方面，開車是與周圍交通參與者強交互的場景，並不是簡單的遵循一些特定的規則——哪怕感知結果絕對準確，最終的駕駛決策和行爲也不一定能足夠的安全、絲滑。

因此，直到2019年，行業內也並沒有企業能做到真正在公開城市道路實現完全無安全員的、有一定規模車隊的自動駕駛。爲何要強調「有一定規模」？因爲規模才代表着統計學上的安全性足夠高。少數車輛能無安全員上路可以靠賭概率、拼運氣，只有規模化車隊能批量上路且並不會經常出事故，才能證明系統整體上的安全性，才能證明統計上安全性足夠高。

兩條路線的分叉：模仿學習 vs 強化學習

這時，行業內對於如何實現真正的無人駕駛，開始有明顯不同的技術發展路線：

部分企業強調收集更多的人類駕駛數據從而提升模型性能，通過「影子模式」收集海量人類駕駛數據，尤其是人類與AI行爲有差異的數據，很像後來大語言模型的scaling law 「大力出奇跡」，通過更多駕駛數據來覆蓋長尾場景，等待「aha moment」的到來。

而小馬智行選擇了另一條路，因爲小馬智行的技術團隊在那時已經意識到，開得和人不一樣不代表開得不對、而開得「很像人」但仍有細微差異的行爲可能是大錯特錯的，L4級自動駕駛的目標不應該是跟人的決策與行爲做對比，目標應該是單純的「開得好」——具體來說是統計意義上的安全性、舒適性、通行效率足夠高。

並且，由於L4級自動駕駛是無法靠人類兜底和接管的，與L2/L2++輔助駕駛有本質不同，哪怕99.99%的場景已經開得比人好，剩下的0.01%如果開得危險，也是依然是不可接受的。對L4級自動駕駛來說，堵住模型的下限和突破模型的上限一樣重要，這與大語言模型偶爾「幻覺」一下的損害完全不同，與L2級輔助駕駛責任永遠在駕駛員也完全不同。

而一旦模型的學習目標從「像人開得一樣」變成「開得好」，這意味着一種範式的變化——從模仿學習到強化學習。AlphaGo在棋盤上自我對弈實現強化學習，以「獲勝」爲學習目標增強棋藝，而非「下得像人」。

小馬智行從2020年起花數年時間逐步完善了能讓AI通過強化學習增強模型開車能力的這套體系，使AI可以在「虛擬駕校」中反覆開車、訓練車端模型的駕駛能力，這也就是如今我們所說的「PonyWorld世界模型」。

02世界模型是什麼？如何提升精度？

不是逼真的遊戲引擎，而是一整套體系

兩種技術方向在過去的若干年一直是並行發展，但到2024-2025年，Waymo、小馬智行等頭部企業先後在多個城市開展了大規模的無人駕駛Robotaxi車隊商業化運營，行業內也逐步意識到單純地增加人類駕駛數據無法無限提升自動駕駛的模型能力，L2級輔助駕駛不能靠收集人類駕駛數據持續不斷提升安全性變成L4級無人駕駛，越來越多的企業（包括做輔助駕駛的算法公司、車企）開始將技術路線切換到強化學習和世界模型方案。在2026年，必須通過強化學習、世界模型（仿真訓練環境）才能實現滿足L4級要求的自動駕駛，已經成爲中美行業共識，小馬智行無疑走在了前面。

然而，行業內很多企業和公衆將世界模型簡單的理解爲可以生成虛擬數據的仿真環境，彷彿一個足夠逼真的遊戲引擎就能教會AI開車。而小馬智行的世界模型，從來就不是一個單一模塊，而是一套貫穿雲端與車端的完整體系，從2020 年開始構建，逐步實裝，每一層都已經在真實的量產系統裏運轉：

要能定義什麼是「開得好」，也就是強化學習的獎勵函數——這不是一些簡單的規則可以定義的，本身也需要是神經網絡訓練的。

對物理世界的建模足夠精準，包括能精準體現自車車輛的運動學模型和周圍交通參與者的運動學模型。

最重要的是，自動駕駛是強交互的，世界模型不僅需要能生成corner case的數據，還能讓長尾場景乃至所有虛擬場景中的交通參與者與AI司機自車之間有符合人類行爲分佈的交互能力。比如當 AI 開的車突然變道，而隔壁車道有車，隔壁車道的行爲會被 AI 的行爲所影響，有一定概率減速避讓，也有一定概率加速博弈不給 AI 留變道空間。這些行爲的不同概率的分佈都應該能體現在世界模型生成的場景中。

精度決定一切：世界模型好不好，看AI會不會「越學越錯」

只有當世界模型做到了這三點（當然，每一項都很難），才能足以讓AI司機可以在這個環境中得到正向的訓練結果，否則AI模型的駕駛能力可能是在虛幻的場景中「自嗨」、越學越錯，甚至還不如引入海量人類駕駛數據的模仿學習。而這個世界模型「模擬世界」的能力，我們稱其爲「精度」。當初版世界模型上線、其訓練的車端模型也上車之後，隨着世界模型精度的提升，持續訓練的強化學習車端模型也會跟隨者提升性能。提升小馬智行自動駕駛能力的過程，本質上變成了提升世界模型精度的過程。在過去的幾年，我們先後通過幾個方面的努力，來提升精度。

收集「高端對弈局」來提升世界模型精度

如前文所說，世界模型需要能模擬其他交通參與者對AI的反應——這是個很有趣的問題，當AI不再通過模仿學習，而是通過強化學習來提升駕駛能力，其仿真環境依然需要模仿人類（或AI）對於AI司機的交互與博弈。因此，世界模型不僅要能模擬人和人之間的交互，還需要能模擬人和AI之間的交互，尤其是當AI司機的開車行爲並不完全「像人」的時候，這就更加重要。

人會如何對特定能力的AI司機做出反應？這個行爲並不能憑空遐想，只有讓AI司機上路才知道。因此世界模型精度的提升與對齊，最核心的是需要AI司機實際路測——收集的並不是普通的人類駕駛數據，而是AI司機的駕駛數據。當AI的能力尤其是安全性已經超過人類，那只有AI司機的駕駛數據可以用於提升世界模型了，因爲其他交通參與者對AI司機的反應會與對其他人類不同，只通過人類駕駛數據訓練的世界模型，永遠缺失這塊最重要的精度數據。

從小馬智行歷史數據來看，其安全性提升最快的年份，並不是開始無安全員路測之前的那段時間，而是有一定規模的全無人的測試車上路後。因爲那時候的AI司機已經超越人類水平，收集到的數據可以更好的提升世界模型的精度，從而進一步提升車端模型的能力。

世界模型的數據飛輪：高精度模型和高精度數據互爲促進

到了這一步，一個更深層的結構性壁壘就浮現出來了。當 AI 的駕駛能力已經超越了普通人類司機之後，人類的駕駛數據就不再能有效提升世界模型的精度了。這就好比讓一個圍棋九段棋手反覆觀看業餘愛好者的棋譜——他不會因此變得更強。而 AI 目前已經是十段甚至更高的段位，要讓 AI 繼續進步，他需要面對自己從未遇到過的、超出已有經驗範圍的全新棋局。

對於自動駕駛世界模型來說，這個「十段級的新棋局」只有一個來源：L4 級全無人車隊在真實世界商業運營中產生的數據。這些數據的獨特價值在於：它們來自 AI 自身在真實交通環境中的獨立駕駛。AI 會遇到人類司機根本不會遇到的場景——因爲人類司機的反應模式不同，周圍交通參與者與他們的博弈方式也不同。無人車引發的交通交互模式，本身就是獨一無二的。只有在真實世界中大規模運營 L4 無人車隊的公司，才能持續產出這種高價值數據。

這構成了一個自我強化的飛輪：

大規模 L4 無人車隊運營 → 產生真實世界高價值數據 → 世界模型提升精度 → 車端模型持續增強 → 支撐更大規模的 L4 部署 → 產生更多高精度數據 → ……

這個飛輪一旦轉起來，它產出的數據是獨佔的，它的進化方向是自我引導的，它的效率是隨規模遞增的。

沒有大規模 L4 全無人車隊運營能力的公司，這個飛輪根本無從啓動。不是靠砸更多錢買 GPU 能追上的，不是靠招更多標註員能追上的，也不是靠在 L2 數據上訓練更多輪次能追上的。

這是一道結構性的護城河。

Intention：給車端模型裝上「意圖層」

行業裏有一種曾經比較火熱的技術路線，試圖在感知和動作之間塞入一個語言模型——讓 AI 先用文字描述它看到的場景，比如"前方路口有三輪車橫穿，我需要減速"，然後再基於這段文字描述來生成駕駛動作——也就是VLA。

但這違背了駕駛的第一性原理。真正的老司機在緊急避險時，腦海中絕不會先默唸一段臺詞。人類駕駛的核心是即時的空間感知與潛意識的肌肉記憶。而語言，是對複雜 4D 物理時空極度"有損壓縮"的低維產物——用一段主謂賓去描述車輛、行人、車道線之間毫秒級的動態博弈關係，不僅遲鈍，而且信息丟失嚴重。

小馬智行選擇了更直接的路徑：傳感器數據直接映射爲駕駛動作，中間不經過語言層。跳過這個多餘的中間商，不僅大幅節省了算力消耗，更讓系統把省下來的每一分計算資源都花在了真正重要的事情上——理解物理世界、預演未來、做出決策。當前小馬智行第七代Robotaxi，車上全套計算平台僅1016 TOPS，其中主系統由3顆英偉達 DRIVE Orin-X芯片構成，冗餘系統由1顆 DRIVE Orin-X芯片構成。冗餘系統可獨立完成行駛任務，在主系統故障時依然可以正常行駛，擇機在安全的位置靠邊停車。

而沒有這個「中間商」之後，收集物理數據與提升世界模型的物理精度也會變得更爲直接和高效率——很多人認爲車端模型無論是VLA還是其他架構，與訓練模型的架構是否爲世界模型不矛盾，這隻對了一半——當車端模型的效率足夠高，訓練和迭代效率也會顯著提升。

爲了更好的迭代，小馬智行在車端模型的訓練過程中引入了Intention（意圖）語義層。

起初，車端模型的輸入是傳感器數據，輸出是駕駛動作（方向盤角度、油門、剎車）。它可以開得很好，但它的決策過程人類無法直接閱讀。

在後來的版本中，模型在做出每一個駕駛動作的同時，其內部會生成結構化的意圖表達，翻譯成人類可以懂的語言就是「我選擇在路口前減速等待，因爲右前方有一個行人正在走向斑馬線，我預判他大概率會橫穿」。這些意圖信息不是事後用另一個模型"解釋"出來的，也不是在推理過程中額外插入的一個語言模型——那樣就變成了「語言中間商」。它們是在訓練階段就與駕駛動作一起被聯合學習的。Intention 作爲模型內部的一個結構化表徵，讓模型「想」的和「做」的，從訓練之初就是對齊的。

可解釋性帶來的三重價值：

第一，可審計。當一次駕駛行爲需要被回溯分析時——無論是監管審查、事故調查還是內部質量復盤——工程師不再需要面對一個天文數字維度的神經網絡去猜測「它當時在想什麼」。Intention 層提供了一份人類可讀的決策摘要。

第二，可調試。當模型在某個場景中犯了錯，工程團隊可以直接查看它的意圖表達：是感知層面就沒有識別到障礙物？還是識別到了但意圖生成環節對風險的評估出了偏差？還是意圖正確但最終的動作執行出了問題？故障定位的精度從「某處出了問題」提升到「具體哪一層、因爲什麼原因出了問題」。

第三，可迭代。這一點至關重要，它直接關聯到後面將要展開的進化飛輪——當系統能夠清晰地表達自己的意圖時，它也就具備了自我診斷的基礎能力。「我在這類場景下的意圖生成總是不夠準確」——這種自我認知，正是世界模型自我進化的起點。

03 世界模型2.0：自我迭代、場景不受限的物理AI引擎

前面講的是小馬智行的世界模型"爲什麼需要"和"怎麼工作"。那麼接下來是更根本的問題：它爲什麼能越來越強？它的天花板在哪？

當“提升小馬智行自動駕駛能力的過程，本質上變成了提升世界模型精度的過程”，我們通過不斷的收集 L4 級自動駕駛的數據去提升世界模型的精度。但是當 Robotaxi 車隊規模足夠大、世界模型的精度也足夠好，大多數 Robotaxi 的數據對世界模型的精度提升也是很有限的，只會平白增加存儲數據的成本，對訓練世界模型來說也會增加數據篩選的負擔。更重要的是，當AI駕駛能力已經遠超人類的時候，人類給AI的指導，可能是錯的。

自我診斷：AI知道自己哪裏不行

世界模型2.0改變的，正是這個邏輯。

結合前面提到的intention意圖層，當車端模型能夠清晰地表達"我爲什麼做出這個決策"時，一個極其重要的能力就被解鎖了——自我診斷。

系統可以自動地、大規模地回溯車端模型的每一次決策，甚至是訓練車端模型的每一次過程，比對它的意圖表達與實際結果之間的偏差：

在哪些場景，模型的意圖是正確的，但作執行出了偏差——需要繼續在世界模型中訓練

在哪些場景，模型的意圖本身就是錯的——需要繼續在世界模型中訓練

在哪些場景，模型的意圖是因爲真實的交互與強化學習的仿真場景不一致而錯誤——世界模型的精度有問題

這些診斷結果會被直接反饋給世界模型。前面兩個可以用於提高世界模型訓練車端模型的迭代效率——專門做不熟練的題，跳過「送分題」。而抽取第三類診斷結果，就是2.0最核心的能力飛躍：世界模型場景的精度提升不再是廣撒網的，而是定向的。

定向採集：工程師變成AI的數據採集員

世界模型2.0不僅做到了更高效的提升車端模型的性能，還做到了自動化提升世界模型的精度：讓 AI 反過來告訴人類應該去採集什麼。當系統通過自我診斷髮現，世界模型在某一類真實場景下的表現不夠穩定——比如在某個城市的某幾個路口，每到傍晚逆光時段，模型對特定類型障礙物模擬數據生成的置信度就會下降——它會自動生成一條定向數據採集任務，推送給測試運營團隊：

「請在未來一週內，於下午4:30-5:30之間，在以下三個路口，重點採集逆光條件下的行駛數據。優先關注非機動車和行人的混行場景。」

測試工程師拿到這條指令後，讓測試車去執行採集任務。採集回來的真實數據被回傳雲端，世界模型據此校準自己的場景生成模型，並生成一批更真實的數據對車端模型進行鍼對性的微調。人類不再是 AI 的老師，而是 AI 的數據採集員。研發人員、測試工程師、運營團隊——整個組織開始圍繞世界模型2.0的「精度需求」來運轉。它說哪裏弱，人類就去補哪裏的數據。它說哪類場景需要更多真實樣本，人類就開着車去跑那類場景。

「研發人員在給世界模型2.0打工。」——這不是一句玩笑話，而是一種全新的研發範式。

當你問世界模型，還缺失什麼場景的仿真能力

當小馬智行的幾千萬公里的自動駕駛數據，尤其是千萬公里級別的純無人駕駛數據將世界模型不斷打磨，這其中不僅包括Robotaxi在城區、高速、封閉園區和停車場的數據，也包括Robotruck在幹線、港口等不同場景的數據。AI會明確感受到，他的場景數據集侷限在「結構道路駕駛」這個場景。

如果你問它還有哪裏可以提升，需要什麼數據繼續提升物理仿真的精度，它除了回答某個新落地的國家或城市的某種特定新場景的駕駛數據需要收集外，其實它也會回答說「人行道上的數據缺失」、「非機動車道的數據缺失」、「天橋上的數據缺失」，甚至進而希望人類幫助其採集室內場景的數據——作爲一個自動駕駛的世界模型，確實是沒有室內數據的，但是，誰說PonyWorld世界模型就只能做自動駕駛呢？

一個可以自我進化、高效率提升精度的世界模型，其場景的覆蓋能力和精度的提升能力，是可以滿足自動駕駛以外的物理AI的要求——比結構道路駕駛複雜度多N個數量級的能力要求的。

數據再多也會不夠、算力再多也會不夠，未來AI的持續迭代，效率是非常關鍵的因素。無論對於提升已經遠高於人類安全性的自動駕駛能力，還是對於比開車場景複雜度更高的通用物理AI、通用具身智能，世界模型的定向進化是必備的能力。只有能定向進化、自主進化的世界模型，才能撐起更高維度、更高複雜度的物理AI的訓練場景，才能讓AI在駕駛以外的更多任務中實現遠超人類的能力。

當世界模型進入2.0時代，PonyWorld將不侷限於優化自動駕駛場景，也將探索其他物理AI場景和應用的可能。

瀏覽 3.8萬