從理解到規畫決策只要1秒，LeWM加速世界模型落地

不只是生成，而是預測接下來會發生什麼

過去幾年，AI的主流發展幾乎都在生成內容，比如ChatGPT生成文字、影像模型生成圖片或影片等，本質上都是在預測下一個字或下一個像素。但現在，有一群研究者在做一件不太一樣的事，也就是讓AI理解世界怎麼運作，而不是讓AI生成內容。

這項研究的核心技術，是Yann LeCun近年一直推崇的JEPA（Joint Embedding Predictive Architecture）。它的運作方式貼近人類思考模式，比如看到一個畫面，不是去記每個細節，而是抓重點，然後預測接下來會發生什麼事。

舉例來說，我們看到一顆球正往前滾，大都會直覺判斷它繼續往前滾，而不是突然消失或飛起來。JEPA想做的，就是讓AI也具備這種能力。

新方法大幅簡化訓練流程，解決模型很難訓練的痛點

不過，這種模型長期以來，一直有個大麻煩：很難訓練成功。因為這類模型常常學不到有用的資訊，研究人員必須加很多「補丁」，像是額外的訓練技巧或特殊設計，才能勉強讓它執行。這個缺陷，也讓JEPA一直停留在研究階段，很難實際應用。

不過，這次團隊發表的LeWorldModel找到一個解方，把原本複雜的訓練流程，簡化到只剩兩個關鍵步驟。第一是讓模型預測「下一步的狀態」；第二是透過一種數學方法SIGReg，來確保模型學到的資訊不會崩塌或失真。

這種設計，讓研究人員不再需要各種複雜技巧，就能穩定訓練模型。

小模型也能做規畫，1秒就完成決策

除了更容易訓練，這個新模型還有一個亮點：速度很快，而且也很省資源。因為，整個模型只有約1,500萬個參數，在單張GPU上就能訓練完成。更重要的是，它不到1秒，就能完成一段規畫（Planning），也就是模擬未來可能發生的情況，並選擇下一步行動。

在實測上，與經典的世界模型DINO-WM，LeWM規畫時間快了48倍，也因此更接近實際應用，比如機器人即時決策。

這個研究也反映出，AI開始從生成內容，走向理解環境並採取行動。尤其，近年在機器人和Agent系統中，「世界模型」與「規畫能力」逐漸成為重要的研究方向，也被視為AI落地應用的關鍵能力之一。

雖然LeWM讓JEPA架構更接近實際應用，但離真正落地仍有段距離。比如，目前仍不確定，模型在更複雜的環境中是否仍能維持穩定表現，以及在更大的應用規模下，是否仍保持一樣的效率。但可以確定的是，這項研究讓原本難以訓練的JEPA，開始變得更簡單、更穩定，也讓AI理解世界並做決策這件事，從理論慢慢走向可行。

從理解到規畫決策只要1秒，LeWM加速世界模型落地

不只是生成，而是預測接下來會發生什麼

新方法大幅簡化訓練流程，解決模型很難訓練的痛點

小模型也能做規畫，1秒就完成決策

Comments (0)