Skip to main content

從理解到規畫決策只要1秒,LeWM加速世界模型落地

Posted in 業界新聞
新聞

不只是生成,而是預測接下來會發生什麼

過去幾年,AI的主流發展幾乎都在生成內容,比如ChatGPT生成文字、影像模型生成圖片或影片等,本質上都是在預測下一個字或下一個像素。但現在,有一群研究者在做一件不太一樣的事,也就是讓AI理解世界怎麼運作,而不是讓AI生成內容。

這項研究的核心技術,是Yann LeCun近年一直推崇的JEPA(Joint Embedding Predictive Architecture)。它的運作方式貼近人類思考模式,比如看到一個畫面,不是去記每個細節,而是抓重點,然後預測接下來會發生什麼事。

舉例來說,我們看到一顆球正往前滾,大都會直覺判斷它繼續往前滾,而不是突然消失或飛起來。JEPA想做的,就是讓AI也具備這種能力。

新方法大幅簡化訓練流程,解決模型很難訓練的痛點

不過,這種模型長期以來,一直有個大麻煩:很難訓練成功。因為這類模型常常學不到有用的資訊,研究人員必須加很多「補丁」,像是額外的訓練技巧或特殊設計,才能勉強讓它執行。這個缺陷,也讓JEPA一直停留在研究階段,很難實際應用。

不過,這次團隊發表的LeWorldModel找到一個解方,把原本複雜的訓練流程,簡化到只剩兩個關鍵步驟。第一是讓模型預測「下一步的狀態」;第二是透過一種數學方法SIGReg,來確保模型學到的資訊不會崩塌或失真。

這種設計,讓研究人員不再需要各種複雜技巧,就能穩定訓練模型。

小模型也能做規畫,1秒就完成決策

除了更容易訓練,這個新模型還有一個亮點:速度很快,而且也很省資源。因為,整個模型只有約1,500萬個參數,在單張GPU上就能訓練完成。更重要的是,它不到1秒,就能完成一段規畫(Planning),也就是模擬未來可能發生的情況,並選擇下一步行動。

在實測上,與經典的世界模型DINO-WM,LeWM規畫時間快了48倍,也因此更接近實際應用,比如機器人即時決策。

這個研究也反映出,AI開始從生成內容,走向理解環境並採取行動。尤其,近年在機器人和Agent系統中,「世界模型」與「規畫能力」逐漸成為重要的研究方向,也被視為AI落地應用的關鍵能力之一。

雖然LeWM讓JEPA架構更接近實際應用,但離真正落地仍有段距離。比如,目前仍不確定,模型在更複雜的環境中是否仍能維持穩定表現,以及在更大的應用規模下,是否仍保持一樣的效率。但可以確定的是,這項研究讓原本難以訓練的JEPA,開始變得更簡單、更穩定,也讓AI理解世界並做決策這件事,從理論慢慢走向可行。

View original 0 Likes 0 Boosts

Comments (0)

No comments yet.