Skip to main content

ARC-AGI-3互動推理基準上線,人類可全解但主流AI得分卻不到1%

Posted in 業界新聞
新聞

ARC-AGI-3的形式比過去更接近遊戲環境,受測系統每回合面對的是2D格狀環境,格子尺寸最大為64x64,每格有16種可能顏色。各遊戲會明確標示可用動作,標準化介面包括5個基本動作、一個可帶x、y座標的複合動作,以及還原上一步。官方列出的公開範例遊戲包括ls20、ft09與vc33,分別歸類為代理推理、基礎邏輯與協同調度。官方也說明,這些公開遊戲可供人類與AI代理系統遊玩,其中上線初期匿名使用者可先體驗3款遊戲。

ARC-AGI-3不只看模型能否過關,也看完成任務的效率,因此AI成績低於1%,不只是完成率偏低,也反映其解題效率與人類仍有明顯差距。官方指出,ARC-AGI-3採RHAE(Relative Human Action Efficiency)計分,核心指標有兩個,一是完成多少關卡,二是完成時使用多少動作。ARC-AGI-3只計算成功完成的關卡,並將解題效率納入評分,因此AI若要獲得100%分數,不只必須通過所有遊戲,效率也得達到與人類相當的水準。

官方在技術報告中列出目前主要AI模型的ARC-AGI-3成績,Google的Gemini 3.1 Pro Preview得分0.37%,OpenAI的GPT 5.4(High)為0.26%,Anthropic的Opus 4.6(Max)為0.25%,xAI的Grok-4.20(Beta 0309 Reasoning)則為0.00%。現階段模型即使已具備一定互動推理能力,在陌生環境中的探索效率、規則掌握與後續執行,仍與人類首次上手的表現有明顯落差。

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf arcprize.org
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.