ARC-AGI-3互動推理基準上線，人類可全解但主流AI得分卻不到1%

新聞

ARC-AGI-3的形式比過去更接近遊戲環境，受測系統每回合面對的是2D格狀環境，格子尺寸最大為64x64，每格有16種可能顏色。各遊戲會明確標示可用動作，標準化介面包括5個基本動作、一個可帶x、y座標的複合動作，以及還原上一步。官方列出的公開範例遊戲包括ls20、ft09與vc33，分別歸類為代理推理、基礎邏輯與協同調度。官方也說明，這些公開遊戲可供人類與AI代理系統遊玩，其中上線初期匿名使用者可先體驗3款遊戲。

ARC-AGI-3不只看模型能否過關，也看完成任務的效率，因此AI成績低於1%，不只是完成率偏低，也反映其解題效率與人類仍有明顯差距。官方指出，ARC-AGI-3採RHAE（Relative Human Action Efficiency）計分，核心指標有兩個，一是完成多少關卡，二是完成時使用多少動作。ARC-AGI-3只計算成功完成的關卡，並將解題效率納入評分，因此AI若要獲得100%分數，不只必須通過所有遊戲，效率也得達到與人類相當的水準。

官方在技術報告中列出目前主要AI模型的ARC-AGI-3成績，Google的Gemini 3.1 Pro Preview得分0.37%，OpenAI的GPT 5.4（High）為0.26%，Anthropic的Opus 4.6（Max）為0.25%，xAI的Grok-4.20（Beta 0309 Reasoning）則為0.00%。現階段模型即使已具備一定互動推理能力，在陌生環境中的探索效率、規則掌握與後續執行，仍與人類首次上手的表現有明顯落差。

ARC-AGI-3互動推理基準上線，人類可全解但主流AI得分卻不到1%

Comments (0)