Google DeepMind提出AGI衡量架構，以10項認知能力建構評測基礎

Google DeepMind表示，之所以提出這套架構，是因為目前業界仍缺乏評估系統通用智慧的實證工具。現有評測多半著重單一任務、單一測驗或特定能力表現，較難用來判斷系統是否正朝通用智慧發展，也不易比較不同系統在整體能力上的差異。

研究團隊參考心理學、神經科學與認知科學研究，提出一套認知分類法，列出10項關鍵認知能力，包括感知、生成、注意、學習、記憶、推理、後設認知、執行功能、問題解決與社會認知。Google DeepMind認為，要追蹤AI能力進展，不能只看單一任務表現或個別考題分數，而需要用較完整的認知分類描繪系統能力輪廓。

Google DeepMind提出三階段評測方法。第一步，是以涵蓋各項認知能力的任務組合評估AI系統，並使用保留測試集避免資料污染；第二步，是針對相同任務，從具人口統計代表性的成人樣本收集人類基準；第三步，則是將AI在各項能力上的表現，對應到人類表現分布中的位置。研究團隊表示，這樣的設計是希望將模型成績放回與人類能力對照的脈絡，而不只看絕對分數。

Google DeepMind也與Kaggle合作推出線上黑客松，希望讓這套分類法從理論走向實作。該競賽把重點擺在目前較缺乏評測方法的5類能力，包括學習、後設認知、注意、執行功能與社會認知，參賽者可利用Kaggle新推出的Community Benchmarks平臺設計與測試評估方法。

Google DeepMind提出AGI衡量架構，以10項認知能力建構評測基礎

Comments (0)