臺灣主權AI訓練語料庫上線至今滿3個月，語料庫詞元數增1倍至12億

新聞

數發部表示，臺灣推動政府資料開放已逾十年，目前政府資料開放平臺已累積超過5萬筆資料集，涵蓋交通、氣象、能源等多元領域，成為民間創新應用的重要來源。隨著AI技術興起，資料的角色進一步升級為模型訓練的基礎，特別是在語言模型發展上，高品質且具在地特色的語料，已成為影響AI表現的重要關鍵。

因應LLM模型的資料需求，數發部去年12月跨部會合作推出「臺灣主權AI訓練語料庫」，去年首次推出即蒐整約6億詞元的資料，而現在平臺上的詞元數已增加逾12億，涵蓋文化藝術、語言詞彙、歷史文物、在地文化、觀光旅遊等資料，其中包括政府機關掌管的文化資產、政策文件、研究報告等，透過這些資料可讓AI模型更進一步理解臺灣在地的歷史脈絡與社會文化。

數發部指出，目前已有多個政府機關持續提供高品質文本資料，未來持續強化語料庫內容深度及多樣性；目前也吸引國內外模型開發者申請使用，涵蓋本土模型與國際大型模型開發團隊。隨著語料規模與使用需求同步成長，在發展具在地觀點的主權AI上，正逐步建立關鍵基礎。

未來訓練語料庫會持續擴增語料來源、提升資料品質，並透過制度化資料治理機制，促進資料流通與跨域應用。

臺灣主權AI訓練語料庫上線至今滿3個月，語料庫詞元數增1倍至12億

Comments (0)