臺灣主權AI訓練語料庫上線至今滿3個月,語料庫詞元數增1倍至12億
Posted in
業界新聞
新聞
數發部表示,臺灣推動政府資料開放已逾十年,目前政府資料開放平臺已累積超過5萬筆資料集,涵蓋交通、氣象、能源等多元領域,成為民間創新應用的重要來源。隨著AI技術興起,資料的角色進一步升級為模型訓練的基礎,特別是在語言模型發展上,高品質且具在地特色的語料,已成為影響AI表現的重要關鍵。
因應LLM模型的資料需求,數發部去年12月跨部會合作推出「臺灣主權AI訓練語料庫」,去年首次推出即蒐整約6億詞元的資料,而現在平臺上的詞元數已增加逾12億,涵蓋文化藝術、語言詞彙、歷史文物、在地文化、觀光旅遊等資料,其中包括政府機關掌管的文化資產、政策文件、研究報告等,透過這些資料可讓AI模型更進一步理解臺灣在地的歷史脈絡與社會文化。
數發部指出,目前已有多個政府機關持續提供高品質文本資料,未來持續強化語料庫內容深度及多樣性;目前也吸引國內外模型開發者申請使用,涵蓋本土模型與國際大型模型開發團隊。隨著語料規模與使用需求同步成長,在發展具在地觀點的主權AI上,正逐步建立關鍵基礎。
未來訓練語料庫會持續擴增語料來源、提升資料品質,並透過制度化資料治理機制,促進資料流通與跨域應用。
Comments (0)