思科開源AI模型溯源工具，提供辨識模型血緣

新聞

AI應用當道，許多企業使用從Hugging Face上下載的第三方AI模型，經微調後用於開發AI應用。這些模型往往缺乏變更紀錄，無從追蹤模型開發過程做了哪些修改。使用這些模型可能的風險包括模型有漏洞或遭下毒、或是因模型系譜關係不明造成資安回應盲點、欠缺模型來源可能引發版權問題。而且缺少訓練資料、模型訓練方法及風險評估文件的模型，也無法滿足歐盟AI法規（AI Act）的法規。

思科說明現有模型紀錄法的不足。Meta、阿里巴巴、DeepSeek和Mistral等主要業者使用相同建構元素如分組查詢注意力（grouped-query attention）、旋轉位置嵌入（rotary positional embeddings）、和均方根標準化（Root Mean Square Normalization，RMSNorm）等，雖然有配置檔可描述這些架構，但無法說明模型是否為獨立訓練或是從其他模型複製來的。思科開源其自有使用的AI模型溯源工具組Model Provenance Kit，旨在解決上述疑慮。

其Model Provenance Kit為一個Python工具包和指令行介面（CLI），能以分層策略分析架構metadata、標記器（tokenizer）結構及其權重，判斷兩個模型是否有相同的來源，第一步先快速檢查結構，若光是metadata無法判斷，再深入到權重層分析。

在第一階段中，這工具會比較模型的配置（config）文件及結構metadata。若架構規格完全不同可以判定為不相關，若架構相同則進入第二階段深度分析。在權重分析中，它會從模型權重擷取出5種訊號或指紋，並將其加權整合成一個最終系譜（lineage）分數。這個工具會使用兩種比對模式，在比較模式（compare mode）中需輸入二個模型，可判斷其中一模型是否由抄襲、微調另一模型而生。在掃描模式（scan mode），則輸入一個模型，由系統比對資料庫的模型指紋判斷可能的來源模型。

思科運用111組模型對（model pairs）做了一個系統性的基準測試，驗證Model Provenance Kit準確判斷兩個模型血緣關係的能力。跑分結果證明Model Provenance Kit能準確追出模型來源，又不會把「長得像」的模型誤認為同一血統，具備實務上可用的模型鑑識能力。

配合這個溯源工具，思科也發布第一版指紋資料庫，涵括20多家發布業者、超過45個家族的近150個基礎模型，模型規模由1.35億到超過700億個參數，提供比對基準。

思科開源AI模型溯源工具，提供辨識模型血緣

Comments (0)