微軟Foundry Local正式版發布,支援將本地AI推論整合進應用程式
Foundry Local讓開發者可將AI推論能力直接隨應用程式一併發布,開發者安裝SDK後,Foundry Local Core與ONNX Runtime執行檔會在建置階段自動納入應用程式。微軟表示,該方案體積精簡,不會明顯增加安裝包大小,終端使用者也不必另外安裝CLI工具或第三方軟體,即可直接使用AI功能。
其支援Windows、macOS與Linux。Windows版整合Windows ML(WinML)進行推論,並透過Windows Update自動取得與硬體相符的執行提供者外掛,以處理驅動程式相容性問題。macOS版則原生支援Apple Silicon,透過Metal提供GPU加速。Foundry Local會自動偵測硬體環境,使用GPU、NPU或CPU執行推論,開發者不需要額外撰寫硬體偵測邏輯。
SDK部分,Foundry Local提供Python、JavaScript、C#與Rust四種語言支援,推論API採用OpenAI相容的請求與回應格式,涵蓋聊天完成(Chat Completions)、音訊轉錄及Open Responses API。微軟表示,這讓開發者可以在雲端與本地推論之間順暢切換,而不需要額外架設本地HTTP伺服器,但如果應用場景需要REST呼叫,也可以在初始化時選擇啟用OpenAI相容的HTTP端點。
由於Foundry Local整合Foundry Model Catalog,應用程式首次執行時會從目錄下載針對裝置硬體最佳化的模型,後續則從本地快取載入。目前支援的模型系列包括GPT OSS、Qwen、Whisper、Deepseek、Mistral與Phi,同時支援可中斷續傳的下載機制,使用者即使中途關閉應用程式或斷線,下次啟動時可從中斷處繼續下載。
在微軟的AI部署架構中,Foundry Local負責裝置端推論,可在手機、筆電與桌機等終端裝置上執行模型,雲端則由Microsoft Foundry提供高階模型、AI代理人與微調服務。至於結合Azure Local的Foundry Local部署選項,目前仍處於預覽階段,主打將這些模型與代理式AI帶到用戶自有的分散式基礎設施。
微軟也揭露後續發展方向,包括擴充模型目錄、即時麥克風語音轉錄,更廣泛的NPU與GPU硬體支援,以及改進共享快取機制,讓多個應用程式能共用已下載的模型。Foundry Local的程式碼範例現已公開於GitHub。
Comments (0)