微軟Foundry Local正式版發布，支援將本地AI推論整合進應用程式

新聞

Foundry Local讓開發者可將AI推論能力直接隨應用程式一併發布，開發者安裝SDK後，Foundry Local Core與ONNX Runtime執行檔會在建置階段自動納入應用程式。微軟表示，該方案體積精簡，不會明顯增加安裝包大小，終端使用者也不必另外安裝CLI工具或第三方軟體，即可直接使用AI功能。

其支援Windows、macOS與Linux。Windows版整合Windows ML（WinML）進行推論，並透過Windows Update自動取得與硬體相符的執行提供者外掛，以處理驅動程式相容性問題。macOS版則原生支援Apple Silicon，透過Metal提供GPU加速。Foundry Local會自動偵測硬體環境，使用GPU、NPU或CPU執行推論，開發者不需要額外撰寫硬體偵測邏輯。

SDK部分，Foundry Local提供Python、JavaScript、C#與Rust四種語言支援，推論API採用OpenAI相容的請求與回應格式，涵蓋聊天完成（Chat Completions）、音訊轉錄及Open Responses API。微軟表示，這讓開發者可以在雲端與本地推論之間順暢切換，而不需要額外架設本地HTTP伺服器，但如果應用場景需要REST呼叫，也可以在初始化時選擇啟用OpenAI相容的HTTP端點。

由於Foundry Local整合Foundry Model Catalog，應用程式首次執行時會從目錄下載針對裝置硬體最佳化的模型，後續則從本地快取載入。目前支援的模型系列包括GPT OSS、Qwen、Whisper、Deepseek、Mistral與Phi，同時支援可中斷續傳的下載機制，使用者即使中途關閉應用程式或斷線，下次啟動時可從中斷處繼續下載。

在微軟的AI部署架構中，Foundry Local負責裝置端推論，可在手機、筆電與桌機等終端裝置上執行模型，雲端則由Microsoft Foundry提供高階模型、AI代理人與微調服務。至於結合Azure Local的Foundry Local部署選項，目前仍處於預覽階段，主打將這些模型與代理式AI帶到用戶自有的分散式基礎設施。

微軟也揭露後續發展方向，包括擴充模型目錄、即時麥克風語音轉錄，更廣泛的NPU與GPU硬體支援，以及改進共享快取機制，讓多個應用程式能共用已下載的模型。Foundry Local的程式碼範例現已公開於GitHub。

微軟Foundry Local正式版發布，支援將本地AI推論整合進應用程式

Comments (0)