微軟擴大MAI模型版圖，補齊語音與影像能力

新聞

Microsoft Foundry最初名為Azure AI Foundry，定位為Azure上的AI開發服務，隨著功能從模型存取擴展至工具與應用整合，微軟後續逐步改以Microsoft Foundry稱之，轉為整體AI平臺品牌。微軟亦於2025年8月透過Microsoft AI部門發表首批自研模型，包括語言模型MAI-1-preview與語音生成模型MAI-Voice-1，作為其自建基礎模型體系的起點。

此次發布的MAI-Transcribe-1為微軟首款語音轉文字模型，支援25種語言，主打企業級辨識準確度，並強調相較同類模型可降低約50%的GPU成本，可應用於會議逐字稿、客服通話分析與語音資料建檔等場景。MAI-Voice-1則可在單一GPU上於1秒內生成長達60秒的語音內容，強調語音自然度與情緒表達能力，適用於語音助理、客服回應與影音配音等應用。

MAI-Image-2則為文字轉圖片模型，著重寫實風格、版面控制與圖中文字呈現能力，可用於行銷素材製作、設計輔助與內容生成，顯示微軟正補齊影像生成能力，並強化跨模態生成布局。

這3款模型目前已整合至微軟自家產品體系，包括Copilot、Bing與PowerPoint，並透過Azure Speech與Foundry平臺對外開放，讓開發者可建置語音互動、內容生成與多媒體應用。微軟指出，語音與影像正逐漸成為AI代理人的重要互動介面。

外界認為，此舉顯示微軟正強化自研模型布局，並在語音與影像等領域與OpenAI、Google等業者競爭；此外，自研模型亦有助提升產品彈性與成本控制能力。

微軟擴大MAI模型版圖，補齊語音與影像能力

微軟發表整合AI解決方案的Azure AI Foundry與兩款客製化晶片

Comments (0)