Skip to main content

微軟擴大MAI模型版圖,補齊語音與影像能力

Posted in 業界新聞
新聞

Microsoft Foundry最初名為Azure AI Foundry,定位為Azure上的AI開發服務,隨著功能從模型存取擴展至工具與應用整合,微軟後續逐步改以Microsoft Foundry稱之,轉為整體AI平臺品牌。微軟亦於2025年8月透過Microsoft AI部門發表首批自研模型,包括語言模型MAI-1-preview與語音生成模型MAI-Voice-1,作為其自建基礎模型體系的起點。

此次發布的MAI-Transcribe-1為微軟首款語音轉文字模型,支援25種語言,主打企業級辨識準確度,並強調相較同類模型可降低約50%的GPU成本,可應用於會議逐字稿、客服通話分析與語音資料建檔等場景。MAI-Voice-1則可在單一GPU上於1秒內生成長達60秒的語音內容,強調語音自然度與情緒表達能力,適用於語音助理、客服回應與影音配音等應用。

MAI-Image-2則為文字轉圖片模型,著重寫實風格、版面控制與圖中文字呈現能力,可用於行銷素材製作、設計輔助與內容生成,顯示微軟正補齊影像生成能力,並強化跨模態生成布局。

這3款模型目前已整合至微軟自家產品體系,包括Copilot、Bing與PowerPoint,並透過Azure Speech與Foundry平臺對外開放,讓開發者可建置語音互動、內容生成與多媒體應用。微軟指出,語音與影像正逐漸成為AI代理人的重要互動介面。

外界認為,此舉顯示微軟正強化自研模型布局,並在語音與影像等領域與OpenAI、Google等業者競爭;此外,自研模型亦有助提升產品彈性與成本控制能力。

Preview image for 微軟發表整合AI解決方案的Azure AI Foundry與兩款客製化晶片

微軟發表整合AI解決方案的Azure AI Foundry與兩款客製化晶片

Azure AI Foundry是個統一的微軟AI平臺,它的兩大元件是原名為Azure AI Studio的Azure AI Foundry入口,以及Azure AI Foundry SDK,目的是協助開發人員於企業級平臺上建置生成式AI應用

www.ithome.com.tw
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.