Skip to main content

Mistral AI開源文字轉語音模型Voxtral TTS

Posted in 業界新聞
新聞

Voxtral TTS是以Ministral 3B為基礎開發的Transformer-based自回歸流匹配(autoregressive, flow-matching model)模型,可接受5到25秒語音提示和9種語言文字提示。Mistral AI指出,Voxtral TTS雖僅30億參數,但在自然語音生成的關鍵因素包括上下文理解(如語氣中立、快樂或諷刺)及說話者模型(捕捉說話者自然說話的動作)能力優異,且其語音適應能力也能捕捉說話者個性,如自然停頓、韻律、聲調和聲音表情等。

目前支援的9種語言包括英、法、德、西、荷、葡、義語、北印度語及阿拉伯語,且可適應多種方言。Mistral AI強調,即使是外國語言,該模型只需3秒聲音樣本就能模仿真人,且不只是音色本質,還能模仿極細微的口音、情緒起伏及音調抑揚變化。

該公司聲稱,Voxtral TTS滿足語音代理人對低延遲和聲音品質的要求。Mistral比較Voxtral TTS和競爭者ElevenLabs Flash v2.5在一項人類偏好評估的成績,在相同TTFA(time-to-first-audio)條件下提供更自然的合成語言,而對話的情緒表達能力也接近更高階的Flash v3版。在另一個零樣本模仿真人生成多語言方言的人類評估測試結果中,Voxtral TTS在語音自然度、方言口音相似度及模仿相似度更大幅領先對手。

Voxtral TTS能和Mistral聽寫模型Voxtral Transcribe合用,也可整合在企業現有聽寫(speech-to-text)及LLM堆疊,以支援企業語音應用。

現在Mistral AI公開的資源包含固定聲音的開放權重模型,以及未開放的專屬模型,但提供聲音客製化(即能模仿任意聲音)能力。開放模型可在HuggingFace取得,欲完整測試Voxtral TTS則需連到該公司AI Studio。

目前多家AI業者提供企業語音生成AI方案,包括ElevenLabs、Google Cloud的Chirp 3、OpenAIGPT-4o mini TTS等。

mistralai/Voxtral-4B-TTS-2603 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.