Mistral AI開源文字轉語音模型Voxtral TTS

新聞

Voxtral TTS是以Ministral 3B為基礎開發的Transformer-based自回歸流匹配（autoregressive, flow-matching model）模型，可接受5到25秒語音提示和9種語言文字提示。Mistral AI指出，Voxtral TTS雖僅30億參數，但在自然語音生成的關鍵因素包括上下文理解（如語氣中立、快樂或諷刺）及說話者模型（捕捉說話者自然說話的動作）能力優異，且其語音適應能力也能捕捉說話者個性，如自然停頓、韻律、聲調和聲音表情等。

目前支援的9種語言包括英、法、德、西、荷、葡、義語、北印度語及阿拉伯語，且可適應多種方言。Mistral AI強調，即使是外國語言，該模型只需3秒聲音樣本就能模仿真人，且不只是音色本質，還能模仿極細微的口音、情緒起伏及音調抑揚變化。

該公司聲稱，Voxtral TTS滿足語音代理人對低延遲和聲音品質的要求。Mistral比較Voxtral TTS和競爭者ElevenLabs Flash v2.5在一項人類偏好評估的成績，在相同TTFA（time-to-first-audio）條件下提供更自然的合成語言，而對話的情緒表達能力也接近更高階的Flash v3版。在另一個零樣本模仿真人生成多語言方言的人類評估測試結果中，Voxtral TTS在語音自然度、方言口音相似度及模仿相似度更大幅領先對手。

Voxtral TTS能和Mistral聽寫模型Voxtral Transcribe合用，也可整合在企業現有聽寫（speech-to-text）及LLM堆疊，以支援企業語音應用。

現在Mistral AI公開的資源包含固定聲音的開放權重模型，以及未開放的專屬模型，但提供聲音客製化（即能模仿任意聲音）能力。開放模型可在HuggingFace取得，欲完整測試Voxtral TTS則需連到該公司AI Studio。

目前多家AI業者提供企業語音生成AI方案，包括ElevenLabs、Google Cloud的Chirp 3、OpenAIGPT-4o mini TTS等。

Mistral AI開源文字轉語音模型Voxtral TTS

mistralai/Voxtral-4B-TTS-2603 · Hugging Face

Comments (0)