Qwen發表Qwen3.5-Omni，支援最長10小時語音輸入

新聞

Qwen團隊是在2025年9月釋出Qwen3-Omni時，首度明確將模型定位為原生全模態，意指它可同時處理文字、圖片、音訊與影片等多種輸入，並在單一模型中完成理解與生成。相較於傳統多模態架構由多個模型分別處理不同資料型態，再透過外部流程整合結果，全模態是以單一模型統一處理與推理，使各模態可直接共享語意表示，提升跨模態理解效率。

在功能上，Qwen3.5-Omni延續既有全模態架構，支援文字、圖片、語音與影音輸入，並可輸出文字、語音及具時間軸的結構化分析結果，包括逐段摘要、說話人區分與重點標記；同時將內容描述能力（Caption）由音訊擴展至影音，並支援智慧語義打斷與語音控制等互動功能。

Qwen3.5-Omni亦擴充其語言能力，語音辨識支援語言由11種提升至74種，方言由8種提升至39種，並支援29種語言與7種方言的語音合成，使模型可應用於更多跨語言與在地化語音場景。

此次更新的主要特色在於長內容處理能力。Qwen3.5-Omni支援最長10小時語音輸入，並將上下文長度由32K提升至256K Token，可同時理解長時間語音及其轉換後的文本內容，直接應用於完整會議、課程或訪談分析。相較過去需分段處理音訊與拼接結果的方式，此一能力可大幅降低人工整理成本，也使語音資料更容易納入企業知識管理與自動化流程。

不過，該模型在影片處理上仍有限制，最長僅支援約400秒輸入，顯示其長內容能力目前仍主要集中在語音與文本場景。

整體而言，Qwen3.5-Omni此次升級的重點不在新增模態，而是將長內容處理能力進一步產品化。相較於OpenAI與Google多聚焦在即時語音互動或長脈絡推理，Qwen率先將「最長10小時語音輸入」作為核心能力，將競爭焦點從即時對話，延伸至會議、訪談與影音等長時序場景。

Qwen發表Qwen3.5-Omni，支援最長10小時語音輸入

Qwen

Comments (0)