Qwen發表Qwen3.5-Omni,支援最長10小時語音輸入
Qwen團隊是在2025年9月釋出Qwen3-Omni時,首度明確將模型定位為原生全模態,意指它可同時處理文字、圖片、音訊與影片等多種輸入,並在單一模型中完成理解與生成。相較於傳統多模態架構由多個模型分別處理不同資料型態,再透過外部流程整合結果,全模態是以單一模型統一處理與推理,使各模態可直接共享語意表示,提升跨模態理解效率。
在功能上,Qwen3.5-Omni延續既有全模態架構,支援文字、圖片、語音與影音輸入,並可輸出文字、語音及具時間軸的結構化分析結果,包括逐段摘要、說話人區分與重點標記;同時將內容描述能力(Caption)由音訊擴展至影音,並支援智慧語義打斷與語音控制等互動功能。
Qwen3.5-Omni亦擴充其語言能力,語音辨識支援語言由11種提升至74種,方言由8種提升至39種,並支援29種語言與7種方言的語音合成,使模型可應用於更多跨語言與在地化語音場景。
此次更新的主要特色在於長內容處理能力。Qwen3.5-Omni支援最長10小時語音輸入,並將上下文長度由32K提升至256K Token,可同時理解長時間語音及其轉換後的文本內容,直接應用於完整會議、課程或訪談分析。相較過去需分段處理音訊與拼接結果的方式,此一能力可大幅降低人工整理成本,也使語音資料更容易納入企業知識管理與自動化流程。
不過,該模型在影片處理上仍有限制,最長僅支援約400秒輸入,顯示其長內容能力目前仍主要集中在語音與文本場景。
整體而言,Qwen3.5-Omni此次升級的重點不在新增模態,而是將長內容處理能力進一步產品化。相較於OpenAI與Google多聚焦在即時語音互動或長脈絡推理,Qwen率先將「最長10小時語音輸入」作為核心能力,將競爭焦點從即時對話,延伸至會議、訪談與影音等長時序場景。
Qwen
Qwen Chat offers comprehensive functionality spanning chatbot, image and video understanding, image generation, document processing, web search integration, tool utilization, and artifacts.
qwen.ai
Comments (0)