Skip to main content

Thinking Machines發表互動模型研究預覽,主打近即時語音與視訊互動

Posted in 業界新聞
新聞

Thinking Machines指出,現行多數AI介面仍採回合式設計,通常必須等使用者說完或輸入完成後,模型才開始處理與回應,因此也限縮了使用者在互動過程中即時補充、修正與插話的空間。為改善這種限制,該公司採多串流(multi-stream)、微回合(micro-turn)設計,以200毫秒為單位,持續交錯處理輸入與輸出內容。

這次展示的TML-Interaction-Small採雙模型架構,互動模型負責即時對話與回應,背景模型則非同步處理推理、工具呼叫與瀏覽等任務,再將結果整合進對話。官方表示,這套模型可支援主動語音回應、根據視覺線索即時回應、與使用者同時說話、感知時間經過,以及同步搜尋、呼叫工具或生成UI。

根據官方基準測試,在FD-bench V1接話延遲評比中,TML-Interaction-Small的成績為0.40秒,優於GPT-realtime-2.0(minimal)的1.18秒與Gemini-3.1-flash-live(minimal)的0.57秒;在FD-bench V1.5互動品質評比,TML-Interaction-Small則獲得77.8分,高於GPT-realtime-2.0(minimal)的46.8分,以及Gemini-3.1-flash-live(minimal)的54.3分。Thinking Machines表示,這項技術目前仍處研究預覽階段,未來幾個月將先開放有限度測試,並預計於今年稍後擴大推出。

VentureBeat報導指出,一般大型語言模型本身並不內建時鐘,通常必須在文字提示中明確提供時間相關資訊,才能處理相關任務。相較之下,TML-Interaction-Small主打原生具備時間感知能力,因此可望應用於需要精準掌握流程時間的場景,例如工業維護與製藥研究。

https://venturebeat.com/technology/thinking-machines-shows-off-preview-of-near-realtime-ai-voice-and-video-conversation-with-new-interaction-models venturebeat.com
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.