Thinking Machines發表互動模型研究預覽，主打近即時語音與視訊互動

新聞

Thinking Machines指出，現行多數AI介面仍採回合式設計，通常必須等使用者說完或輸入完成後，模型才開始處理與回應，因此也限縮了使用者在互動過程中即時補充、修正與插話的空間。為改善這種限制，該公司採多串流（multi-stream）、微回合（micro-turn）設計，以200毫秒為單位，持續交錯處理輸入與輸出內容。

這次展示的TML-Interaction-Small採雙模型架構，互動模型負責即時對話與回應，背景模型則非同步處理推理、工具呼叫與瀏覽等任務，再將結果整合進對話。官方表示，這套模型可支援主動語音回應、根據視覺線索即時回應、與使用者同時說話、感知時間經過，以及同步搜尋、呼叫工具或生成UI。

根據官方基準測試，在FD-bench V1接話延遲評比中，TML-Interaction-Small的成績為0.40秒，優於GPT-realtime-2.0（minimal）的1.18秒與Gemini-3.1-flash-live（minimal）的0.57秒；在FD-bench V1.5互動品質評比，TML-Interaction-Small則獲得77.8分，高於GPT-realtime-2.0（minimal）的46.8分，以及Gemini-3.1-flash-live（minimal）的54.3分。Thinking Machines表示，這項技術目前仍處研究預覽階段，未來幾個月將先開放有限度測試，並預計於今年稍後擴大推出。

VentureBeat 報導指出，一般大型語言模型本身並不內建時鐘，通常必須在文字提示中明確提供時間相關資訊，才能處理相關任務。相較之下，TML-Interaction-Small主打原生具備時間感知能力，因此可望應用於需要精準掌握流程時間的場景，例如工業維護與製藥研究。

Thinking Machines發表互動模型研究預覽，主打近即時語音與視訊互動

Comments (0)