Nvidia釋出鎖定AI代理人的多模態模型Nemotron 3 Nano Omni
Nemotron 3是Nvidia在去年12月發表的開源模型家族,採用Mamba-Transformer MoE架構,分為Nano、Super、Ultra三種版本。Nano Omni是Nano的多模態升級版,在原有文字推理能力之上加入視覺與音訊處理。
現行AI代理人系統在處理螢幕錄影、通話音訊、文件等任務時,通常需要視覺、語音、語言三個獨立模型分工,不僅拉高延遲,也容易在模型間傳遞過程中遺失上下文。Nemotron 3 Nano Omni 將3種感知能力整合進單一模型,負責代理人系統中的感知層,再交由其他模型接手執行或規畫。
目前Nemotron 3 Nano Omni主要支援3種代理人應用場景,包括電腦操作、文件解讀,以及影音理解。它可解讀文件、圖表、表格與截圖等混合內容,執行企業分析與法規合規工作流程;或是串連影片畫面與音訊內容,維持跨模態的完整上下文,適用於客服、研究與監控等場景。在電腦操作上,法國AI新創H Company已將Nano Omni整合至其代理人系統,以1920×1080原生解析度即時解讀螢幕錄影,在OSWorld基準測試中的表現明顯提升。
Nvidia已釋出Nemotron 3 Nano Omni的模型權重、訓練資料及訓練方法,開發人員可透過Hugging Face、OpenRouter及build.nvidia.com取得。
Nvidia公布Nemotron 3系列、Nano版先問世
Nvidia強調新一代Nemotron 3系列採用新混合專家(MoE)架構,適用於代理式AI應用開發
www.ithome.com.tw
Comments (0)