Nvidia釋出鎖定AI代理人的多模態模型Nemotron 3 Nano Omni

新聞

Nemotron 3是Nvidia在去年12月發表的開源模型家族，採用Mamba-Transformer MoE架構，分為Nano、Super、Ultra三種版本。Nano Omni是Nano的多模態升級版，在原有文字推理能力之上加入視覺與音訊處理。

現行AI代理人系統在處理螢幕錄影、通話音訊、文件等任務時，通常需要視覺、語音、語言三個獨立模型分工，不僅拉高延遲，也容易在模型間傳遞過程中遺失上下文。Nemotron 3 Nano Omni 將3種感知能力整合進單一模型，負責代理人系統中的感知層，再交由其他模型接手執行或規畫。

目前Nemotron 3 Nano Omni主要支援3種代理人應用場景，包括電腦操作、文件解讀，以及影音理解。它可解讀文件、圖表、表格與截圖等混合內容，執行企業分析與法規合規工作流程；或是串連影片畫面與音訊內容，維持跨模態的完整上下文，適用於客服、研究與監控等場景。在電腦操作上，法國AI新創H Company已將Nano Omni整合至其代理人系統，以1920×1080原生解析度即時解讀螢幕錄影，在OSWorld基準測試中的表現明顯提升。

Nvidia已釋出Nemotron 3 Nano Omni的模型權重、訓練資料及訓練方法，開發人員可透過Hugging Face、OpenRouter及build.nvidia.com取得。

Nvidia釋出鎖定AI代理人的多模態模型Nemotron 3 Nano Omni

Nvidia公布Nemotron 3系列、Nano版先問世

Comments (0)