Nvidia更新後訓練流程，開放權重模型Nemotron-Cascade 2達金牌級數學解題表現

新聞

Nemotron-Cascade 2採用較小的活化參數規模，但在推理任務上展現出較高的效能密度。依論文揭露的評測結果，該模型在IMO 2025獲得35/42分，在IOI 2025取得439.28/600分，並於ICPC World Finals 2025解出10/12題。研究團隊指出，Nemotron-Cascade 2在IMO 2025、IOI 2025與ICPC World Finals 2025的解題評估中已達金牌級表現，並將其列為代表性成果。不過，這些分數來自論文中的解題評估結果，並非模型實際參與正式競賽所得。

和前一代相比，Nemotron-Cascade 2的主要升級來自於後訓練流程的改進。研究團隊表示，他們先以人工整理後的SFT資料做監督式微調，再把Cascade RL擴大到更多推理與代理領域，並加入Multi-Domain On-Policy Distillation，也就是從不同領域表現最強的中間教師模型檢查點持續蒸餾，目的是在RL過程中減少能力退步，讓多項基準表現能較穩定維持。

Nemotron-Cascade 2的強項主要集中在數學、程式推理、對齊與指令遵循，例如AIME 2025成績為92.4，LiveCodeBench v6為87.2，ArenaHard v2平均分數為83.5，其不只在競賽題組上突出，也能將同一套後訓練流程擴展到更廣泛的推理工作負載。

Nvidia研究團隊也指出，Nemotron-Cascade 2並非在所有能力面向都居於領先。論文指出，該模型在知識密集與部分代理任務上的表現，仍落後開放模型Qwen3.5-35B-A3B，因此更適合用於高密度推理、數學與程式任務。

Hugging Face頁面列出Nemotron-Cascade-2-30B-A3B模型、Nemotron-Cascade-2-SFT-Data與Nemotron-Cascade-2-RL-data。Nvidia這次公開的不只是論文與評測分數，也包括模型權重、SFT資料與RL資料，讓其他研究人員可直接檢視其後訓練資產與方法。

Nvidia更新後訓練流程，開放權重模型Nemotron-Cascade 2達金牌級數學解題表現

nvidia/Nemotron-Cascade-2-30B-A3B · Hugging Face

Comments (0)