Nvidia更新後訓練流程,開放權重模型Nemotron-Cascade 2達金牌級數學解題表現
Nemotron-Cascade 2採用較小的活化參數規模,但在推理任務上展現出較高的效能密度。依論文揭露的評測結果,該模型在IMO 2025獲得35/42分,在IOI 2025取得439.28/600分,並於ICPC World Finals 2025解出10/12題。研究團隊指出,Nemotron-Cascade 2在IMO 2025、IOI 2025與ICPC World Finals 2025的解題評估中已達金牌級表現,並將其列為代表性成果。不過,這些分數來自論文中的解題評估結果,並非模型實際參與正式競賽所得。
和前一代相比,Nemotron-Cascade 2的主要升級來自於後訓練流程的改進。研究團隊表示,他們先以人工整理後的SFT資料做監督式微調,再把Cascade RL擴大到更多推理與代理領域,並加入Multi-Domain On-Policy Distillation,也就是從不同領域表現最強的中間教師模型檢查點持續蒸餾,目的是在RL過程中減少能力退步,讓多項基準表現能較穩定維持。
Nemotron-Cascade 2的強項主要集中在數學、程式推理、對齊與指令遵循,例如AIME 2025成績為92.4,LiveCodeBench v6為87.2,ArenaHard v2平均分數為83.5,其不只在競賽題組上突出,也能將同一套後訓練流程擴展到更廣泛的推理工作負載。
Nvidia研究團隊也指出,Nemotron-Cascade 2並非在所有能力面向都居於領先。論文指出,該模型在知識密集與部分代理任務上的表現,仍落後開放模型Qwen3.5-35B-A3B,因此更適合用於高密度推理、數學與程式任務。
Hugging Face頁面列出Nemotron-Cascade-2-30B-A3B模型、Nemotron-Cascade-2-SFT-Data與Nemotron-Cascade-2-RL-data。Nvidia這次公開的不只是論文與評測分數,也包括模型權重、SFT資料與RL資料,讓其他研究人員可直接檢視其後訓練資產與方法。
nvidia/Nemotron-Cascade-2-30B-A3B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
Comments (0)