NVIDIA 开源 5500 亿参数 MoE 大模型:Nemotron 3 Ultra,剑指 AI Agent 编排

分类: 生图3D类 |发布于: 6/8/2026 |最后更新: 6/8/2026
draft.md

draft.md

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

NVIDIA 开源 5500 亿参数 MoE 大模型:Nemotron 3 Ultra,剑指 AI Agent 编排

6 月 4 日,NVIDIA 正式发布 Nemotron 3 Ultra,一款 5500 亿参数(550B)的混合专家模型(MoE),其中 550 亿参数在实际推理时激活使用。这是 NVIDIA 首次以全开源方式发布如此大规模的前沿推理模型——权重、数据、训练配方全部公开,开发者可下载、可微调、可私有部署。

场景切入:长时 Agent 正在成为主流,但代价不小

单轮对话式 AI 正在向"长时运行 Agent"演进:多步推理、工具调用、子 Agent 调度、跨会话记忆保持……这些能力让 AI 能完成复杂工作流,但代价是 token 消耗随任务时长指数级膨胀,成本和"目标漂移"风险同步上升。

NVIDIA 正是瞄准了这个痛点,推出了 Nemotron 3 Ultra。

核心参数:550B MoE,专为 Agent 编排而生

Nemotron 3 Ultra 的定位不是替代通用推理模型(如 ChatGPT),而是成为 AI Agent 系统里的编排层(Orchestration Layer)——负责复杂决策、架构设计、多步骤规划,而将大量常规执行任务委托给更小更快的子模型。

关键规格:

  • 5500 亿总参数,550 亿激活参数(MoE 架构)
  • 100 万 token 超长上下文,1M context 下准确率 95%
  • 全开源:权重、数据集、训练配方(Nemo RL + Gym)全部开放
  • 5 倍推理吞吐,相比同级别开源模型

性能对比:多项指标领先大模型对手

根据官方 benchmark 数据(基于 Artificial Analysis Intelligence Index、Terminal-Bench 2.0、SWE-bench 等):

| 指标 | Nemotron 3 Ultra | GLM 5.1 (744B) | Kimi K2.6 (1T) | Qwen3.5 (397B) |

|------|-----------------|----------------|----------------|----------------|

| Agent 生产力 (PinchBench) | 91% | 84% | 91% | 89% |

| 长程规划 (EnterpriseOps-Gym) | 33% | 40% | 29% | 30% |

| 编程 (Terminal-Bench 2.0) | 54% | 64% | 67% | 53% |

| 长上下文 (Ruler @1M) | 95% | N/A (最大256K) | N/A (最大256K) | 90% |

Nemotron 3 Ultra 在 Agent 生产力和超长上下文上优势明显,编程任务略弱于 GLM 和 Kimi K2.6,但整体处于前沿水平。

更重要的是效率:在 SWE-bench 和 Terminal-Bench 2.0 测试中,完成相同任务总 token 消耗更少,单轮 token 数更低,综合使任务完成成本降低约 30%

技术架构:Mamba+Transformer 混合 + NVFP4 精度

NVIDIA 在架构上做了两项关键创新:

  1. 混合 Mamba-Transformer 层:Mamba 层提升长序列处理效率,Transformer 层保留精确召回能力。两者结合,在 1M token 超长上下文中既快又准。
  2. NVFP4 精度量化:一个 checkpoint 同时适配 Hopper、Blackwell、Ampere 三代 GPU,无需针对硬件重新转换,且在相同交互延迟下实现 5 倍单卡吞吐提升

部署:30+ 平台即开即用

Nemotron 3 Ultra 可通过以下方式获取:

  • 权重下载:Hugging Face
  • NIM 微服务:NVIDIA 官方容器化部署方案
  • 主流推理平台:Perplexity(Pro 订阅)、OpenRouter、Anaconda、AWS JumpStart、Google Cloud、Microsoft Foundry、CoreWeave、DeepInfra 等 30+ 平台
  • 开发者资源:build.nvidia.com、官方 Cookbooks

对开发者的意义

Nemotron 3 Ultra 的出现填补了一个空白:目前开源社区不缺对话模型或编程模型,但缺一款专门为"多 Agent 系统"设计的高性能编排模型。它的开源降低了企业构建私有 Agent 基础设施的门槛,而 30% 的成本优势对需要长时间运行任务的商业场景(代码审查、复杂研究、多步自动化)吸引力显著。

---

*基于 NVIDIA Developer Blog(2026-06-04)及其他媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。