NVIDIA 开源 Polar:不改一行 Agent 代码,用 RL 让编程智能体性能飙升 22 个百分点

分类: 大语言模型 |发布于: 5/29/2026 |最后更新: 5/29/2026
NVIDIA 开源 Polar:不改一行 Agent 代码,用 RL 让编程智能体性能飙升 22 个百分点

NVIDIA 开源 Polar:不改一行 Agent 代码,用 RL 让编程智能体性能飙升 22 个百分点

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

NVIDIA 于 5 月 28 日发布了 Polar,一个开源的强化学习(RL)训练框架,专门用于提升 LLM 编程智能体的表现。它最大的特点是:你不需要修改任何 Agent 的代码,就能对 Codex、Claude Code、Qwen Code 等主流编程 Agent 进行 RL 训练。

核心思路:在 API 边界做文章

当前的 LLM 编程 Agent(如 Codex CLI、Claude Code、Qwen Code)各自有复杂的系统提示、工具格式、上下文管理和补丁提交逻辑。要对这些 Agent 做强化学习,传统做法是深入修改 Agent 内部代码——这既费力又容易破坏原有行为。

Polar 的核心观察是:所有 LLM Agent 最终都要调用一个模型 API。这个 API 边界是一个天然的通用接口。Polar 在这个边界放置一个代理(proxy),拦截所有模型调用,从而收集完整的训练轨迹——而 Agent 本身完全不知道自己正在被训练。

唯一需要的改动:把 Agent 的 model base URL 指向 Polar 的 gateway 地址。

支持的 Agent 和运行环境

Polar 内置了对以下编程 Agent 的支持:

  • Codex(OpenAI)
  • Claude Code(Anthropic)
  • Qwen Code(阿里)
  • Gemini CLI(Google)
  • OpenCode
  • Pi

运行时支持 Docker 和 rootless Apptainer,每个训练 session 都在隔离环境中执行。

API 协议方面,Polar 兼容 Anthropic Messages、OpenAI Chat Completions、OpenAI Responses 和 Google generateContent 四种主流格式。

实测效果:小模型大提升

NVIDIA 使用 Qwen3.5-4B(一个 40 亿参数的小模型)作为基础模型,在 SWE-Bench Verified 基准上用 GRPO 算法进行训练,数据集为 SWE-Gym 的 293 个任务。结果如下:

| Agent Harness | 训练前 | 训练后 | 提升 |

|---|---|---|---|

| Codex | 3.8% | 26.4% | +22.6 pts |

| Claude Code | 29.8% | 34.6% | +4.8 pts |

| Pi | 34.2% | 40.4% | +6.2 pts |

| Qwen Code | 34.6% | 35.2% | +0.6 pts |

最大的提升出现在 Codex harness 上。原因很直观:Qwen 模型本身没有针对 Codex 的动作协议和补丁提交格式做过训练,所以 RL 带来的边际收益最大。而在 Qwen 自家的 Qwen Code harness 上,模型已经高度对齐,提升空间自然有限。

技术亮点

prefix_merging 轨迹重建:Polar 通过验证相邻 completion 之间的严格 token 前缀关系,将多轮对话重建为可训练的长轨迹。子 Agent、上下文压缩边界和并行分支自然形成独立链。这种方法比逐请求处理快 5.39 倍。

高效数据生成:从 1638 次尝试中生成了 504 条被接受的 SFT 轨迹(30.8% 成功率),总计约 64 GPU-hours。这些数据以 Apache-2.0 许可开源。

只训练采样 token:在合并的轨迹中,只有模型实际采样生成的 assistant token 被标记为可训练,系统/工具/用户消息的 token 损失掩码为零。

对开发者意味着什么

  1. 小模型也能用:一个 4B 参数的模型,经过 Polar 训练后在 Codex 上从几乎不可用(3.8%)变成了有实际价值(26.4%)。这意味着团队可以用较低成本训练专属的编程 Agent。
  1. 降低工程门槛:不需要理解每个 Agent 的内部实现,只需要一个 URL 配置变更就能开始训练。
  1. Agent 训练标准化:Polar 提供了一种通用范式——无论你用哪个 Agent 框架,都可以用同一套流程做 RL 训练。

局限性

  • 目前实验只在 Qwen3.5-4B 上验证,更大模型的效果尚未公开
  • SWE-Bench Verified 是标准化基准,实际生产环境的提升可能不同
  • 需要 GPU 资源进行训练(实验用了约 64 GPU-hours)

获取方式

Polar 作为 NeMo Gym 的一部分开源,采用 Apache-2.0 许可。项目地址:GitHub NVIDIA/NeMo-Gym。

---

*本文基于多家媒体转述整理,主要来源包括 It's The Coin、MarkTechPost 对 NVIDIA 研究论文的报道。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。