NVIDIA 开源 Polar：不改一行 Agent 代码，用 RL 让编程智能体性能飙升 22 个百分点

分类: 大语言模型 |发布于: 5/29/2026 |最后更新: 5/29/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

NVIDIA 于 5 月 28 日发布了 Polar，一个开源的强化学习（RL）训练框架，专门用于提升 LLM 编程智能体的表现。它最大的特点是：你不需要修改任何 Agent 的代码，就能对 Codex、Claude Code、Qwen Code 等主流编程 Agent 进行 RL 训练。

核心思路：在 API 边界做文章

当前的 LLM 编程 Agent（如 Codex CLI、Claude Code、Qwen Code）各自有复杂的系统提示、工具格式、上下文管理和补丁提交逻辑。要对这些 Agent 做强化学习，传统做法是深入修改 Agent 内部代码——这既费力又容易破坏原有行为。

Polar 的核心观察是：所有 LLM Agent 最终都要调用一个模型 API。这个 API 边界是一个天然的通用接口。Polar 在这个边界放置一个代理（proxy），拦截所有模型调用，从而收集完整的训练轨迹——而 Agent 本身完全不知道自己正在被训练。

唯一需要的改动：把 Agent 的 model base URL 指向 Polar 的 gateway 地址。

Polar 内置了对以下编程 Agent 的支持：

运行时支持 Docker 和 rootless Apptainer，每个训练 session 都在隔离环境中执行。

API 协议方面，Polar 兼容 Anthropic Messages、OpenAI Chat Completions、OpenAI Responses 和 Google generateContent 四种主流格式。

NVIDIA 使用 Qwen3.5-4B（一个 40 亿参数的小模型）作为基础模型，在 SWE-Bench Verified 基准上用 GRPO 算法进行训练，数据集为 SWE-Gym 的 293 个任务。结果如下：

| Agent Harness | 训练前 | 训练后 | 提升 |

|---|---|---|---|

| Codex | 3.8% | 26.4% | +22.6 pts |

| Claude Code | 29.8% | 34.6% | +4.8 pts |

| Pi | 34.2% | 40.4% | +6.2 pts |

| Qwen Code | 34.6% | 35.2% | +0.6 pts |

最大的提升出现在 Codex harness 上。原因很直观：Qwen 模型本身没有针对 Codex 的动作协议和补丁提交格式做过训练，所以 RL 带来的边际收益最大。而在 Qwen 自家的 Qwen Code harness 上，模型已经高度对齐，提升空间自然有限。

prefix_merging 轨迹重建：Polar 通过验证相邻 completion 之间的严格 token 前缀关系，将多轮对话重建为可训练的长轨迹。子 Agent、上下文压缩边界和并行分支自然形成独立链。这种方法比逐请求处理快 5.39 倍。

高效数据生成：从 1638 次尝试中生成了 504 条被接受的 SFT 轨迹（30.8% 成功率），总计约 64 GPU-hours。这些数据以 Apache-2.0 许可开源。

只训练采样 token：在合并的轨迹中，只有模型实际采样生成的 assistant token 被标记为可训练，系统/工具/用户消息的 token 损失掩码为零。

小模型也能用：一个 4B 参数的模型，经过 Polar 训练后在 Codex 上从几乎不可用（3.8%）变成了有实际价值（26.4%）。这意味着团队可以用较低成本训练专属的编程 Agent。

Polar 作为 NeMo Gym 的一部分开源，采用 Apache-2.0 许可。项目地址：GitHub NVIDIA/NeMo-Gym。

---

*本文基于多家媒体转述整理，主要来源包括 It's The Coin、MarkTechPost 对 NVIDIA 研究论文的报道。*

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。