Cursor 发布 Composer 2.5:定向文本反馈 RL 让 AI 编程 Agent 更懂错在哪

分类: AI开源软件工具 |发布于: 5/19/2026 |最后更新: 5/19/2026
Cursor 发布 Composer 2.5:定向文本反馈 RL 让 AI 编程 Agent 更懂"错在哪"

Cursor 发布 Composer 2.5:定向文本反馈 RL 让 AI 编程 Agent 更懂"错在哪"

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

5 月 18 日,Cursor 发布了 Composer 2.5——自研 AI 编程模型的重大升级。最值得关注的是一种全新的训练方法:定向文本反馈强化学习(Targeted RL with Textual Feedback)。它解决了长轨迹强化学习中"知道结果不好,但不知道具体哪一步出了问题"的核心痛点。对每天使用 AI 编程工具的开发者来说,这意味着 Agent 在长任务中更稳定、指令遵从度更高、协作更顺畅。

Composer 2.5 是什么

Composer 是 Cursor 自研的编程模型系列,专门为代码生成和 Agent 式编程优化。Composer 2.5 基于月之暗面(Moonshot)开源的 Kimi K2.5 checkpoint,在 Composer 2 的基础上做了"实质性提升"——不是简单的参数放大,而是从训练方法论层面做了升级。

官方强调的提升方向有三个:

  • 长任务持续工作能力:在跨数百步的代码修改任务中不容易"跑偏"
  • 复杂指令遵从度:更可靠地执行涉及多步骤、多约束的用户指令
  • 沟通风格和努力校准:Cursor 团队特别指出,这些维度"不被现有 benchmark 很好捕获,但对实际使用体验影响很大"

核心突破:定向文本反馈 RL

这是 Composer 2.5 最值得讲的技术点。

传统 RL 的困境

强化学习训练 AI 编程 Agent 时,一条完整的代码生成轨迹可能长达数十万 token。传统做法是:Agent 跑完一整条轨迹后,根据最终结果算一个奖励分数。问题在于——信用分配困难

举个例子:Agent 在一次长任务中调用了几百次工具,其中有一次调用了不存在的工具,收到"Tool not found"错误,然后继续执行后续步骤。如果最终任务完成了,这个中间错误对最终奖励分数的影响微乎其微;如果最终失败了,模型也不知道是几百步中的哪一步导致了失败。

新方法怎么做

定向文本反馈 RL 的思路是:在出错的具体位置,直接告诉模型该怎么改

具体流程:

  1. 在 Agent 轨迹中,找到模型"可以做得更好"的那一步
  2. 在该步骤的上下文中插入一段简短的文本提示(比如"Reminder: Available tools…"后附可用工具列表)
  3. 用插入提示后的模型分布作为教师策略
  4. 用原始上下文的模型分布作为学生策略
  5. 添加一个 on-policy 蒸馏 KL loss,把学生的 token 概率拉向教师

这样,模型不仅知道"整条轨迹的结果好不好",还精确地知道"这一步应该怎么改"。而且这个局部修正信号和整体的 RL 目标是兼容的,不会顾此失彼。

为什么这很重要

这不是"更大力度的 RL"——而是更精准的 RL。过去提升 Agent 能力的主要路径是扩大训练规模和增加更复杂的 RL 环境。Composer 2.5 证明了一个新方向:信用分配精度本身可以成为关键杠杆。当你能告诉模型"这个工具调用错了"而不是"你这次跑的结果一般",学习效率的提升是质变级别的。

定价与首周福利

Composer 2.5 提供两档定价:

| 模式 | 输入价格 | 输出价格 |

|------|---------|---------|

| Standard | $0.50/M tokens | $2.50/M tokens |

| Fast(默认) | $3.00/M tokens | $15.00/M tokens |

发布首周,使用量翻倍——相当于半价体验。

更大的棋局:与 SpaceXAI 联合训练下一代模型

Composer 2.5 不是终点。Cursor 同时宣布了与 SpaceXAI 的合作计划:基于 Colossus 2 的百万 H100 等效算力,从零训练一个显著更大的模型,总计算量是当前模型的 10 倍。Cursor 表示,结合双方的数据和训练技术,预期这将是一次"模型能力的重大飞跃"。

这透露了一个信号:定向文本反馈 RL 方法验证成功后,会被规模化应用到更大的模型上。方法论突破 + 算力扩展,两条腿走路。

对开发者的实际意义

如果你是 Cursor 用户,Composer 2.5 现在已经可用(Fast 模式默认启用)。升级后的体感差异主要体现在:

  • 长时间、多步骤的代码修改任务中,Agent 更不容易中途"失焦"
  • 复杂需求(比如"重构这个模块,同时保持 API 兼容,加上单元测试")的完成率更高
  • Agent 的回复风格更自然,不会过度解释也不会草率跳过

如果你是 AI 编程工具的开发者或研究者,定向文本反馈 RL 是一个值得关注的新范式。它的核心洞察——在轨迹的精确位置提供文本形式的修正信号——不限于 Cursor 的场景,任何需要长轨迹决策的 Agent 训练都可能受益。

---

*基于 Cursor 官方博客和 HN 讨论整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。