Cursor 发布 Composer 2.5：定向文本反馈 RL 让 AI 编程 Agent 更懂错在哪

分类: AI开源软件工具 |发布于: 5/19/2026 |最后更新: 5/19/2026

Cursor 发布 Composer 2.5：定向文本反馈 RL 让 AI 编程 Agent 更懂"错在哪"

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5 月 18 日，Cursor 发布了 Composer 2.5——自研 AI 编程模型的重大升级。最值得关注的是一种全新的训练方法：定向文本反馈强化学习（Targeted RL with Textual Feedback）。它解决了长轨迹强化学习中"知道结果不好，但不知道具体哪一步出了问题"的核心痛点。对每天使用 AI 编程工具的开发者来说，这意味着 Agent 在长任务中更稳定、指令遵从度更高、协作更顺畅。

Composer 2.5 是什么

Composer 是 Cursor 自研的编程模型系列，专门为代码生成和 Agent 式编程优化。Composer 2.5 基于月之暗面（Moonshot）开源的 Kimi K2.5 checkpoint，在 Composer 2 的基础上做了"实质性提升"——不是简单的参数放大，而是从训练方法论层面做了升级。

官方强调的提升方向有三个：

长任务持续工作能力：在跨数百步的代码修改任务中不容易"跑偏"
复杂指令遵从度：更可靠地执行涉及多步骤、多约束的用户指令
沟通风格和努力校准：Cursor 团队特别指出，这些维度"不被现有 benchmark 很好捕获，但对实际使用体验影响很大"

核心突破：定向文本反馈 RL

这是 Composer 2.5 最值得讲的技术点。

传统 RL 的困境

强化学习训练 AI 编程 Agent 时，一条完整的代码生成轨迹可能长达数十万 token。传统做法是：Agent 跑完一整条轨迹后，根据最终结果算一个奖励分数。问题在于——信用分配困难。

举个例子：Agent 在一次长任务中调用了几百次工具，其中有一次调用了不存在的工具，收到"Tool not found"错误，然后继续执行后续步骤。如果最终任务完成了，这个中间错误对最终奖励分数的影响微乎其微；如果最终失败了，模型也不知道是几百步中的哪一步导致了失败。

新方法怎么做

定向文本反馈 RL 的思路是：在出错的具体位置，直接告诉模型该怎么改。

具体流程：

在 Agent 轨迹中，找到模型"可以做得更好"的那一步
在该步骤的上下文中插入一段简短的文本提示（比如"Reminder: Available tools…"后附可用工具列表）
用插入提示后的模型分布作为教师策略
用原始上下文的模型分布作为学生策略
添加一个 on-policy 蒸馏 KL loss，把学生的 token 概率拉向教师

这样，模型不仅知道"整条轨迹的结果好不好"，还精确地知道"这一步应该怎么改"。而且这个局部修正信号和整体的 RL 目标是兼容的，不会顾此失彼。

为什么这很重要

这不是"更大力度的 RL"——而是更精准的 RL。过去提升 Agent 能力的主要路径是扩大训练规模和增加更复杂的 RL 环境。Composer 2.5 证明了一个新方向：信用分配精度本身可以成为关键杠杆。当你能告诉模型"这个工具调用错了"而不是"你这次跑的结果一般"，学习效率的提升是质变级别的。

定价与首周福利

Composer 2.5 提供两档定价：

| 模式 | 输入价格 | 输出价格 |

|------|---------|---------|

| Standard | $0.50/M tokens | $2.50/M tokens |

| Fast（默认） | $3.00/M tokens | $15.00/M tokens |

发布首周，使用量翻倍——相当于半价体验。

更大的棋局：与 SpaceXAI 联合训练下一代模型

Composer 2.5 不是终点。Cursor 同时宣布了与 SpaceXAI 的合作计划：基于 Colossus 2 的百万 H100 等效算力，从零训练一个显著更大的模型，总计算量是当前模型的 10 倍。Cursor 表示，结合双方的数据和训练技术，预期这将是一次"模型能力的重大飞跃"。

这透露了一个信号：定向文本反馈 RL 方法验证成功后，会被规模化应用到更大的模型上。方法论突破 + 算力扩展，两条腿走路。

对开发者的实际意义

如果你是 Cursor 用户，Composer 2.5 现在已经可用（Fast 模式默认启用）。升级后的体感差异主要体现在：

长时间、多步骤的代码修改任务中，Agent 更不容易中途"失焦"
复杂需求（比如"重构这个模块，同时保持 API 兼容，加上单元测试"）的完成率更高
Agent 的回复风格更自然，不会过度解释也不会草率跳过

如果你是 AI 编程工具的开发者或研究者，定向文本反馈 RL 是一个值得关注的新范式。它的核心洞察——在轨迹的精确位置提供文本形式的修正信号——不限于 Cursor 的场景，任何需要长轨迹决策的 Agent 训练都可能受益。

---

*基于 Cursor 官方博客和 HN 讨论整理。*

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。