阿里 Qwen 团队发布 FIPO:大模型推理深度翻倍,开源 RL 新突破

分类: 大语言模型 |发布于: 4/6/2026 |最后更新: 4/6/2026
阿里 Qwen 团队发布 FIPO:大模型推理深度翻倍,开源 RL 新突破

阿里 Qwen 团队发布 FIPO:大模型推理深度翻倍,开源 RL 新突破

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

大模型的推理能力,正在从"能回答问题"向"能深度思考"演进。阿里 Qwen 研究团队最新发布的 FIPO(Future-KL Influenced Policy Optimization)算法,解决了一个关键瓶颈:现有强化学习训练对每个 token 平均分配奖励,导致推理链无法继续深入。

FIPO 的核心创新是根据每个 token 对后续推理的影响来分配奖励。结果是推理链长度从 4,000 tokens 提升到 10,000+ tokens,AIME 2024 数学竞赛准确率从 50% 提升到 56%,追平 OpenAI o1-mini。团队承诺开源整个训练系统。

问题:为什么推理链会"卡住"

过去一年,"推理模型"成为大模型竞争的新焦点。OpenAI 的 o 系列、DeepSeek 的 R1 系列,都在探索如何让模型进行更长时间的"思考"。

但这里有个技术瓶颈。

目前主流的强化学习方法(如 GRPO)使用结果奖励(outcome-based reward)。模型完成一道题后,如果答案正确,整条推理链获得一个正向奖励。这个奖励被均匀分配给推理链上的每个 token。

问题来了:一个关键的逻辑转折点,和一个普通的逗号,拿到的奖励权重是一样的。

这导致了什么后果?推理链增长到一定程度就"卡住"。模型学会了在一定长度内推理,但没有动力继续深入。因为无论多努力,奖励都一样。

阿里团队的论文把这个现象称为"推理瓶颈"(reasoning bottleneck)。他们发现,DAPO 训练的模型,推理链长度稳定在 4,000 tokens 左右,再难突破。

FIPO 的核心思路:从"均匀奖励"到"影响权重"

FIPO 的核心创新是打破"均匀分配"。

具体做法:用 future-KL 散度来计算每个 token 对后续轨迹的影响。如果一个 token 开启了更长的推理链、导致模型找到正确答案,它获得更高的奖励权重。如果一个 token 把模型带向死胡同,它被惩罚。

用更直白的话说:模型开始学会区分"关键转折点"和"填充内容"。

为什么不需要辅助价值模型

PPO 等传统方法需要单独训练一个价值网络(value model)。这个网络需要在长推理链数据上预训练,相当于引入一个"外部老师"。

问题在于:

  1. 价值网络需要额外 GPU 内存(大约翻倍)
  2. 价值网络本身需要预训练,引入外部知识
  3. 很难判断效果提升来自算法本身,还是来自预训练数据

FIPO 的做法更"纯粹":直接从策略模型自己的概率分布推导 token 级信号。不需要额外网络,不需要预训练数据。

结果是训练管道更简单,GPU 内存需求更低,实验结果更容易复现和解释。

折扣因子和极值过滤

FIPO 还有两个关键设计:

折扣因子:近处的 token 权重更高。这符合直觉——刚做出的推理步骤,对当前决策影响更大。

极值过滤:移除策略漂移过大的 token。论文显示,没有这个过滤器,训练在第 70 步左右就会失稳,响应长度急剧下降。

实验结果:推理链翻倍,准确率追平 o1-mini

推理链长度

DAPO 基线模型:推理链长度约 4,000 tokens。

FIPO 训练后:超过 10,000 tokens。

不是"偶尔有长输出",而是整个分布系统性上移。这意味着模型学会了在更长的推理链上稳定工作。

AIME 2024 数学竞赛

这是美国高中数学竞赛题,被广泛用于测试 AI 推理能力。

  • Qwen2.5-32B baseline:50% 准确率
  • FIPO 训练后:56%(峰值 58%)
  • 对比:DeepSeek-R1-Zero-Math-32B 约 47%,OpenAI o1-mini 约 56%

FIPO 追平了 o1-mini。

推理能力的"涌现"

论文描述了一个有趣的发现:FIPO 训练的模型会经历四个阶段的"进化":

  1. 阶段一:浅层规划模板,答案经常是幻觉
  2. 阶段二:线性推理链,找到第一个答案就停(DAPO 卡在这里)
  3. 阶段三:自发多方法验证
  4. 阶段四:系统性多轮验证,完整推导重算

阶段三和阶段四的出现,说明模型学会了"自我验证"——这是推理能力的关键标志。

值得注意的是,这些行为完全通过强化学习自发涌现,没有专门的监督或数据。

AIME 2025 验证

在更难的 AIME 2025 上,准确率从 38% 提升到 43%,证明方法不是"过拟合"特定年份的题目。

开源承诺:让更多团队能做"推理模型"

论文明确表示:整个训练系统将开源,基于 verl 框架构建,使用公开的 DAPO 数据集。

这为什么重要?

过去一年,OpenAI 和 DeepSeek 的 RL 推理技术长期闭源。独立研究者和中小团队只能从论文里"逆向工程",很难直接复现。

FIPO 的开源承诺如果兑现,将成为进入"推理模型开发"的重要入口。

技术细节

  • 基础模型:Qwen2.5-32B-Base(无推理链预训练)
  • 训练数据:公开的 DAPO 数据集
  • 无需更强教师模型的蒸馏

阿里的"矛盾":研究开放 vs 产品封闭

FIPO 的开源承诺,和阿里最近的商业决策形成了有趣的张力。

就在 FIPO 论文发表前几天,阿里把 Qwen3.5-Omni 做成了闭源模型,打破了 Qwen 系列长期的开源传统。

研究团队在开源,产品团队在闭源。

背景是阿里的组织动荡:2026 年三位高管离职,包括 Qwen 技术负责人。CEO 吴泳铭亲自接管 AI 业务,组建新的"Token Hub"部门。

但这些内部变故,对全球 29 万 Qwen 开发者来说,影响是实实在在的。Hugging Face 上超过 11.3 万个社区变体,都建立在 Qwen 的开源根基上。

限制与局限

FIPO 的结果很亮眼,但几个限制也要看清:

评估范围有限:只在数学推理上测试。是否适用于代码、符号逻辑、常识推理等领域,尚不清楚。

推理成本更高:更长的推理链意味着更高的计算成本。论文没有量化这一权衡。

历史争议:Qwen 2.5 曾被质疑基准数据污染。自报告结果需要独立验证。

行业意义:打破 RL 技术垄断

过去一年,大模型推理能力的竞争,很大程度是 RL 技术的竞争。OpenAI 和 DeepSeek 的关键技术都藏在闭源系统里。

FIPO 提供了一个替代方案:完全开源的 token 级信用分配方法。

更关键的是,它证明了一个命题:仅靠算法改进,无需蒸馏、无需更强教师模型,就能激发推理能力

这为"推理能力可以通过 RL 自发涌现"提供了更多证据,也为资源有限的研究团队提供了新的实验路径。

总结

FIPO 的核心贡献是证明了一件事:更精细的信用分配可以让模型突破推理瓶颈。

通过给每个 token 分配与其影响成正比的奖励,而不是均匀分配,模型学会了什么是"关键逻辑转折"。结果是推理链延长 2.5 倍,准确率提升 6 个百分点,追平 OpenAI o1-mini。

更重要的是,Qwen 团队承诺开源整个训练系统。如果兑现,这将成为独立研究者和中小团队进入"推理模型开发"的重要入口。

当然,限制也很明显:只在数学上验证,代码和其他推理领域效果未知;更长的推理链带来更高的计算成本。但这些"可预期的代价",比起"RL 技术被巨头垄断"的现状,已经是进步。

---

参考来源

  • arXiv 论文:https://arxiv.org/abs/2603.19835
  • WinBuzzer 报道:https://winbuzzer.com/2026/04/05/alibaba-qwen-fipo-algorithm-doubles-ai-reasoning-depth-xcxwbn/

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。