阿里 Qwen 团队发布 FIPO：大模型推理深度翻倍，开源 RL 新突破

分类: 大语言模型 |发布于: 4/6/2026 |最后更新: 4/6/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

大模型的推理能力，正在从"能回答问题"向"能深度思考"演进。阿里 Qwen 研究团队最新发布的 FIPO（Future-KL Influenced Policy Optimization）算法，解决了一个关键瓶颈：现有强化学习训练对每个 token 平均分配奖励，导致推理链无法继续深入。

FIPO 的核心创新是根据每个 token 对后续推理的影响来分配奖励。结果是推理链长度从 4,000 tokens 提升到 10,000+ tokens，AIME 2024 数学竞赛准确率从 50% 提升到 56%，追平 OpenAI o1-mini。团队承诺开源整个训练系统。

问题：为什么推理链会"卡住"

过去一年，"推理模型"成为大模型竞争的新焦点。OpenAI 的 o 系列、DeepSeek 的 R1 系列，都在探索如何让模型进行更长时间的"思考"。

但这里有个技术瓶颈。

目前主流的强化学习方法（如 GRPO）使用结果奖励（outcome-based reward）。模型完成一道题后，如果答案正确，整条推理链获得一个正向奖励。这个奖励被均匀分配给推理链上的每个 token。

问题来了：一个关键的逻辑转折点，和一个普通的逗号，拿到的奖励权重是一样的。

这导致了什么后果？推理链增长到一定程度就"卡住"。模型学会了在一定长度内推理，但没有动力继续深入。因为无论多努力，奖励都一样。

阿里团队的论文把这个现象称为"推理瓶颈"（reasoning bottleneck）。他们发现，DAPO 训练的模型，推理链长度稳定在 4,000 tokens 左右，再难突破。

FIPO 的核心思路：从"均匀奖励"到"影响权重"

FIPO 的核心创新是打破"均匀分配"。

具体做法：用 future-KL 散度来计算每个 token 对后续轨迹的影响。如果一个 token 开启了更长的推理链、导致模型找到正确答案，它获得更高的奖励权重。如果一个 token 把模型带向死胡同，它被惩罚。

用更直白的话说：模型开始学会区分"关键转折点"和"填充内容"。

为什么不需要辅助价值模型

PPO 等传统方法需要单独训练一个价值网络（value model）。这个网络需要在长推理链数据上预训练，相当于引入一个"外部老师"。

问题在于：

价值网络需要额外 GPU 内存（大约翻倍）
价值网络本身需要预训练，引入外部知识
很难判断效果提升来自算法本身，还是来自预训练数据

FIPO 的做法更"纯粹"：直接从策略模型自己的概率分布推导 token 级信号。不需要额外网络，不需要预训练数据。

结果是训练管道更简单，GPU 内存需求更低，实验结果更容易复现和解释。

折扣因子和极值过滤

FIPO 还有两个关键设计：

折扣因子：近处的 token 权重更高。这符合直觉——刚做出的推理步骤，对当前决策影响更大。

极值过滤：移除策略漂移过大的 token。论文显示，没有这个过滤器，训练在第 70 步左右就会失稳，响应长度急剧下降。

实验结果：推理链翻倍，准确率追平 o1-mini

推理链长度

DAPO 基线模型：推理链长度约 4,000 tokens。

FIPO 训练后：超过 10,000 tokens。

不是"偶尔有长输出"，而是整个分布系统性上移。这意味着模型学会了在更长的推理链上稳定工作。

AIME 2024 数学竞赛

这是美国高中数学竞赛题，被广泛用于测试 AI 推理能力。

Qwen2.5-32B baseline：50% 准确率
FIPO 训练后：56%（峰值 58%）
对比：DeepSeek-R1-Zero-Math-32B 约 47%，OpenAI o1-mini 约 56%

FIPO 追平了 o1-mini。

推理能力的"涌现"

论文描述了一个有趣的发现：FIPO 训练的模型会经历四个阶段的"进化"：

阶段一：浅层规划模板，答案经常是幻觉
阶段二：线性推理链，找到第一个答案就停（DAPO 卡在这里）
阶段三：自发多方法验证
阶段四：系统性多轮验证，完整推导重算

阶段三和阶段四的出现，说明模型学会了"自我验证"——这是推理能力的关键标志。

值得注意的是，这些行为完全通过强化学习自发涌现，没有专门的监督或数据。

AIME 2025 验证

在更难的 AIME 2025 上，准确率从 38% 提升到 43%，证明方法不是"过拟合"特定年份的题目。

开源承诺：让更多团队能做"推理模型"

论文明确表示：整个训练系统将开源，基于 verl 框架构建，使用公开的 DAPO 数据集。

这为什么重要？

过去一年，OpenAI 和 DeepSeek 的 RL 推理技术长期闭源。独立研究者和中小团队只能从论文里"逆向工程"，很难直接复现。

FIPO 的开源承诺如果兑现，将成为进入"推理模型开发"的重要入口。

技术细节

基础模型：Qwen2.5-32B-Base（无推理链预训练）
训练数据：公开的 DAPO 数据集
无需更强教师模型的蒸馏

阿里的"矛盾"：研究开放 vs 产品封闭

FIPO 的开源承诺，和阿里最近的商业决策形成了有趣的张力。

就在 FIPO 论文发表前几天，阿里把 Qwen3.5-Omni 做成了闭源模型，打破了 Qwen 系列长期的开源传统。

研究团队在开源，产品团队在闭源。

背景是阿里的组织动荡：2026 年三位高管离职，包括 Qwen 技术负责人。CEO 吴泳铭亲自接管 AI 业务，组建新的"Token Hub"部门。

但这些内部变故，对全球 29 万 Qwen 开发者来说，影响是实实在在的。Hugging Face 上超过 11.3 万个社区变体，都建立在 Qwen 的开源根基上。

限制与局限

FIPO 的结果很亮眼，但几个限制也要看清：

评估范围有限：只在数学推理上测试。是否适用于代码、符号逻辑、常识推理等领域，尚不清楚。

推理成本更高：更长的推理链意味着更高的计算成本。论文没有量化这一权衡。

历史争议：Qwen 2.5 曾被质疑基准数据污染。自报告结果需要独立验证。

行业意义：打破 RL 技术垄断

过去一年，大模型推理能力的竞争，很大程度是 RL 技术的竞争。OpenAI 和 DeepSeek 的关键技术都藏在闭源系统里。

FIPO 提供了一个替代方案：完全开源的 token 级信用分配方法。

更关键的是，它证明了一个命题：仅靠算法改进，无需蒸馏、无需更强教师模型，就能激发推理能力。

这为"推理能力可以通过 RL 自发涌现"提供了更多证据，也为资源有限的研究团队提供了新的实验路径。

总结

FIPO 的核心贡献是证明了一件事：更精细的信用分配可以让模型突破推理瓶颈。

通过给每个 token 分配与其影响成正比的奖励，而不是均匀分配，模型学会了什么是"关键逻辑转折"。结果是推理链延长 2.5 倍，准确率提升 6 个百分点，追平 OpenAI o1-mini。

更重要的是，Qwen 团队承诺开源整个训练系统。如果兑现，这将成为独立研究者和中小团队进入"推理模型开发"的重要入口。

当然，限制也很明显：只在数学上验证，代码和其他推理领域效果未知；更长的推理链带来更高的计算成本。但这些"可预期的代价"，比起"RL 技术被巨头垄断"的现状，已经是进步。

---

参考来源：

arXiv 论文：https://arxiv.org/abs/2603.19835
WinBuzzer 报道：https://winbuzzer.com/2026/04/05/alibaba-qwen-fipo-algorithm-doubles-ai-reasoning-depth-xcxwbn/

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。