阿里 Qwen 团队发布 FIPO:大模型推理深度翻倍,开源 RL 新突破
阿里 Qwen 团队发布 FIPO:大模型推理深度翻倍,开源 RL 新突破
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
大模型的推理能力,正在从"能回答问题"向"能深度思考"演进。阿里 Qwen 研究团队最新发布的 FIPO(Future-KL Influenced Policy Optimization)算法,解决了一个关键瓶颈:现有强化学习训练对每个 token 平均分配奖励,导致推理链无法继续深入。
FIPO 的核心创新是根据每个 token 对后续推理的影响来分配奖励。结果是推理链长度从 4,000 tokens 提升到 10,000+ tokens,AIME 2024 数学竞赛准确率从 50% 提升到 56%,追平 OpenAI o1-mini。团队承诺开源整个训练系统。
问题:为什么推理链会"卡住"
过去一年,"推理模型"成为大模型竞争的新焦点。OpenAI 的 o 系列、DeepSeek 的 R1 系列,都在探索如何让模型进行更长时间的"思考"。
但这里有个技术瓶颈。
目前主流的强化学习方法(如 GRPO)使用结果奖励(outcome-based reward)。模型完成一道题后,如果答案正确,整条推理链获得一个正向奖励。这个奖励被均匀分配给推理链上的每个 token。
问题来了:一个关键的逻辑转折点,和一个普通的逗号,拿到的奖励权重是一样的。
这导致了什么后果?推理链增长到一定程度就"卡住"。模型学会了在一定长度内推理,但没有动力继续深入。因为无论多努力,奖励都一样。
阿里团队的论文把这个现象称为"推理瓶颈"(reasoning bottleneck)。他们发现,DAPO 训练的模型,推理链长度稳定在 4,000 tokens 左右,再难突破。
FIPO 的核心思路:从"均匀奖励"到"影响权重"
FIPO 的核心创新是打破"均匀分配"。
具体做法:用 future-KL 散度来计算每个 token 对后续轨迹的影响。如果一个 token 开启了更长的推理链、导致模型找到正确答案,它获得更高的奖励权重。如果一个 token 把模型带向死胡同,它被惩罚。
用更直白的话说:模型开始学会区分"关键转折点"和"填充内容"。
为什么不需要辅助价值模型
PPO 等传统方法需要单独训练一个价值网络(value model)。这个网络需要在长推理链数据上预训练,相当于引入一个"外部老师"。
问题在于:
- 价值网络需要额外 GPU 内存(大约翻倍)
- 价值网络本身需要预训练,引入外部知识
- 很难判断效果提升来自算法本身,还是来自预训练数据
FIPO 的做法更"纯粹":直接从策略模型自己的概率分布推导 token 级信号。不需要额外网络,不需要预训练数据。
结果是训练管道更简单,GPU 内存需求更低,实验结果更容易复现和解释。
折扣因子和极值过滤
FIPO 还有两个关键设计:
折扣因子:近处的 token 权重更高。这符合直觉——刚做出的推理步骤,对当前决策影响更大。
极值过滤:移除策略漂移过大的 token。论文显示,没有这个过滤器,训练在第 70 步左右就会失稳,响应长度急剧下降。
实验结果:推理链翻倍,准确率追平 o1-mini
推理链长度
DAPO 基线模型:推理链长度约 4,000 tokens。
FIPO 训练后:超过 10,000 tokens。
不是"偶尔有长输出",而是整个分布系统性上移。这意味着模型学会了在更长的推理链上稳定工作。
AIME 2024 数学竞赛
这是美国高中数学竞赛题,被广泛用于测试 AI 推理能力。
- Qwen2.5-32B baseline:50% 准确率
- FIPO 训练后:56%(峰值 58%)
- 对比:DeepSeek-R1-Zero-Math-32B 约 47%,OpenAI o1-mini 约 56%
FIPO 追平了 o1-mini。
推理能力的"涌现"
论文描述了一个有趣的发现:FIPO 训练的模型会经历四个阶段的"进化":
- 阶段一:浅层规划模板,答案经常是幻觉
- 阶段二:线性推理链,找到第一个答案就停(DAPO 卡在这里)
- 阶段三:自发多方法验证
- 阶段四:系统性多轮验证,完整推导重算
阶段三和阶段四的出现,说明模型学会了"自我验证"——这是推理能力的关键标志。
值得注意的是,这些行为完全通过强化学习自发涌现,没有专门的监督或数据。
AIME 2025 验证
在更难的 AIME 2025 上,准确率从 38% 提升到 43%,证明方法不是"过拟合"特定年份的题目。
开源承诺:让更多团队能做"推理模型"
论文明确表示:整个训练系统将开源,基于 verl 框架构建,使用公开的 DAPO 数据集。
这为什么重要?
过去一年,OpenAI 和 DeepSeek 的 RL 推理技术长期闭源。独立研究者和中小团队只能从论文里"逆向工程",很难直接复现。
FIPO 的开源承诺如果兑现,将成为进入"推理模型开发"的重要入口。
技术细节
- 基础模型:Qwen2.5-32B-Base(无推理链预训练)
- 训练数据:公开的 DAPO 数据集
- 无需更强教师模型的蒸馏
阿里的"矛盾":研究开放 vs 产品封闭
FIPO 的开源承诺,和阿里最近的商业决策形成了有趣的张力。
就在 FIPO 论文发表前几天,阿里把 Qwen3.5-Omni 做成了闭源模型,打破了 Qwen 系列长期的开源传统。
研究团队在开源,产品团队在闭源。
背景是阿里的组织动荡:2026 年三位高管离职,包括 Qwen 技术负责人。CEO 吴泳铭亲自接管 AI 业务,组建新的"Token Hub"部门。
但这些内部变故,对全球 29 万 Qwen 开发者来说,影响是实实在在的。Hugging Face 上超过 11.3 万个社区变体,都建立在 Qwen 的开源根基上。
限制与局限
FIPO 的结果很亮眼,但几个限制也要看清:
评估范围有限:只在数学推理上测试。是否适用于代码、符号逻辑、常识推理等领域,尚不清楚。
推理成本更高:更长的推理链意味着更高的计算成本。论文没有量化这一权衡。
历史争议:Qwen 2.5 曾被质疑基准数据污染。自报告结果需要独立验证。
行业意义:打破 RL 技术垄断
过去一年,大模型推理能力的竞争,很大程度是 RL 技术的竞争。OpenAI 和 DeepSeek 的关键技术都藏在闭源系统里。
FIPO 提供了一个替代方案:完全开源的 token 级信用分配方法。
更关键的是,它证明了一个命题:仅靠算法改进,无需蒸馏、无需更强教师模型,就能激发推理能力。
这为"推理能力可以通过 RL 自发涌现"提供了更多证据,也为资源有限的研究团队提供了新的实验路径。
总结
FIPO 的核心贡献是证明了一件事:更精细的信用分配可以让模型突破推理瓶颈。
通过给每个 token 分配与其影响成正比的奖励,而不是均匀分配,模型学会了什么是"关键逻辑转折"。结果是推理链延长 2.5 倍,准确率提升 6 个百分点,追平 OpenAI o1-mini。
更重要的是,Qwen 团队承诺开源整个训练系统。如果兑现,这将成为独立研究者和中小团队进入"推理模型开发"的重要入口。
当然,限制也很明显:只在数学上验证,代码和其他推理领域效果未知;更长的推理链带来更高的计算成本。但这些"可预期的代价",比起"RL 技术被巨头垄断"的现状,已经是进步。
---
参考来源:
- arXiv 论文:https://arxiv.org/abs/2603.19835
- WinBuzzer 报道:https://winbuzzer.com/2026/04/05/alibaba-qwen-fipo-algorithm-doubles-ai-reasoning-depth-xcxwbn/
参考来源
- https://arxiv.org/abs/2603.19835
- https://winbuzzer.com/2026/04/05/alibaba-qwen-fipo-algorithm-doubles-ai-reasoning-depth-xcxwbn/
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。