Ornith-1.0:能自己"搭脚手架"的开源编程模型,9B 到 397B 全覆盖
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
6 月 29 日,新团队 DeepReinforce 发布了 Ornith-1.0——一个专为 Agent 编程场景设计的开源模型家族。它覆盖从 9B(边缘设备可跑)到 397B MoE(前沿级)四个规模,最大的版本在多个编程 benchmark 上超过了 Claude Opus 4.7。更重要的是,它带来了一种新的训练思路:让模型不仅学会写代码,还学会给自己设计解决问题的策略框架。
四个变体,从手机到数据中心
Ornith-1.0 提供四个版本:
- 9B Dense:可在消费级硬件甚至边缘设备上部署,适合对延迟敏感的场景
- 31B Dense:平衡性能和资源消耗
- 35B MoE:性价比明星,在部分 benchmark 上超过了比自己大 10 倍的 Qwen 3.5-397B
- 397B MoE:旗舰版,面向前沿级编程任务
所有变体基于 Gemma 4 和 Qwen 3.5 的预训练权重,采用 MIT 开源许可——这意味着你可以自由使用、修改和商用。
核心创新:模型自己给自己搭"脚手架"
传统训练 Agent 模型的方式是:人类先设计一套解决问题的"脚手架"(harness)——定义工具调用流程、错误处理逻辑、任务分解策略——然后让模型在这个框架内学习执行。问题是,脚手架是人类凭经验设计的,不一定是最优的,而且一套脚手架很难适配所有任务类型。
Ornith-1.0 的做法完全不同。它的训练分两个阶段循环进行:
- 提出脚手架:给定一个任务和之前用过的脚手架,模型先提出一个改进版脚手架
- 执行解决方案:基于新脚手架,模型生成解决方案
训练信号同时反馈给这两个阶段。也就是说,模型不仅因为"写对了代码"获得奖励,还因为"设计了更好的解题策略"获得奖励。多次迭代后,脚手架会自动进化,针对不同任务类型涌现出不同的策略——不需要人类手动设计。
这有点像一个程序员不仅学会了写代码,还学会了给自己制定工作计划。而且这个"计划能力"是通过实践自动优化的,不是靠读管理书。
防作弊:三层防线
让模型自己设计脚手架,自然会担心"作弊"——模型可能学会设计一个看似合理但实际上在绕过验证的脚手架。Ornith 用三层机制防御:
- 固定信任边界:运行环境、工具接口和测试隔离机制不可修改,模型只能调整内部策略逻辑
- 确定性监控:自动检测读取隐藏路径、修改验证脚本等违规行为,违规轨迹直接零分
- LLM 裁判否决:一个冻结的 LLM 裁判在验证通过后做最终审查,否决意图层面的作弊
跑分:超越同级开源模型,部分超过 Claude Opus 4.7
Ornith-1.0 的性能数据相当亮眼:
397B MoE 版本在 Terminal-Bench 2.1(命令行编程 benchmark)上得分 77.5,超过 Claude Opus 4.7 的 70.3;在 SWE-Bench Verified(真实 GitHub issue 修复)上得分 82.4,同样超过 Opus 4.7 的 80.8。它也超过了同级别开源模型 DeepSeek-V4-Pro 和 MiniMax M3。
35B MoE 版本表现尤为突出:Terminal-Bench 2.1 得分 64.4,远超 Qwen 3.5-397B 的 53.5——一个 35B 模型在特定任务上超过了 397B 模型,说明自脚手架训练方法确实能以小博大。
9B Dense 版本虽然最小,但 Terminal-Bench 2.1 得分 43.1,SWE-Bench Verified 69.4,超过了 Gemma 4-31B。在边缘设备上能达到这种水平,对本地部署用户来说很有吸引力。
不过需要指出,Claude Opus 4.8 在多数 benchmark 上仍然领先(Terminal-Bench 2.1 得分 85,SWE-Bench Verified 87.6),Ornith 还没有追上最顶尖的闭源模型。
对谁有用
- 想本地跑 Agent 的开发者:9B 版本在消费级 GPU 上就能跑,35B 版本需要更多资源但性价比极高
- Agent 框架开发者:自脚手架的训练思路可以复用到自己的模型训练中
- 预算有限的团队:MIT 许可,免费商用,35B 版本在很多场景下够用
- 研究者:训练方法(异步 RL + 自脚手架)对学术界有参考价值
需要注意的事
- DeepReinforce 是一个较新的团队,公开信息有限,长期支持能力还需要观察
- 不同模型在 benchmark 上使用的 harness 不同,严格的跨模型对比需要谨慎解读
- 397B MoE 推理需要大量 GPU 资源,实际部署成本不低
- 自脚手架方法目前只在编程领域验证,能否泛化到其他 Agent 场景还未知
- GLM-5.2-744B 在 Terminal-Bench 2.1 上得分 81.0,仍高于 Ornith-397B,Ornith 并非开源最强
---
基于 DeepReinforce 官方博客及 Simon Willison 博客整理。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。