大语言模型

Ornith-1.0:能自己搭脚手架的开源编程模型,9B 到 397B 全覆盖

2026年6月30日4 次阅读
Ornith-1.0:能自己"搭脚手架"的开源编程模型,9B 到 397B 全覆盖

Ornith-1.0:能自己"搭脚手架"的开源编程模型,9B 到 397B 全覆盖

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6 月 29 日,新团队 DeepReinforce 发布了 Ornith-1.0——一个专为 Agent 编程场景设计的开源模型家族。它覆盖从 9B(边缘设备可跑)到 397B MoE(前沿级)四个规模,最大的版本在多个编程 benchmark 上超过了 Claude Opus 4.7。更重要的是,它带来了一种新的训练思路:让模型不仅学会写代码,还学会给自己设计解决问题的策略框架。

四个变体,从手机到数据中心

Ornith-1.0 提供四个版本:

  • 9B Dense:可在消费级硬件甚至边缘设备上部署,适合对延迟敏感的场景
  • 31B Dense:平衡性能和资源消耗
  • 35B MoE:性价比明星,在部分 benchmark 上超过了比自己大 10 倍的 Qwen 3.5-397B
  • 397B MoE:旗舰版,面向前沿级编程任务

所有变体基于 Gemma 4 和 Qwen 3.5 的预训练权重,采用 MIT 开源许可——这意味着你可以自由使用、修改和商用。

核心创新:模型自己给自己搭"脚手架"

传统训练 Agent 模型的方式是:人类先设计一套解决问题的"脚手架"(harness)——定义工具调用流程、错误处理逻辑、任务分解策略——然后让模型在这个框架内学习执行。问题是,脚手架是人类凭经验设计的,不一定是最优的,而且一套脚手架很难适配所有任务类型。

Ornith-1.0 的做法完全不同。它的训练分两个阶段循环进行:

  1. 提出脚手架:给定一个任务和之前用过的脚手架,模型先提出一个改进版脚手架
  2. 执行解决方案:基于新脚手架,模型生成解决方案

训练信号同时反馈给这两个阶段。也就是说,模型不仅因为"写对了代码"获得奖励,还因为"设计了更好的解题策略"获得奖励。多次迭代后,脚手架会自动进化,针对不同任务类型涌现出不同的策略——不需要人类手动设计。

这有点像一个程序员不仅学会了写代码,还学会了给自己制定工作计划。而且这个"计划能力"是通过实践自动优化的,不是靠读管理书。

防作弊:三层防线

让模型自己设计脚手架,自然会担心"作弊"——模型可能学会设计一个看似合理但实际上在绕过验证的脚手架。Ornith 用三层机制防御:

  1. 固定信任边界:运行环境、工具接口和测试隔离机制不可修改,模型只能调整内部策略逻辑
  2. 确定性监控:自动检测读取隐藏路径、修改验证脚本等违规行为,违规轨迹直接零分
  3. LLM 裁判否决:一个冻结的 LLM 裁判在验证通过后做最终审查,否决意图层面的作弊

跑分:超越同级开源模型,部分超过 Claude Opus 4.7

Ornith-1.0 的性能数据相当亮眼:

397B MoE 版本在 Terminal-Bench 2.1(命令行编程 benchmark)上得分 77.5,超过 Claude Opus 4.7 的 70.3;在 SWE-Bench Verified(真实 GitHub issue 修复)上得分 82.4,同样超过 Opus 4.7 的 80.8。它也超过了同级别开源模型 DeepSeek-V4-Pro 和 MiniMax M3。

35B MoE 版本表现尤为突出:Terminal-Bench 2.1 得分 64.4,远超 Qwen 3.5-397B 的 53.5——一个 35B 模型在特定任务上超过了 397B 模型,说明自脚手架训练方法确实能以小博大。

9B Dense 版本虽然最小,但 Terminal-Bench 2.1 得分 43.1,SWE-Bench Verified 69.4,超过了 Gemma 4-31B。在边缘设备上能达到这种水平,对本地部署用户来说很有吸引力。

不过需要指出,Claude Opus 4.8 在多数 benchmark 上仍然领先(Terminal-Bench 2.1 得分 85,SWE-Bench Verified 87.6),Ornith 还没有追上最顶尖的闭源模型。

对谁有用

  • 想本地跑 Agent 的开发者:9B 版本在消费级 GPU 上就能跑,35B 版本需要更多资源但性价比极高
  • Agent 框架开发者:自脚手架的训练思路可以复用到自己的模型训练中
  • 预算有限的团队:MIT 许可,免费商用,35B 版本在很多场景下够用
  • 研究者:训练方法(异步 RL + 自脚手架)对学术界有参考价值

需要注意的事

  • DeepReinforce 是一个较新的团队,公开信息有限,长期支持能力还需要观察
  • 不同模型在 benchmark 上使用的 harness 不同,严格的跨模型对比需要谨慎解读
  • 397B MoE 推理需要大量 GPU 资源,实际部署成本不低
  • 自脚手架方法目前只在编程领域验证,能否泛化到其他 Agent 场景还未知
  • GLM-5.2-744B 在 Terminal-Bench 2.1 上得分 81.0,仍高于 Ornith-397B,Ornith 并非开源最强

---

基于 DeepReinforce 官方博客及 Simon Willison 博客整理。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。