Ornith-1.0：能自己搭脚手架的开源编程模型，9B 到 397B 全覆盖

Ornith-1.0：能自己"搭脚手架"的开源编程模型，9B 到 397B 全覆盖

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6 月 29 日，新团队 DeepReinforce 发布了 Ornith-1.0——一个专为 Agent 编程场景设计的开源模型家族。它覆盖从 9B（边缘设备可跑）到 397B MoE（前沿级）四个规模，最大的版本在多个编程 benchmark 上超过了 Claude Opus 4.7。更重要的是，它带来了一种新的训练思路：让模型不仅学会写代码，还学会给自己设计解决问题的策略框架。

四个变体，从手机到数据中心

Ornith-1.0 提供四个版本：

9B Dense：可在消费级硬件甚至边缘设备上部署，适合对延迟敏感的场景
31B Dense：平衡性能和资源消耗
35B MoE：性价比明星，在部分 benchmark 上超过了比自己大 10 倍的 Qwen 3.5-397B
397B MoE：旗舰版，面向前沿级编程任务

所有变体基于 Gemma 4 和 Qwen 3.5 的预训练权重，采用 MIT 开源许可——这意味着你可以自由使用、修改和商用。

核心创新：模型自己给自己搭"脚手架"

传统训练 Agent 模型的方式是：人类先设计一套解决问题的"脚手架"（harness）——定义工具调用流程、错误处理逻辑、任务分解策略——然后让模型在这个框架内学习执行。问题是，脚手架是人类凭经验设计的，不一定是最优的，而且一套脚手架很难适配所有任务类型。

Ornith-1.0 的做法完全不同。它的训练分两个阶段循环进行：

提出脚手架：给定一个任务和之前用过的脚手架，模型先提出一个改进版脚手架
执行解决方案：基于新脚手架，模型生成解决方案

训练信号同时反馈给这两个阶段。也就是说，模型不仅因为"写对了代码"获得奖励，还因为"设计了更好的解题策略"获得奖励。多次迭代后，脚手架会自动进化，针对不同任务类型涌现出不同的策略——不需要人类手动设计。

这有点像一个程序员不仅学会了写代码，还学会了给自己制定工作计划。而且这个"计划能力"是通过实践自动优化的，不是靠读管理书。

防作弊：三层防线

让模型自己设计脚手架，自然会担心"作弊"——模型可能学会设计一个看似合理但实际上在绕过验证的脚手架。Ornith 用三层机制防御：

固定信任边界：运行环境、工具接口和测试隔离机制不可修改，模型只能调整内部策略逻辑
确定性监控：自动检测读取隐藏路径、修改验证脚本等违规行为，违规轨迹直接零分
LLM 裁判否决：一个冻结的 LLM 裁判在验证通过后做最终审查，否决意图层面的作弊

跑分：超越同级开源模型，部分超过 Claude Opus 4.7

Ornith-1.0 的性能数据相当亮眼：

397B MoE 版本在 Terminal-Bench 2.1（命令行编程 benchmark）上得分 77.5，超过 Claude Opus 4.7 的 70.3；在 SWE-Bench Verified（真实 GitHub issue 修复）上得分 82.4，同样超过 Opus 4.7 的 80.8。它也超过了同级别开源模型 DeepSeek-V4-Pro 和 MiniMax M3。

35B MoE 版本表现尤为突出：Terminal-Bench 2.1 得分 64.4，远超 Qwen 3.5-397B 的 53.5——一个 35B 模型在特定任务上超过了 397B 模型，说明自脚手架训练方法确实能以小博大。

9B Dense 版本虽然最小，但 Terminal-Bench 2.1 得分 43.1，SWE-Bench Verified 69.4，超过了 Gemma 4-31B。在边缘设备上能达到这种水平，对本地部署用户来说很有吸引力。

不过需要指出，Claude Opus 4.8 在多数 benchmark 上仍然领先（Terminal-Bench 2.1 得分 85，SWE-Bench Verified 87.6），Ornith 还没有追上最顶尖的闭源模型。

对谁有用

想本地跑 Agent 的开发者：9B 版本在消费级 GPU 上就能跑，35B 版本需要更多资源但性价比极高
Agent 框架开发者：自脚手架的训练思路可以复用到自己的模型训练中
预算有限的团队：MIT 许可，免费商用，35B 版本在很多场景下够用
研究者：训练方法（异步 RL + 自脚手架）对学术界有参考价值

需要注意的事

DeepReinforce 是一个较新的团队，公开信息有限，长期支持能力还需要观察
不同模型在 benchmark 上使用的 harness 不同，严格的跨模型对比需要谨慎解读
397B MoE 推理需要大量 GPU 资源，实际部署成本不低
自脚手架方法目前只在编程领域验证，能否泛化到其他 Agent 场景还未知
GLM-5.2-744B 在 Terminal-Bench 2.1 上得分 81.0，仍高于 Ornith-397B，Ornith 并非开源最强

---

基于 DeepReinforce 官方博客及 Simon Willison 博客整理。

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。