Harness-1 发布：开源搜索智能体超越 GPT-5.4，Apache 2.0 可商用

draft.md

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

Harness-1 发布：开源搜索智能体超越 GPT-5.4，Apache 2.0 可商用

6月10日，伊利诺伊大学香槟分校（UIUC）、加州大学伯克利分校（UC Berkeley）联合向量数据库平台 Chroma 发布了一款名为 Harness-1 的开源搜索智能体。该模型仅有 200 亿参数，在 8 个复杂检索基准测试中平均达到 73% 的准确率，超过了 GPT-5.4（70.9%），也超过了阿里巴巴的开源模型 Tongyi DeepResearch 30B。目前模型、代码和权重已在 Hugging Face 开源，采用 Apache 2.0 许可证，可直接用于商业产品。

从"全包策略"到"状态外部化"

传统 AI 搜索智能体通常采用端到端设计：模型在不断增长的对话记录上做策略决策，既要判断"搜索什么关键词"，还要记住"已看过哪些文档""哪些线索还未验证""当前任务还剩几个约束"这类"记账"工作。Harness-1 团队认为这种设计把太多routine（重复性）状态管理塞进了策略，导致模型既要学语义决策，又要学可由环境可靠维护的 bookkeeping，两头分散，效率受限。

Harness-1 的核心创新是状态外部化（State-Externalizing Harness）：将工作记忆全部交给环境端 harness 处理，策略层只保留纯语义决策——搜什么、留哪个文档、验证什么claim、何时停止。

Harness 维护的环境端状态包括：

候选池（candidate pool）：收集所有可能的检索结果
精选集（curated set）：按重要性打标签后的核心文档
紧凑证据链接：每条证据的来源索引
验证记录：哪些 claim 已检查过、结果如何
压缩去重后的观察结果：避免重复处理同一内容
预算感知的上下文渲染：在有限上下文窗口内优先放入最重要的信息

这种设计让 200 亿参数的小模型能专注于语义判断，而不是被 bookkeeping 拖累。

性能对比

Harness-1 在以下 8 个检索基准上测试，涵盖网页搜索、金融 SEC 文件、专利数据库、多跳问答：

| 模型 | 平均准确率 |

|------|-----------|

| Harness-1 | 73.0% |

| GPT-5.4 | 70.9% |

| Tongyi DeepResearch 30B | 61.6% |

| Sonnet-4.6 | ~70%（略低于 Harness-1） |

| Kimi-K2.5 | ~70%（略低于 Harness-1） |

结果：Harness-1 不仅大幅超越上一代开源检索智能体，也超过了多个被认为参数规模更大的商业模型。唯一超越 Harness-1 的是某个前沿前沿模型（未在表格中披露），但该模型参数规模远超 200 亿。

开源许可与可用性

Harness-1 的模型权重、训练代码和推理代码均已在 Hugging Face 开源，采用 Apache 2.0 许可证，无使用限制，可直接商用。

底层模型使用了 OpenAI 的开源模型 gpt-oss-20B，训练和推理则借助了 Thinking Machines 的 Tinker API——一个分布式、基于 Web 的 AI 模型训练和微调服务，Harness-1 也是 Tinker 能力的一次实际验证。

arXiv 论文地址：https://arxiv.org/abs/2606.02373

Hugging Face 地址：https://huggingface.co/pat-jj/harness-1

适用场景

企业级检索：需要处理大量内部文档、金融数据、专利库的商业搜索场景
研究辅助：多跳问答、跨文档推理，如法律、学术、市场分析
开发者集成：Apache 2.0 许可使其可以直接嵌入 SaaS 产品，无需商业授权

Harness-1 的发布表明，在检索任务上，开源小模型通过更好的架构设计可以追上甚至超越超大商业模型。这也呼应了近期 AI 领域的一个趋势：模型参数规模并非唯一壁垒，训练范式和数据设计同样关键。

参考来源

https://venturebeat.com/orchestration/researchers-trained-an-open-source-ai-search-agent-harness-1-that-outperforms-gpt-5-4-on-recalling-relevant-information

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。