draft.md
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
Harness-1 发布:开源搜索智能体超越 GPT-5.4,Apache 2.0 可商用
6月10日,伊利诺伊大学香槟分校(UIUC)、加州大学伯克利分校(UC Berkeley)联合向量数据库平台 Chroma 发布了一款名为 Harness-1 的开源搜索智能体。该模型仅有 200 亿参数,在 8 个复杂检索基准测试中平均达到 73% 的准确率,超过了 GPT-5.4(70.9%),也超过了阿里巴巴的开源模型 Tongyi DeepResearch 30B。目前模型、代码和权重已在 Hugging Face 开源,采用 Apache 2.0 许可证,可直接用于商业产品。
从"全包策略"到"状态外部化"
传统 AI 搜索智能体通常采用端到端设计:模型在不断增长的对话记录上做策略决策,既要判断"搜索什么关键词",还要记住"已看过哪些文档""哪些线索还未验证""当前任务还剩几个约束"这类"记账"工作。Harness-1 团队认为这种设计把太多routine(重复性)状态管理塞进了策略,导致模型既要学语义决策,又要学可由环境可靠维护的 bookkeeping,两头分散,效率受限。
Harness-1 的核心创新是状态外部化(State-Externalizing Harness):将工作记忆全部交给环境端 harness 处理,策略层只保留纯语义决策——搜什么、留哪个文档、验证什么claim、何时停止。
Harness 维护的环境端状态包括:
- 候选池(candidate pool):收集所有可能的检索结果
- 精选集(curated set):按重要性打标签后的核心文档
- 紧凑证据链接:每条证据的来源索引
- 验证记录:哪些 claim 已检查过、结果如何
- 压缩去重后的观察结果:避免重复处理同一内容
- 预算感知的上下文渲染:在有限上下文窗口内优先放入最重要的信息
这种设计让 200 亿参数的小模型能专注于语义判断,而不是被 bookkeeping 拖累。
性能对比
Harness-1 在以下 8 个检索基准上测试,涵盖网页搜索、金融 SEC 文件、专利数据库、多跳问答:
| 模型 | 平均准确率 |
|------|-----------|
| Harness-1 | 73.0% |
| GPT-5.4 | 70.9% |
| Tongyi DeepResearch 30B | 61.6% |
| Sonnet-4.6 | ~70%(略低于 Harness-1) |
| Kimi-K2.5 | ~70%(略低于 Harness-1) |
结果:Harness-1 不仅大幅超越上一代开源检索智能体,也超过了多个被认为参数规模更大的商业模型。唯一超越 Harness-1 的是某个前沿前沿模型(未在表格中披露),但该模型参数规模远超 200 亿。
开源许可与可用性
Harness-1 的模型权重、训练代码和推理代码均已在 Hugging Face 开源,采用 Apache 2.0 许可证,无使用限制,可直接商用。
底层模型使用了 OpenAI 的开源模型 gpt-oss-20B,训练和推理则借助了 Thinking Machines 的 Tinker API——一个分布式、基于 Web 的 AI 模型训练和微调服务,Harness-1 也是 Tinker 能力的一次实际验证。
arXiv 论文地址:https://arxiv.org/abs/2606.02373
Hugging Face 地址:https://huggingface.co/pat-jj/harness-1
适用场景
- 企业级检索:需要处理大量内部文档、金融数据、专利库的商业搜索场景
- 研究辅助:多跳问答、跨文档推理,如法律、学术、市场分析
- 开发者集成:Apache 2.0 许可使其可以直接嵌入 SaaS 产品,无需商业授权
Harness-1 的发布表明,在检索任务上,开源小模型通过更好的架构设计可以追上甚至超越超大商业模型。这也呼应了近期 AI 领域的一个趋势:模型参数规模并非唯一壁垒,训练范式和数据设计同样关键。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。