云知声发布 U2:首款面向完成任务的国产原生智能体大模型

分类: 生物模型 |发布于: 6/9/2026 |最后更新: 6/9/2026
云知声发布 U2:首款面向"完成任务"的国产原生智能体大模型

云知声发布 U2:首款面向"完成任务"的国产原生智能体大模型

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

6 月 8 日,云知声正式发布 U2——新一代通用大语言模型,定位不是"更强对话",而是原生智能体基座:能自主拆解并完成 100+ 步复杂工作流,从需求到交付全程闭环。

这不只是一次参数升级。它背后有两条明确的技术主张:高智能密度(用更少激活资源承载更强能力)和高 Token 价值(每次调用更接近最终交付结果)。大模型之家等媒体交叉印证了以下内容。

---

大模型追参数追了三年,该换个问题了

过去三年,国产大模型竞争的核心叙事一直是"追齐 GPT-4"——参数更大、榜单更高、评测更多。但一个根本问题始终悬而未决:能聊天 ≠ 能完成任务。

传统大模型在 benchmark 上很强,但在真实工作流里卡在哪?答案是长链路执行能力:一个需要 20 步操作的复杂任务,人类需要不断介入——补充信息、纠正方向、手动切换工具。大模型输出的质量很高,但仍然只是一个"高级搜索引擎",不是能独立工作的 Agent。

U2 正是从这个痛点切入的。它在设计之初就明确:不是通用聊天模型,是面向任务执行的原生智能体大模型。

---

技术核心一:混合思考机制——不是二选一,而是动态切换

显式推理链(CoT)可读可校验,但 Token 消耗大;隐式推理高效,但过程不可见、不可干预。传统方案在这个矛盾里二选一,U2 选择了第三条路:根据任务阶段动态切换思考形态。

早期任务阶段,模型优先在隐空间进行高效探索,完成路径搜索、任务拆解、候选方案生成和执行规划。这个过程不解码为可见 Token,避免把中间思考过程变成算力浪费。

进入关键判断——比如涉及复杂约束、逻辑验证或结果收敛的节点时——模型自动切回显式推理链,通过可读可校验的思维过程完成逻辑校准和最终决策。

背后有两个关键技术机制:Bounded Latent Rollout(可控隐空间展开)控制隐式推理的范围和边界,防止模型"想太远";Entropy-aware Switching(熵感知切换)在推理不确定性升高、路径可能发散时,及时拉回复杂的显式思维链。

简单说:模型自己判断什么时候该快、什么时候该慢,不需要人工干预切换。

---

技术核心二:Agent-Harness 协同训练——模型和框架一起进化

大多数 Agent 系统的现状是:模型是模型,Harness 是外部套壳。模型负责"想",Harness 负责"做",两者之间有割裂——执行框架不了解模型的真实能力边界,模型也不理解执行过程中产生的反馈信号。

U2 的 Agent-Harness 协同训练范式打破了这个闭环:

  • Harness 一侧:根据 U2 的模型特点持续优化任务执行链路,比如调整工具调用顺序、改进错误恢复策略;
  • 模型一侧:真实任务中产生的高质量执行轨迹,反过来强化模型的规划、工具调用、过程纠错和结果验收能力。

两者在同一训练闭环中共同进化。这意味着 U2 不是一次训练定终身,而是随着在真实任务中跑得越多,能力边界越宽。

---

数据说话:多项评测进入第一梯队

技术主张需要数据支撑。U2 在以下权威评测中的表现:

| 评测 | 分数 | 参照对比 |

|------|------|----------|

| GPQA Diamond | 87.9 | 超过 GLM-5.1、DeepSeek-V4-Flash |

| SWE-Bench Verified | 75 | 软件工程端到端交付 |

| Claw-Eval(Agent 端到端,pass@3) | 76.9 | 超过 Hy3 preview、DeepSeek-V4-Flash、MiniMax M2.7 |

| GDPval(办公交付) | 72.9 | 复杂办公场景 |

效率指标:U2 采用稀疏 MoE 架构,总参数 2660 亿,激活参数约 100 亿,Token 消耗约为万亿参数 dense 模型的 25%。换句话说:参数量不是最大的,但每 Token 的"有效知识密度"被刻意提升。

---

三个真实场景,它和传统大模型有什么不同

场景一:复杂办公

传统大模型:给你一份会议记录,让你总结要点——一次输出,任务结束。

U2:从一份会议记录出发,自动识别待办事项、拆解为任务清单、分配优先级、生成跟进邮件、设置提醒——20 步以上,无需人工介入。

场景二:软件工程

传统大模型:帮你写一个函数或接口,调试问题需要人类主导。

U2:理解整个项目结构,保持接口和依赖一致性,在环境调试和 Debug 中持续推进直到完成交付。

场景三:多工具协同

U2 能理解 API 能力边界,组合调用不同工具(查文档、执行代码、调用外部服务),并根据外部反馈实时调整策略——不是机械执行预设流程,而是在执行中"思考下一步"。

---

对谁有用,为什么值得关注

对 Agent 开发者:U2 提供了第一个真正意义上的"原生 Agent 基座"。在此之前,开发者需要自己用大模型拼接工具链,模型只是"大脑",执行全靠外部框架。U2 把执行能力内化到模型层,降低了构建可靠 Agent 的工程复杂度。

对企业采购者:Benchmarks 有数字,效率有量化指标(25% Token 消耗),不是"我们很强"的软文。云知声在医疗、保险、交通领域已有实际业务积累,U2 的商业化路径比纯研究型模型更清晰。

对行业观察者:U2 代表了一个信号——国产大模型的竞争从"追齐 OpenAI"转向"解决自己的问题"。当国外在刷 GPT-4.5 榜单时,U2 在解决 Agent 长链路执行的工程难题,两条路线正在分化。

---

> 📌 来源:本文基于 PRNewswire(2026-06-08)、大模型之家(2026-06-08)及其他媒体转述整理,综合云知声官方发布信息。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。