云知声发布 U2：首款面向完成任务的国产原生智能体大模型

分类: 生物模型 |发布于: 6/9/2026 |最后更新: 6/9/2026

云知声发布 U2：首款面向"完成任务"的国产原生智能体大模型

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

6 月 8 日，云知声正式发布 U2——新一代通用大语言模型，定位不是"更强对话"，而是原生智能体基座：能自主拆解并完成 100+ 步复杂工作流，从需求到交付全程闭环。

这不只是一次参数升级。它背后有两条明确的技术主张：高智能密度（用更少激活资源承载更强能力）和高 Token 价值（每次调用更接近最终交付结果）。大模型之家等媒体交叉印证了以下内容。

---

大模型追参数追了三年，该换个问题了

过去三年，国产大模型竞争的核心叙事一直是"追齐 GPT-4"——参数更大、榜单更高、评测更多。但一个根本问题始终悬而未决：能聊天 ≠ 能完成任务。

传统大模型在 benchmark 上很强，但在真实工作流里卡在哪？答案是长链路执行能力：一个需要 20 步操作的复杂任务，人类需要不断介入——补充信息、纠正方向、手动切换工具。大模型输出的质量很高，但仍然只是一个"高级搜索引擎"，不是能独立工作的 Agent。

U2 正是从这个痛点切入的。它在设计之初就明确：不是通用聊天模型，是面向任务执行的原生智能体大模型。

---

技术核心一：混合思考机制——不是二选一，而是动态切换

显式推理链（CoT）可读可校验，但 Token 消耗大；隐式推理高效，但过程不可见、不可干预。传统方案在这个矛盾里二选一，U2 选择了第三条路：根据任务阶段动态切换思考形态。

早期任务阶段，模型优先在隐空间进行高效探索，完成路径搜索、任务拆解、候选方案生成和执行规划。这个过程不解码为可见 Token，避免把中间思考过程变成算力浪费。

进入关键判断——比如涉及复杂约束、逻辑验证或结果收敛的节点时——模型自动切回显式推理链，通过可读可校验的思维过程完成逻辑校准和最终决策。

背后有两个关键技术机制：Bounded Latent Rollout（可控隐空间展开）控制隐式推理的范围和边界，防止模型"想太远"；Entropy-aware Switching（熵感知切换）在推理不确定性升高、路径可能发散时，及时拉回复杂的显式思维链。

简单说：模型自己判断什么时候该快、什么时候该慢，不需要人工干预切换。

---

技术核心二：Agent-Harness 协同训练——模型和框架一起进化

大多数 Agent 系统的现状是：模型是模型，Harness 是外部套壳。模型负责"想"，Harness 负责"做"，两者之间有割裂——执行框架不了解模型的真实能力边界，模型也不理解执行过程中产生的反馈信号。

U2 的 Agent-Harness 协同训练范式打破了这个闭环：

Harness 一侧：根据 U2 的模型特点持续优化任务执行链路，比如调整工具调用顺序、改进错误恢复策略；
模型一侧：真实任务中产生的高质量执行轨迹，反过来强化模型的规划、工具调用、过程纠错和结果验收能力。

两者在同一训练闭环中共同进化。这意味着 U2 不是一次训练定终身，而是随着在真实任务中跑得越多，能力边界越宽。

---

数据说话：多项评测进入第一梯队

技术主张需要数据支撑。U2 在以下权威评测中的表现：

| 评测 | 分数 | 参照对比 |

|------|------|----------|

| GPQA Diamond | 87.9 | 超过 GLM-5.1、DeepSeek-V4-Flash |

| SWE-Bench Verified | 75 | 软件工程端到端交付 |

| Claw-Eval（Agent 端到端，pass@3） | 76.9 | 超过 Hy3 preview、DeepSeek-V4-Flash、MiniMax M2.7 |

| GDPval（办公交付） | 72.9 | 复杂办公场景 |

效率指标：U2 采用稀疏 MoE 架构，总参数 2660 亿，激活参数约 100 亿，Token 消耗约为万亿参数 dense 模型的 25%。换句话说：参数量不是最大的，但每 Token 的"有效知识密度"被刻意提升。

---

三个真实场景，它和传统大模型有什么不同

场景一：复杂办公

传统大模型：给你一份会议记录，让你总结要点——一次输出，任务结束。

U2：从一份会议记录出发，自动识别待办事项、拆解为任务清单、分配优先级、生成跟进邮件、设置提醒——20 步以上，无需人工介入。

场景二：软件工程

传统大模型：帮你写一个函数或接口，调试问题需要人类主导。

U2：理解整个项目结构，保持接口和依赖一致性，在环境调试和 Debug 中持续推进直到完成交付。

场景三：多工具协同

U2 能理解 API 能力边界，组合调用不同工具（查文档、执行代码、调用外部服务），并根据外部反馈实时调整策略——不是机械执行预设流程，而是在执行中"思考下一步"。

---

对谁有用，为什么值得关注

对 Agent 开发者：U2 提供了第一个真正意义上的"原生 Agent 基座"。在此之前，开发者需要自己用大模型拼接工具链，模型只是"大脑"，执行全靠外部框架。U2 把执行能力内化到模型层，降低了构建可靠 Agent 的工程复杂度。

对企业采购者：Benchmarks 有数字，效率有量化指标（25% Token 消耗），不是"我们很强"的软文。云知声在医疗、保险、交通领域已有实际业务积累，U2 的商业化路径比纯研究型模型更清晰。

对行业观察者：U2 代表了一个信号——国产大模型的竞争从"追齐 OpenAI"转向"解决自己的问题"。当国外在刷 GPT-4.5 榜单时，U2 在解决 Agent 长链路执行的工程难题，两条路线正在分化。

---

> 📌 来源：本文基于 PRNewswire（2026-06-08）、大模型之家（2026-06-08）及其他媒体转述整理，综合云知声官方发布信息。

参考来源

https://www.prnewswire.com/news-releases/unisound-releases-u2-a-native-agentic-large-model-built-for-execution-capable-of-autonomously-decomposing-and-completing-100-steps-in-complex-real-world-workflows-302793573.html

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。