Thinking Machines Lab 发布首个模型:276B 参数全双工交互,延迟 0.40 秒击败 GPT-Realtime-2
Thinking Machines Lab 发布首个模型:276B 参数全双工交互,延迟 0.40 秒击败 GPT-Realtime-2
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab 于 5 月 11 日发布了首个自研模型 TML-Interaction-Small 的研究预览。这不是又一个聊天模型——它的核心卖点是"原生交互":模型从训练阶段就被设计为边听、边看、边想、边说,而不是等用户说完再回复。基于多家媒体转述整理。
什么是"交互模型"
传统语音 AI 的工作方式是轮次制:你说完,它听完,然后回复。Thinking Machines 提出的交互模型打破了这个模式——模型以 200 毫秒为单位持续处理音频、视频和文本输入,同时生成响应。技术上叫"全双工"(full-duplex),体验上更像打电话而不是发短信。
这意味着模型可以:
- 在你说话时就开始思考和准备回复
- 自然地处理打断、附和、背景噪音
- 不需要等待"轮次结束"信号
技术规格
TML-Interaction-Small 采用混合专家架构(MoE),总参数 276B,每次推理激活 12B 参数。关键指标:
| 指标 | TML-Interaction-Small | GPT-Realtime-2 | Gemini Live |
|------|----------------------|----------------|-------------|
| 响应延迟 | 0.40s | 1.18s(最低) | 0.57s |
| 交互质量(FD-bench v1.5) | 最高 | 较低 | 中等 |
在 FD-bench v1.5 基准测试中,模型在用户打断、附和、对他人说话、背景语音等多个场景均表现领先。同时在 Audio MultiChallenge(衡量智能和指令遵循能力)上也保持了强劲表现——这意味着它不是为了快而牺牲了聪明。
为什么这件事重要
Thinking Machines Lab 的故事本身就是 AI 行业的缩影:
- 2025 年 2 月创立,7 月完成 $20 亿种子轮(a16z 领投),估值 $120 亿——被广泛报道为史上最大种子轮
- 此前唯一产品是 2025 年 10 月上线的 Tinker(开源模型微调 API)
- 联合创始人 Barret Zoph 和 Luke Metz 于 2026 年 1 月回归 OpenAI;Andrew Tulloch 加入 Meta 超级智能实验室
- 2026 年 3 月与 NVIDIA 签署战略合作,部署至少 1GW 的 Vera Rubin 算力
在经历了联合创始人出走、$500 亿跟投轮未成的压力后,这个模型的发布是 Murati 对外界最有力的技术回应。
对行业的影响
这个发布直接挑战了 OpenAI 刚发布的 GPT-Realtime-2(5 月 7 日上线)。OpenAI 的方案是把 GPT-5 级推理能力塞进实时语音 API;Thinking Machines 的路线则是从头训练一个原生交互架构,认为"交互能力应该和智能一起扩展,而不是事后补丁"。
两种路线谁会赢还不确定,但竞争格局已经清晰:实时多模态交互正在成为下一个主战场。
现在能用吗
不能。目前是封闭研究预览,仅对少数研究者开放。Thinking Machines 表示更广泛的发布将在 2026 年晚些时候,没有具体日期,也没有商业定价。更大的模型版本也在计划中——当前的 Small 版本是能满足延迟要求的最小规格。
对普通用户来说,这暂时只是一个技术方向的信号。但对开发者和行业观察者而言,它标志着"AI 交互方式"这个问题正式从工程优化升级为架构级竞争。
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。