Thinking Machines Lab 发布首个模型：276B 参数全双工交互，延迟 0.40 秒击败 GPT-Realtime-2

分类: 生图平面类 |发布于: 5/18/2026 |最后更新: 5/18/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

前 OpenAI CTO Mira Murati 创办的 Thinking Machines Lab 于 5 月 11 日发布了首个自研模型 TML-Interaction-Small 的研究预览。这不是又一个聊天模型——它的核心卖点是"原生交互"：模型从训练阶段就被设计为边听、边看、边想、边说，而不是等用户说完再回复。基于多家媒体转述整理。

什么是"交互模型"

传统语音 AI 的工作方式是轮次制：你说完，它听完，然后回复。Thinking Machines 提出的交互模型打破了这个模式——模型以 200 毫秒为单位持续处理音频、视频和文本输入，同时生成响应。技术上叫"全双工"（full-duplex），体验上更像打电话而不是发短信。

这意味着模型可以：

在你说话时就开始思考和准备回复
自然地处理打断、附和、背景噪音
不需要等待"轮次结束"信号

技术规格

TML-Interaction-Small 采用混合专家架构（MoE），总参数 276B，每次推理激活 12B 参数。关键指标：

|------|----------------------|----------------|-------------|

| 响应延迟 | 0.40s | 1.18s（最低） | 0.57s |

| 交互质量（FD-bench v1.5） | 最高 | 较低 | 中等 |

在 FD-bench v1.5 基准测试中，模型在用户打断、附和、对他人说话、背景语音等多个场景均表现领先。同时在 Audio MultiChallenge（衡量智能和指令遵循能力）上也保持了强劲表现——这意味着它不是为了快而牺牲了聪明。

为什么这件事重要

Thinking Machines Lab 的故事本身就是 AI 行业的缩影：

2025 年 2 月创立，7 月完成 $20 亿种子轮（a16z 领投），估值 $120 亿——被广泛报道为史上最大种子轮
此前唯一产品是 2025 年 10 月上线的 Tinker（开源模型微调 API）
联合创始人 Barret Zoph 和 Luke Metz 于 2026 年 1 月回归 OpenAI；Andrew Tulloch 加入 Meta 超级智能实验室
2026 年 3 月与 NVIDIA 签署战略合作，部署至少 1GW 的 Vera Rubin 算力

在经历了联合创始人出走、$500 亿跟投轮未成的压力后，这个模型的发布是 Murati 对外界最有力的技术回应。

对行业的影响

这个发布直接挑战了 OpenAI 刚发布的 GPT-Realtime-2（5 月 7 日上线）。OpenAI 的方案是把 GPT-5 级推理能力塞进实时语音 API；Thinking Machines 的路线则是从头训练一个原生交互架构，认为"交互能力应该和智能一起扩展，而不是事后补丁"。

两种路线谁会赢还不确定，但竞争格局已经清晰：实时多模态交互正在成为下一个主战场。

现在能用吗

不能。目前是封闭研究预览，仅对少数研究者开放。Thinking Machines 表示更广泛的发布将在 2026 年晚些时候，没有具体日期，也没有商业定价。更大的模型版本也在计划中——当前的 Small 版本是能满足延迟要求的最小规格。

对普通用户来说，这暂时只是一个技术方向的信号。但对开发者和行业观察者而言，它标志着"AI 交互方式"这个问题正式从工程优化升级为架构级竞争。

参考来源

https://thinkingmachines.ai/blog/interaction-models/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。