Corti 发布 Symphony for Speech-to-Text:医疗专用语音识别,词错率 1.4% 碾压 OpenAI 和 Whisper

分类: 语音模型 |发布于: 5/20/2026 |最后更新: 5/20/2026
Corti 发布 Symphony for Speech-to-Text:医疗专用语音识别,词错率 1.4% 碾压 OpenAI 和 Whisper

Corti 发布 Symphony for Speech-to-Text:医疗专用语音识别,词错率 1.4% 碾压 OpenAI 和 Whisper

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

2026年5月20日,丹麦医疗AI公司Corti正式推出Symphony for Speech-to-Text——一款专为临床场景打造的语音识别模型。它不是又一个通用转录工具的升级版,而是一个从底层针对医学术语、药物剂量、急诊噪声重新训练的专用ASR,在英文医学术语上的词错率(WER)仅为1.4%,远低于OpenAI(17.7%)、Whisper(17.4%)、ElevenLabs(18.1%)和Parakeet(18.9%)。

这是什么

Corti是一家总部位于哥本哈根的医疗AI公司,目前每年服务超过1亿患者,覆盖英国国民保健体系(NHS)等大型医疗系统。Symphony for Speech-to-Text是Corti旗下Symphony平台的新成员,提供API形式的临床级语音识别能力,支持实时听写、医患对话转录和批量音频处理三种模式。

CEO Andreas Cleve在采访中说得很直白:"在Agent时代,语音识别不再只是生成一份文字记录——我们需要给AI系统准确的临床事实来推理。如果模型把一个药物名或剂量听错了,下游每一步都会变得不可靠。"

核心数据:差距有多大

Corti公布的数据让通用模型和传统龙头都显得力不从心:

英文医学术语词错率对比:

  • Corti Symphony:1.4%
  • Whisper:17.4%
  • OpenAI语音模型:17.7%
  • ElevenLabs:18.1%
  • Parakeet:18.9%

这意味着Corti相比通用模型降低了最高93%的词错率。

临床实体召回率:

  • Corti:98.3%
  • 最强通用基线:44.3%

54个百分点的差距意味着什么?如果AI需要从转录中提取"阿莫西林500mg每日两次"这样的结构化信息,通用模型有一半以上的关键信息会丢失。对AI辅助诊疗来说,这不是"不太准",而是"不可用"。

对比传统龙头Dragon Medical One:

  • 词错率:Corti 4.6% vs Dragon 5.7%(相对改善19%)
  • 术语召回率:Corti 93.5% vs Dragon 92.9%

Dragon Medical One多年来是临床听写的事实标准,但它主要针对"医生对着麦克风念病历"的场景优化,并不适合多角色对话、环境嘈杂的急诊室,也不适合作为AI Agent的数据输入层。

多语言验证

医疗系统的语言挑战远不只是英语。Corti在瑞士——全球最严苛的多语言医疗环境之一——做了测试:

  • 德语:Corti 2.4% vs 竞品最佳 13.0%
  • 法语:Corti 3.9% vs 竟品最佳 10.6%

瑞士医疗科技公司Voicepoint的Pierre Corboz评价:"在临床对话中,每个词都算数——一个遗漏的药名、一个听错的剂量、一条转录错误的症状,都可能改变一次诊疗的含义。"

为什么通用模型在医疗场景"失灵"

通用语音模型在日常对话中表现不错,但医疗场景有三个硬伤:

  1. 术语密集:药名、缩写、剂量表达远超日常词汇,通用模型没见过足够的训练数据
  2. 噪声环境:急诊室、手术室不是安静的录音棚,背景噪声严重
  3. 后果严重:把"hyperthyroidism"(甲亢)听成"hypothyroidism"(甲减),不只是打错字——下游AI基于错误转录做出的临床建议可能危及患者安全

Corti的方案是在模型训练阶段就灌入大量医疗场景数据,包括真实临床对话、多语种病历、急诊环境录音,而不是在通用模型上简单微调。

垂直AI的系统性趋势

Symphony for Speech-to-Text不是孤例。过去6周,Corti连续发布了三组基准测试:

  • 医疗编码准确率:超出通用模型25%+
  • 临床推理(HealthBench Professional):超越OpenAI自己的医疗基准
  • 语音识别:本次发布

三组数据指向同一个结论:在受监管的专业领域,垂直专用模型正在构筑通用模型难以跨越的护城河。Corti披露,新开发者注册量同比增长30%,说明市场正在用脚投票。

谁该关注、谁不需要

该关注的人:

  • 医疗AI产品开发者:如果你在做AI病历、AI辅助诊断、AI随访工具,语音输入的准确率直接决定了你的产品是"省时工具"还是"医疗隐患"
  • EHR/电子病历厂商:需要嵌入语音输入的厂商
  • 远程医疗和虚拟护理平台:多语言、实时转录需求强烈

不太需要的人:

  • 非医疗场景的语音识别用户:日常会议转录、播客转文字等场景,通用模型已经够用
  • 个人用户:目前Corti主要面向开发者API和机构客户,没有面向C端的定价

局限

  • 价格、API调用限制、并发能力等关键信息尚未公开
  • 当前覆盖语言以英语、德语、法语为主,中文等亚洲语言尚未提及
  • 作为垂直模型,它在非医疗场景下并无优势——通用模型在日常生活对话中仍然更合适

---

*基于多家媒体转述整理,主要来源为VentureBeat于2026年5月20日的报道及Corti官方信息。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。