Corti 发布 Symphony for Speech-to-Text:医疗专用语音识别,词错率 1.4% 碾压 OpenAI 和 Whisper
Corti 发布 Symphony for Speech-to-Text:医疗专用语音识别,词错率 1.4% 碾压 OpenAI 和 Whisper
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
2026年5月20日,丹麦医疗AI公司Corti正式推出Symphony for Speech-to-Text——一款专为临床场景打造的语音识别模型。它不是又一个通用转录工具的升级版,而是一个从底层针对医学术语、药物剂量、急诊噪声重新训练的专用ASR,在英文医学术语上的词错率(WER)仅为1.4%,远低于OpenAI(17.7%)、Whisper(17.4%)、ElevenLabs(18.1%)和Parakeet(18.9%)。
这是什么
Corti是一家总部位于哥本哈根的医疗AI公司,目前每年服务超过1亿患者,覆盖英国国民保健体系(NHS)等大型医疗系统。Symphony for Speech-to-Text是Corti旗下Symphony平台的新成员,提供API形式的临床级语音识别能力,支持实时听写、医患对话转录和批量音频处理三种模式。
CEO Andreas Cleve在采访中说得很直白:"在Agent时代,语音识别不再只是生成一份文字记录——我们需要给AI系统准确的临床事实来推理。如果模型把一个药物名或剂量听错了,下游每一步都会变得不可靠。"
核心数据:差距有多大
Corti公布的数据让通用模型和传统龙头都显得力不从心:
英文医学术语词错率对比:
- Corti Symphony:1.4%
- Whisper:17.4%
- OpenAI语音模型:17.7%
- ElevenLabs:18.1%
- Parakeet:18.9%
这意味着Corti相比通用模型降低了最高93%的词错率。
临床实体召回率:
- Corti:98.3%
- 最强通用基线:44.3%
54个百分点的差距意味着什么?如果AI需要从转录中提取"阿莫西林500mg每日两次"这样的结构化信息,通用模型有一半以上的关键信息会丢失。对AI辅助诊疗来说,这不是"不太准",而是"不可用"。
对比传统龙头Dragon Medical One:
- 词错率:Corti 4.6% vs Dragon 5.7%(相对改善19%)
- 术语召回率:Corti 93.5% vs Dragon 92.9%
Dragon Medical One多年来是临床听写的事实标准,但它主要针对"医生对着麦克风念病历"的场景优化,并不适合多角色对话、环境嘈杂的急诊室,也不适合作为AI Agent的数据输入层。
多语言验证
医疗系统的语言挑战远不只是英语。Corti在瑞士——全球最严苛的多语言医疗环境之一——做了测试:
- 德语:Corti 2.4% vs 竞品最佳 13.0%
- 法语:Corti 3.9% vs 竟品最佳 10.6%
瑞士医疗科技公司Voicepoint的Pierre Corboz评价:"在临床对话中,每个词都算数——一个遗漏的药名、一个听错的剂量、一条转录错误的症状,都可能改变一次诊疗的含义。"
为什么通用模型在医疗场景"失灵"
通用语音模型在日常对话中表现不错,但医疗场景有三个硬伤:
- 术语密集:药名、缩写、剂量表达远超日常词汇,通用模型没见过足够的训练数据
- 噪声环境:急诊室、手术室不是安静的录音棚,背景噪声严重
- 后果严重:把"hyperthyroidism"(甲亢)听成"hypothyroidism"(甲减),不只是打错字——下游AI基于错误转录做出的临床建议可能危及患者安全
Corti的方案是在模型训练阶段就灌入大量医疗场景数据,包括真实临床对话、多语种病历、急诊环境录音,而不是在通用模型上简单微调。
垂直AI的系统性趋势
Symphony for Speech-to-Text不是孤例。过去6周,Corti连续发布了三组基准测试:
- 医疗编码准确率:超出通用模型25%+
- 临床推理(HealthBench Professional):超越OpenAI自己的医疗基准
- 语音识别:本次发布
三组数据指向同一个结论:在受监管的专业领域,垂直专用模型正在构筑通用模型难以跨越的护城河。Corti披露,新开发者注册量同比增长30%,说明市场正在用脚投票。
谁该关注、谁不需要
该关注的人:
- 医疗AI产品开发者:如果你在做AI病历、AI辅助诊断、AI随访工具,语音输入的准确率直接决定了你的产品是"省时工具"还是"医疗隐患"
- EHR/电子病历厂商:需要嵌入语音输入的厂商
- 远程医疗和虚拟护理平台:多语言、实时转录需求强烈
不太需要的人:
- 非医疗场景的语音识别用户:日常会议转录、播客转文字等场景,通用模型已经够用
- 个人用户:目前Corti主要面向开发者API和机构客户,没有面向C端的定价
局限
- 价格、API调用限制、并发能力等关键信息尚未公开
- 当前覆盖语言以英语、德语、法语为主,中文等亚洲语言尚未提及
- 作为垂直模型,它在非医疗场景下并无优势——通用模型在日常生活对话中仍然更合适
---
*基于多家媒体转述整理,主要来源为VentureBeat于2026年5月20日的报道及Corti官方信息。*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。