Corti 发布 Symphony for Speech-to-Text：医疗专用语音识别，词错率 1.4% 碾压 OpenAI 和 Whisper

分类: 语音模型 |发布于: 5/20/2026 |最后更新: 5/20/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

2026年5月20日，丹麦医疗AI公司Corti正式推出Symphony for Speech-to-Text——一款专为临床场景打造的语音识别模型。它不是又一个通用转录工具的升级版，而是一个从底层针对医学术语、药物剂量、急诊噪声重新训练的专用ASR，在英文医学术语上的词错率（WER）仅为1.4%，远低于OpenAI（17.7%）、Whisper（17.4%）、ElevenLabs（18.1%）和Parakeet（18.9%）。

这是什么

Corti是一家总部位于哥本哈根的医疗AI公司，目前每年服务超过1亿患者，覆盖英国国民保健体系（NHS）等大型医疗系统。Symphony for Speech-to-Text是Corti旗下Symphony平台的新成员，提供API形式的临床级语音识别能力，支持实时听写、医患对话转录和批量音频处理三种模式。

CEO Andreas Cleve在采访中说得很直白："在Agent时代，语音识别不再只是生成一份文字记录——我们需要给AI系统准确的临床事实来推理。如果模型把一个药物名或剂量听错了，下游每一步都会变得不可靠。"

核心数据：差距有多大

Corti公布的数据让通用模型和传统龙头都显得力不从心：

英文医学术语词错率对比：

Corti Symphony：1.4%
Whisper：17.4%
OpenAI语音模型：17.7%
ElevenLabs：18.1%
Parakeet：18.9%

这意味着Corti相比通用模型降低了最高93%的词错率。

临床实体召回率：

Corti：98.3%
最强通用基线：44.3%

54个百分点的差距意味着什么？如果AI需要从转录中提取"阿莫西林500mg每日两次"这样的结构化信息，通用模型有一半以上的关键信息会丢失。对AI辅助诊疗来说，这不是"不太准"，而是"不可用"。

对比传统龙头Dragon Medical One：

词错率：Corti 4.6% vs Dragon 5.7%（相对改善19%）
术语召回率：Corti 93.5% vs Dragon 92.9%

Dragon Medical One多年来是临床听写的事实标准，但它主要针对"医生对着麦克风念病历"的场景优化，并不适合多角色对话、环境嘈杂的急诊室，也不适合作为AI Agent的数据输入层。

多语言验证

医疗系统的语言挑战远不只是英语。Corti在瑞士——全球最严苛的多语言医疗环境之一——做了测试：

德语：Corti 2.4% vs 竞品最佳 13.0%
法语：Corti 3.9% vs 竟品最佳 10.6%

瑞士医疗科技公司Voicepoint的Pierre Corboz评价："在临床对话中，每个词都算数——一个遗漏的药名、一个听错的剂量、一条转录错误的症状，都可能改变一次诊疗的含义。"

为什么通用模型在医疗场景"失灵"

通用语音模型在日常对话中表现不错，但医疗场景有三个硬伤：

术语密集：药名、缩写、剂量表达远超日常词汇，通用模型没见过足够的训练数据
噪声环境：急诊室、手术室不是安静的录音棚，背景噪声严重
后果严重：把"hyperthyroidism"（甲亢）听成"hypothyroidism"（甲减），不只是打错字——下游AI基于错误转录做出的临床建议可能危及患者安全

Corti的方案是在模型训练阶段就灌入大量医疗场景数据，包括真实临床对话、多语种病历、急诊环境录音，而不是在通用模型上简单微调。

垂直AI的系统性趋势

Symphony for Speech-to-Text不是孤例。过去6周，Corti连续发布了三组基准测试：

医疗编码准确率：超出通用模型25%+
临床推理（HealthBench Professional）：超越OpenAI自己的医疗基准
语音识别：本次发布

三组数据指向同一个结论：在受监管的专业领域，垂直专用模型正在构筑通用模型难以跨越的护城河。Corti披露，新开发者注册量同比增长30%，说明市场正在用脚投票。

谁该关注、谁不需要

该关注的人：

医疗AI产品开发者：如果你在做AI病历、AI辅助诊断、AI随访工具，语音输入的准确率直接决定了你的产品是"省时工具"还是"医疗隐患"
EHR/电子病历厂商：需要嵌入语音输入的厂商
远程医疗和虚拟护理平台：多语言、实时转录需求强烈

不太需要的人：

非医疗场景的语音识别用户：日常会议转录、播客转文字等场景，通用模型已经够用
个人用户：目前Corti主要面向开发者API和机构客户，没有面向C端的定价

局限

价格、API调用限制、并发能力等关键信息尚未公开
当前覆盖语言以英语、德语、法语为主，中文等亚洲语言尚未提及
作为垂直模型，它在非医疗场景下并无优势——通用模型在日常生活对话中仍然更合适

---

*基于多家媒体转述整理，主要来源为VentureBeat于2026年5月20日的报道及Corti官方信息。*

参考来源

https://venturebeat.com/technology/cortis-new-symphony-for-speech-to-text-model-beats-openai-at-medical-terminology-accuracy-highlighting-the-value-of-specialized-ai

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。