DomoAI Talking Avatar 升级：内置 TTS、接入 GPT Image 2.0，一张图 60 秒唇形同步视频

分类: 视频模型 |发布于: 5/6/2026 |最后更新: 5/6/2026

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

5月5日，新加坡 AI 视频平台 DomoAI 发布了 Talking Avatar（会说话的头像）功能的重大更新：内置文字转语音（TTS），同时集成 OpenAI 的 GPT Image 2.0 图像生成模型。这意味着，从"生成一张图"到"让图中人物开口说话"，所有步骤都能在同一个界面内完成，最长支持 60 秒的连续唇形同步视频输出——这个时长超过了目前大多数 AI 头像工具的单次生成上限。

核心更新：三件事合一

这次更新解决的核心问题是"工具碎片化"。过去，做一个 AI 头像视频的典型流程是：先用一个工具生成角色图，再用另一个工具生成语音，最后到第三个平台做唇形同步。中间的切换和格式转换不仅费时间，还容易出现对齐偏差。

DomoAI 把三件事拉到了一个界面里：

内置 TTS：直接输入文字，选择声音（男声、女声、角色声），调节情感和语调，一键生成语音。不再需要先在外部 TTS 工具生成音频文件再导入。
集成 GPT Image 2.0：如果你想用 AI 生成源图像，不用离开 DomoAI。直接在平台内用 GPT Image 2.0 生成角色图，然后立刻让它"活起来"。
60 秒连续唇形同步：这是最突出的参数。很多同类工具单次只能生成 10-20 秒的片段，超过就需要拼接，拼接处容易出现唇形不同步的问题。DomoAI 支持最长 60 秒的连续输出，对于口播类、解说类内容来说，足够覆盖一条完整的短视频。

此外，DomoAI 还加入了情感控制功能。CEO Joe Lam 在新闻稿中提到："过去 AI 语音听起来很机械，但现在不一样了。我们加入了情绪控制，让创作者可以调节语调，而不用忍受那种平淡单调的声音。"

谁在用它？真实场景已有验证

DomoAI 目前服务全球超过 400 万创作者，其中日本市场表现尤为突出——VTuber 和动漫创作者群体是 Talking Avatar 的高频用户。

一个典型案例是日本的 YouTube 创作者 Azuki（Azuki Channel）。她在教程中演示了如何用 DomoAI 让一张角色图"开口唱歌"——上传图片、输入歌词、选一段声音，1 分钟内生成完整的音乐视频片段。这条教程播放量已超过 3 万次。Azuki 在新闻稿中说："只需一张图片，DomoAI 就能让我的角色活过来。它们可以说话、唱歌，甚至表演一整支 MV。"

对于做品牌内容、多语言解说视频的团队来说，这个工具的效率提升更直接。传统流程中，拍摄不同语言版本的解说视频可能需要一整周的棚拍时间；而用 AI 头像，输入不同语言的脚本，几分钟就能生成对应版本。

技术要点：唇形同步怎么做到不漂移

唇形同步（lip sync）是 AI 头像视频的技术核心，也是最容易出现"恐怖谷"效果的地方。DomoAI 在这方面有几个设计选择：

长语音下的一致性：当语音超过 30 秒后，很多模型会出现唇形和语音逐渐脱节的问题。DomoAI 声称其唇形同步在长音频下也能保持一致。
多模态输入：支持上传自己的音频文件、直接录入声音，或使用内置 TTS。
风格切换不影响同步：平台提供 50+ 视觉风格（动漫、写实、Lo-fi 等），切换风格后音频同步不会丢失。
输出规格：支持 1080p 直出和 4K 升级，适配 TikTok、YouTube Shorts、Instagram Reels 等竖屏平台。

局限与行业定位

需要说明的是，DomoAI Talking Avatar 的定位是"基于图像驱动的唇形同步动画"，而不是完全生成式的视频模型。它的输入是一张静态图，输出是这张图"说话"的动态视频。这和 Runway 的 Characters（实时交互视频代理）、Kling 3.0（原生 4K 视频生成）等产品解决的是不同的问题。

但在这个特定场景下——尤其是 VTuber 内容、品牌口播、音乐视频——"图→动画→配音→输出"的端到端流程确实能省掉大量重复劳动。根据 MarketsandMarkets 的报告，AI 头像市场预计到 2032 年将达到 59.3 亿美元，DomoAI 的这次更新正是瞄准了这个快速增长的市场。

谁该关注

VTuber 和动漫创作者：一张角色设定图就能开始做视频内容
品牌营销团队：需要快速产出多语言口播视频
独立音乐人：用 AI 音乐工具生成歌曲后，在 DomoAI 里做唇形同步 MV
短剧和社媒内容团队：批量生产角色对话片段

DomoAI Talking Avatar 功能已在官网 domoai.app 上线，基于多家媒体转述整理。

参考来源

https://www.prnewswire.com/news-releases/domoai-launches-built-in-text-to-speech-and-integrates-openais-gpt-image-2-0-in-talking-avatar-workflow-302762471.html

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。