DomoAI Talking Avatar 升级:内置 TTS、接入 GPT Image 2.0,一张图 60 秒唇形同步视频

分类: 视频模型 |发布于: 5/6/2026 |最后更新: 5/6/2026
DomoAI Talking Avatar 升级:内置 TTS、接入 GPT Image 2.0,一张图 60 秒唇形同步视频

DomoAI Talking Avatar 升级:内置 TTS、接入 GPT Image 2.0,一张图 60 秒唇形同步视频

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

5月5日,新加坡 AI 视频平台 DomoAI 发布了 Talking Avatar(会说话的头像)功能的重大更新:内置文字转语音(TTS),同时集成 OpenAI 的 GPT Image 2.0 图像生成模型。这意味着,从"生成一张图"到"让图中人物开口说话",所有步骤都能在同一个界面内完成,最长支持 60 秒的连续唇形同步视频输出——这个时长超过了目前大多数 AI 头像工具的单次生成上限。

核心更新:三件事合一

这次更新解决的核心问题是"工具碎片化"。过去,做一个 AI 头像视频的典型流程是:先用一个工具生成角色图,再用另一个工具生成语音,最后到第三个平台做唇形同步。中间的切换和格式转换不仅费时间,还容易出现对齐偏差。

DomoAI 把三件事拉到了一个界面里:

  1. 内置 TTS:直接输入文字,选择声音(男声、女声、角色声),调节情感和语调,一键生成语音。不再需要先在外部 TTS 工具生成音频文件再导入。
  2. 集成 GPT Image 2.0:如果你想用 AI 生成源图像,不用离开 DomoAI。直接在平台内用 GPT Image 2.0 生成角色图,然后立刻让它"活起来"。
  3. 60 秒连续唇形同步:这是最突出的参数。很多同类工具单次只能生成 10-20 秒的片段,超过就需要拼接,拼接处容易出现唇形不同步的问题。DomoAI 支持最长 60 秒的连续输出,对于口播类、解说类内容来说,足够覆盖一条完整的短视频。

此外,DomoAI 还加入了情感控制功能。CEO Joe Lam 在新闻稿中提到:"过去 AI 语音听起来很机械,但现在不一样了。我们加入了情绪控制,让创作者可以调节语调,而不用忍受那种平淡单调的声音。"

谁在用它?真实场景已有验证

DomoAI 目前服务全球超过 400 万创作者,其中日本市场表现尤为突出——VTuber 和动漫创作者群体是 Talking Avatar 的高频用户。

一个典型案例是日本的 YouTube 创作者 Azuki(Azuki Channel)。她在教程中演示了如何用 DomoAI 让一张角色图"开口唱歌"——上传图片、输入歌词、选一段声音,1 分钟内生成完整的音乐视频片段。这条教程播放量已超过 3 万次。Azuki 在新闻稿中说:"只需一张图片,DomoAI 就能让我的角色活过来。它们可以说话、唱歌,甚至表演一整支 MV。"

对于做品牌内容、多语言解说视频的团队来说,这个工具的效率提升更直接。传统流程中,拍摄不同语言版本的解说视频可能需要一整周的棚拍时间;而用 AI 头像,输入不同语言的脚本,几分钟就能生成对应版本。

技术要点:唇形同步怎么做到不漂移

唇形同步(lip sync)是 AI 头像视频的技术核心,也是最容易出现"恐怖谷"效果的地方。DomoAI 在这方面有几个设计选择:

  • 长语音下的一致性:当语音超过 30 秒后,很多模型会出现唇形和语音逐渐脱节的问题。DomoAI 声称其唇形同步在长音频下也能保持一致。
  • 多模态输入:支持上传自己的音频文件、直接录入声音,或使用内置 TTS。
  • 风格切换不影响同步:平台提供 50+ 视觉风格(动漫、写实、Lo-fi 等),切换风格后音频同步不会丢失。
  • 输出规格:支持 1080p 直出和 4K 升级,适配 TikTok、YouTube Shorts、Instagram Reels 等竖屏平台。

局限与行业定位

需要说明的是,DomoAI Talking Avatar 的定位是"基于图像驱动的唇形同步动画",而不是完全生成式的视频模型。它的输入是一张静态图,输出是这张图"说话"的动态视频。这和 Runway 的 Characters(实时交互视频代理)、Kling 3.0(原生 4K 视频生成)等产品解决的是不同的问题。

但在这个特定场景下——尤其是 VTuber 内容、品牌口播、音乐视频——"图→动画→配音→输出"的端到端流程确实能省掉大量重复劳动。根据 MarketsandMarkets 的报告,AI 头像市场预计到 2032 年将达到 59.3 亿美元,DomoAI 的这次更新正是瞄准了这个快速增长的市场。

谁该关注

  • VTuber 和动漫创作者:一张角色设定图就能开始做视频内容
  • 品牌营销团队:需要快速产出多语言口播视频
  • 独立音乐人:用 AI 音乐工具生成歌曲后,在 DomoAI 里做唇形同步 MV
  • 短剧和社媒内容团队:批量生产角色对话片段

DomoAI Talking Avatar 功能已在官网 domoai.app 上线,基于多家媒体转述整理。

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。