做播客视频的一个思路探讨,使用indexTTS及Float数字人技术

niuainiuai
3 分钟阅读

最近有一个新想法,琢磨着怎么让两个 AI 虚拟人正儿八经地聊起来,还得做成视频。说白了,就是搞一个技术版的“情景短剧”。

思路大概是这么个流程,你们看看靠不靠谱:

  1. 先搞定剧本。 这事儿直接交给 AI 就行,让它根据咱给的源内容,生成两个角色的对话。
  2. 然后是配音。 用一个叫 indextts 的工具,挺有意思的,能把文本一句一句地转成声音。我看它还有个双人对话的版本,正好,两个角色的语音就这么分头搞定了。
  3. 接着是上脸。 声音有了,得配上脸和口型。这里用一个叫 float 的工作流,把前面生成的声音喂进去,它就能给你吐出来一段段数字人说话的视频。因为给的头像是绿幕的,出来的视频自然也是绿幕背景,方便后面处理。
  4. 拼接成片。 上面搞出来的都是零碎的短视频,得把它们串起来。这活儿 ffmpeg 最拿手了,几行命令的事,就能把一堆小片段整合成一个完整的长视频。
  5. 最后一步,换个背景。 视频齐活了,但还顶着个绿油油的背景。把它换成咱想要的任何图片或者视频,这事儿就算大功告成了。

我琢磨了一下,这套流程跑下来,现在的 AI 工具和技术,实现起来应该不难。下面两个ai应用,点两下就能用,生成速度也挺香的。

  • indextts 单人的:https://cloudstudio.net/a/26913054312214528
  • indextts 双人的:https://cloudstudio.net/a/27456151048650752
  • float 数字人:https://cloudstudio.net/a/27210372082024448

不知道大伙儿对这套玩法有没有兴趣?或者有没有谁已经搞出更简单的路子了?

对了,上面那俩工具搞了个整合版,要是想直接上手折腾,在下面把你的 Cloud Studio ID 甩给我,我看到就给你开权限。一起玩玩看。

niuai

niuai

发布于 2025年06月12日

更新于 2025年06月12日

评论

暂无评论。

欢迎到原文中评论及订阅。