做播客视频的一个思路探讨，使用indexTTS及Float数字人技术 | CNB博客

最近有一个新想法，琢磨着怎么让两个 AI 虚拟人正儿八经地聊起来，还得做成视频。说白了，就是搞一个技术版的“情景短剧”。

思路大概是这么个流程，你们看看靠不靠谱：

先搞定剧本。 这事儿直接交给 AI 就行，让它根据咱给的源内容，生成两个角色的对话。
然后是配音。 用一个叫 indextts 的工具，挺有意思的，能把文本一句一句地转成声音。我看它还有个双人对话的版本，正好，两个角色的语音就这么分头搞定了。
接着是上脸。 声音有了，得配上脸和口型。这里用一个叫 float 的工作流，把前面生成的声音喂进去，它就能给你吐出来一段段数字人说话的视频。因为给的头像是绿幕的，出来的视频自然也是绿幕背景，方便后面处理。
拼接成片。 上面搞出来的都是零碎的短视频，得把它们串起来。这活儿 ffmpeg 最拿手了，几行命令的事，就能把一堆小片段整合成一个完整的长视频。
最后一步，换个背景。 视频齐活了，但还顶着个绿油油的背景。把它换成咱想要的任何图片或者视频，这事儿就算大功告成了。

我琢磨了一下，这套流程跑下来，现在的 AI 工具和技术，实现起来应该不难。下面两个ai应用，点两下就能用，生成速度也挺香的。

不知道大伙儿对这套玩法有没有兴趣？或者有没有谁已经搞出更简单的路子了？

对了，上面那俩工具搞了个整合版，要是想直接上手折腾，在下面把你的 Cloud Studio ID 甩给我，我看到就给你开权限。一起玩玩看。

评论