做播客视频的一个思路探讨,使用indexTTS及Float数字人技术

最近有一个新想法,琢磨着怎么让两个 AI 虚拟人正儿八经地聊起来,还得做成视频。说白了,就是搞一个技术版的“情景短剧”。
思路大概是这么个流程,你们看看靠不靠谱:
- 先搞定剧本。 这事儿直接交给 AI 就行,让它根据咱给的源内容,生成两个角色的对话。
- 然后是配音。 用一个叫
indextts
的工具,挺有意思的,能把文本一句一句地转成声音。我看它还有个双人对话的版本,正好,两个角色的语音就这么分头搞定了。 - 接着是上脸。 声音有了,得配上脸和口型。这里用一个叫
float
的工作流,把前面生成的声音喂进去,它就能给你吐出来一段段数字人说话的视频。因为给的头像是绿幕的,出来的视频自然也是绿幕背景,方便后面处理。 - 拼接成片。 上面搞出来的都是零碎的短视频,得把它们串起来。这活儿
ffmpeg
最拿手了,几行命令的事,就能把一堆小片段整合成一个完整的长视频。 - 最后一步,换个背景。 视频齐活了,但还顶着个绿油油的背景。把它换成咱想要的任何图片或者视频,这事儿就算大功告成了。
我琢磨了一下,这套流程跑下来,现在的 AI 工具和技术,实现起来应该不难。下面两个ai应用,点两下就能用,生成速度也挺香的。
indextts
单人的:https://cloudstudio.net/a/26913054312214528
indextts
双人的:https://cloudstudio.net/a/27456151048650752
float
数字人:https://cloudstudio.net/a/27210372082024448
不知道大伙儿对这套玩法有没有兴趣?或者有没有谁已经搞出更简单的路子了?
对了,上面那俩工具搞了个整合版,要是想直接上手折腾,在下面把你的 Cloud Studio ID 甩给我,我看到就给你开权限。一起玩玩看。