【AI语音】业界最强的AI声音克隆软件GPT-SoVITS，一键包加教程

最近很火的AI声音克隆软件，只需要几分钟声音素材，几分钟就能快速复制克隆出相似度惊人的声音。
软件由RVC变声器创始人“花儿不哭”大佬开发，GPT-SoVITS的面试，彻底结束了语音克隆被商业垄断的历史，只要你有一张显卡，也能玩曾经高大上的语音克隆了。
防止链接被吞，下载放在二楼
软件下载后，解压出来，建议解压到非中文目录下，切记！
在所有操作前，准备好需要克隆的声音素材，要求无杂音，吐齿清晰，3分钟左右即可。
素材的质量，决定合成的效果。
解压后，运行 go-webui.bat，即可启动webUI界面，后期所有的操作，就在整个页面进行。
第一步，素材处理，按照下图演示，填写好路径，其他默认

中文批量离线ASR工具，这里的ASR模型，如果你是中文，达摩和whisper都可以，如果是英文，最好用whisper，经过测试，openai的whisper综合效果最好。
第二步，训练集格式化
除了第一个参数“实验/模型名”自行命名外，其他都默认，然后按照下图闭眼点就行了

最后记得点“开启一件三连”
第三步，微调训练
“每张显卡的batch_size” 这个参数根据自己的显存来选择，12G显存设置8左右，其他根据自己显存调整。
训练总轮数，第一个建议设置10，第二个15。也可以根据自己的需求调整，不要太高，声音素材是关键。否则训练再多轮也没意义。

按照序号，先训练SoVITS，右侧有提示信息，结束后，再训练GPT。这俩训练都很快，显卡好的，分分钟就完成了。
第四步，推理
按照下图步骤，先刷新模型路径，然后选择你训练的模型名称（模型选择后面数字最大的那个，也就是最新的模型），两个都要选

最后记得勾选“是否开启TTS推理WebUI”
稍等片刻，TTS推理启动后，会跳转到新的webUI推理页面
第五步，TTS语音合成

选择你的模型，参考语音找一段你之前训练用的素材，3-10秒，不要太长，也不要太短。可以下拉选择，如果下拉没有显示，就在数字4的位置手动选择。然后勾选数字5的“开启无参考文本模式无参考文本时该选项无效”
在数字6的位置输入你要转换的文字，最后合成语音。

一键包下载
链接: https://pan.baidu.com/s/1mulxy1ticeYBOaQu_Kamng?pwd=7879 提取码: 7879 复制这段内容后打开百度网盘手机App，操作更方便哦

顶顶更健康

过年的时候跑了两个，无奈噪音太多，效果并不太理想。
快是真的快，几分钟就完成了

请问用什么显卡，训练这类模型速度需要多久？

这个需要设备麦克风录音的，手机录音出的效果不是很好。

干声素材需要几分钟最佳？

吧主好人

这个可以应用到视频里么？就是用mp3替换视频里的声音，还是只限于音频直接的交替

请问这步出错，是怎么回事啊

这是哪里错了

不知道为什么日语合成总是不成功，中文倒是ok

这个是训练完的声音是只能念文本嘛，还是可以替换声音呀

说解压出错。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 3 4 下一页尾页
130回复贴，共4页
，跳到页

<<返回deepface吧

分享到:

日	一	二	三	四	五	六