最近很火的AI声音克隆软件,只需要几分钟声音素材,几分钟就能快速复制克隆出相似度惊人的声音。
软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面试,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。
防止 链接被吞,下载放在二楼
软件下载后,解压出来,建议解压到非中文目录下,切记!
在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,3分钟左右即可。
素材的质量,决定合成的效果。
解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。
第一步,素材处理,按照下图演示,填写好路径,其他默认

中文批量离线ASR工具,这里的ASR模型,如果 你是中文,达摩和whisper都可以,如果是英文,最好用whisper,经过测试,openai的whisper综合效果最好。
第二步,训练集格式化
除了第一个参数“实验/模型名”自行命名外,其他都默认,然后按照下图闭眼点就行了

最后记得点“开启一件三连”
第三步,微调训练
“每张显卡的batch_size” 这个参数根据自己的显存来选择,12G显存设置8左右,其他根据自己显存调整。
训练总轮数,第一个建议设置10,第二个15。也可以根据自己的需求调整,不要太高,声音素材是关键。否则训练再多轮也没意义。

按照序号,先训练SoVITS,右侧有提示信息,结束后,再训练GPT。这俩训练都很快,显卡好的,分分钟就完成了。
第四步,推理
按照下图步骤,先刷新模型路径,然后选择你训练的模型名称(模型选择后面数字最大的那个,也就是最新的模型),两个都要选

最后记得勾选“是否开启TTS推理WebUI”
稍等片刻,TTS推理启动后,会跳转到新的webUI推理页面
第五步,TTS语音合成

选择你的模型,参考语音找一段你之前训练用的素材,3-10秒,不要太长,也不要太短。可以下拉选择,如果下拉没有显示,就在数字4的位置手动选择。然后勾选数字5的“开启无参考文本模式 无参考文本时该选项无效”
在数字6的位置输入你要转换的文字,最后合成语音。
软件由RVC变声器创始人“花儿不哭”大佬开发,GPT-SoVITS的面试,彻底结束了语音克隆被商业垄断的历史,只要你有一张显卡,也能玩曾经高大上的语音克隆了。
防止 链接被吞,下载放在二楼
软件下载后,解压出来,建议解压到非中文目录下,切记!
在所有操作前,准备好需要克隆的声音素材,要求无杂音,吐齿清晰,3分钟左右即可。
素材的质量,决定合成的效果。
解压后,运行 go-webui.bat,即可启动webUI界面,后期所有的操作,就在整个页面进行。
第一步,素材处理,按照下图演示,填写好路径,其他默认

中文批量离线ASR工具,这里的ASR模型,如果 你是中文,达摩和whisper都可以,如果是英文,最好用whisper,经过测试,openai的whisper综合效果最好。
第二步,训练集格式化
除了第一个参数“实验/模型名”自行命名外,其他都默认,然后按照下图闭眼点就行了

最后记得点“开启一件三连”
第三步,微调训练
“每张显卡的batch_size” 这个参数根据自己的显存来选择,12G显存设置8左右,其他根据自己显存调整。
训练总轮数,第一个建议设置10,第二个15。也可以根据自己的需求调整,不要太高,声音素材是关键。否则训练再多轮也没意义。

按照序号,先训练SoVITS,右侧有提示信息,结束后,再训练GPT。这俩训练都很快,显卡好的,分分钟就完成了。
第四步,推理
按照下图步骤,先刷新模型路径,然后选择你训练的模型名称(模型选择后面数字最大的那个,也就是最新的模型),两个都要选

最后记得勾选“是否开启TTS推理WebUI”
稍等片刻,TTS推理启动后,会跳转到新的webUI推理页面
第五步,TTS语音合成

选择你的模型,参考语音找一段你之前训练用的素材,3-10秒,不要太长,也不要太短。可以下拉选择,如果下拉没有显示,就在数字4的位置手动选择。然后勾选数字5的“开启无参考文本模式 无参考文本时该选项无效”
在数字6的位置输入你要转换的文字,最后合成语音。