链接说明

github项目地址：RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

项目中文说明书： GPT-SoVITS指南//项目说明书里也有在线使用的链接

原项目作者B站教学视频：耗时两个月自主研发的低成本AI音色克隆软件，免费送给大家！【GPT-SoVITS】_哔哩哔哩_bilibili

作者甚至贴心提供了AutoDL教程！他真的我哭死：AutoDL（Linux系统，镜像更新最快）

同理可以在线训练：AI Hobbyist TTS

项目目前只有TTS（文字转语音Text-To-Speech）、并不支持歌声转换SVC、歌声合成SVS。

支持跨语种合成（可以合成和训练音频语种不一样的语种）

*任何发布基于GPT-SoVITS，需要附带上GPT-SoVITS的tag。

项目版权归原作者所有，此blog仅是lz训练过程记录。如有谬误欢迎指正。

链接说明

硬件要求

使用步骤

1.素材准备

1.1输入&输出管理

1.2纯净人声获取（如果有干净的人声素材可以跳过此步）

编辑

1.3切割音频

1.4打标

文本校对

当页校对结果提交

合并音频

删除音频

2.开始训练

2.1训练集格式化

2.2微调训练

2.3推理

开源协议 & 署名要求

硬件要求

原项目说明，恩，uu们自行斟酌。

使用步骤

各种文件路径，模型名称都不要有中文。

前往上文提到的项目说明书中下载最新整合包。解压后，双击运行go-webui.bat运行程序。

稍等一会儿，此时会弹出console窗口，如下图，在项目运行时不能关闭该窗口。

稍等一会儿，在默认浏览器中跳出GSV的webUI界面，界面大致如下图所示。目前最新的整合包中，变声部分仍然在施工中，所以该项目能够实现，通过上传数据集，训练音色，训练好的音色+目标文字→该音色语音。

1.素材准备

需要把音频格式转化为wav以获得更好的音频效果。

此处分享一个在线免费音频格式转换工具：音频转换器- FreeConvert.com

1.1输入&输出管理

所有文件路径复制时都不能有双引号。

项目原输出文件夹可以更改，原输出默认存放在output文件夹中。

可以自行更改文件输出目录，建议uu们合理地设置数据集的存放，便于后续管理，此处lz提供一个参考的管理方法。

1.2纯净人声获取（如果有干净的人声素材可以跳过此步）

若需要纯净的人声素材，可以使用UVR5对人声进行分离，此项目也整合了这个功能。

点击上图中的开启人声分离webUI后，会在默认浏览器中跳出一个新的窗口，UVR5 WebUI

lz同期有研究一个AI翻唱，也会使用到UVR5，故此处lz使用歌曲素材对音乐中的人声进行分离。

模型说明，上图灰色字已经说得很清楚了，抄作业就是第一遍选择模型1，第二遍选择模型2。uu们也可以自行尝试混合使用其他模型。

可以在 console窗口看到进度

看到这样的输出就说明音频分离成功了

如果去除效果不是很好可以多去除几次，或者切换不同的模型进行去除。去除后最好去完整地听一遍，看看有没有什么问题。

lz最后用的HP5模型对人声和歌曲进行分离。

1.3切割音频

准备一段2分钟左右的素材，数据集并不是越多越好，比起数量，更重要的是质量。

回到GPT-SoVITS WebUI界面。

选好输入输出地址之后，点击开启语音切分即可。

切分完成之后也会输出如下信息

前往输出文件中听取切分好的音频，最好是逐一地去听，挑选一些合适的音频，因为有的切割可能和预期的有差别，可以删除一部分切割得不好的音频，或者重新切割。

1.4打标

先别急着打标，看完打标这一小节再开始！

匹配声音和文字。~~人工智能里的人工部分。~~

利用项目自带打标工具进行初步打标。

初步打标之后需要人工校对，点击开启音频标注WebUI进入打标页面

点击后会在默认浏览器弹出一个Gradio的窗口，这就是打标页面了。

文本校对

文本和音频对应，需要注意一些文字是否有误，比如中文中的同音不同字，语气之间的停顿符号表示。

当页校对结果提交

*注意是每一页，每一页，每一页。

只要点击Next Index，就需要点击Submit Text。不然就得重头开始了。

合并音频

如果一段话被切成了2段，可通过下述方式将其合并。

删除音频

如果某段音频并不符合预期，可将其删除。

校对好后关闭该页面，关闭音频标注WebUI

关闭该页面，就像关浏览器网页一样。

2.开始训练

切换页面开始训练

2.1训练集格式化

直接点击一键三连开始训练。

看到这样的字样说明训练集格式化已完成。

2.2微调训练

以上操作也很无脑，保持默认选项，依次点击训练即可，可以适当调节batch_size的值，不过不要调得太高。

训练完成

2.3推理

开启推理界面

开启之后会浏览器会默认打开一个新的界面

需要注意参考音频对最终合成效果影响较大，可以理解为主参考音频为模型提供了这个人说这句话的语气，是温柔的还是铿锵有力的。

想立即看到结果就不需要去更改下图的设置，直接点合成语音即可

注意如果是跨语种合成，最好多上传一些辅助音频参考，lz用的英文数据集，在没有上传多个辅助音频之前，生成的音频听起来就像“让我们说中文”，hhh

开源协议 & 署名要求

开源协议：GPT-SOVITS 以 MIT 协议开源，模型以 CC-BY-NC 4.0 协议开源；

署名要求：作品简介必须完整署名，缺一不可（参考下文），否则违反开源协议。

参考署名：

GPT-SoVITS开发者：@花儿不哭

模型训练者：@红血球AE3803 @白菜工厂1145号员工

推理特化包适配 & 在线推理：@AI-Hobbyist

生活像海洋，只有意志坚强的人才能到达彼岸。——来点鸡汤8

以上end