语音合成效果非常好,可作为自己日常文本转语音使用工具!
软件介绍
IndexTTS 是由哔哩哔哩(B 站)开源的工业级可控高效零样本文本转语音(TTS)系统,基于 XTTS 和 Tortoise 构建,采用 GPT 风格架构。经过数万小时数据训练,性能达到当前顶尖水平,在多项测试中优于 XTTS、CosyVoice2、Fish - Speech、F5 - TTS 等主流 TTS 系统
官方地址:https://github.com/index-tts/index-tts
案例效果:IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
核心功能与技术改进
(一)核心功能
- 支持拼音纠正汉字发音,在中文场景下能快速修正读错的字符。
- 可通过标点符号控制任意位置的停顿,提升语音表达的自然度。
(二)技术改进与贡献
- 采用字符 - 拼音混合建模方法,专门针对中文场景优化发音准确性。
- 集成 Conformer 条件编码器和基于 BigVGAN2 的语音码解码器,有效提升训练稳定性、语音音色相似度与音质。
- 公开所有测试集,涵盖多音节词测试集、主观测试集和客观测试集,方便行业研究与对比。
模型版本与更新
- 2025/05/14:发布 IndexTTS - 1.5 版本,大幅提升模型稳定性及英语语言性能。
- 2025/03/25:发布 IndexTTS - 1.0 模型参数与推理代码。
- 2025/02/12:在 ArXiv(编号 2502.05512)提交论文,并发布演示 demo 与测试集。
软件部署
参考地址:https://github.com/index-tts/index-tts
1、cuda环境
参考:Ubuntu22.4部署及更新cuda11.8与cuda12.1_ubuntu 升级cuda-CSDN博客
2、Python环境
本案例使用3.10版本,也是官方推荐版本
参考:Python多版本管理工具——pyenv安装及使用-CSDN博客
pyenv install 3.10
pyenv global 3.10
python version
3、软件下载
cd /opt/
git clone https://github.com/index-tts/index-tts.git
4、依赖下载
cd /opt/index-tts/
pip install -r requirements.txt
pip install deepspeed
5、模型下载
地址:IndexTTS-1.5
git lfs install
git clone https://www.modelscope.cn/IndexTeam/IndexTTS-1.5.git
6、修改源码
修改webui.py代码支持远程访问,内容如下
parser.add_argument("--host", type=str, default="0.0.0.0", help="Host to run the web UI on")
7、启动Web
python webui.py --model_dir IndexTTS-1.5
8、浏览器访问
地址:http://192.168.1.76:7860/
9、语音合成应用
输入内容
窗台上的旧搪瓷盆里,野菊不知何时冒了芽。起初是针尖似的绿,怯生生扒着陶土边缘,后来竟攒出半掌叶瓣,风过时便簌簌抖,像怕人窥见的秘密。
晨露未晞时最热闹。阳光斜斜切进来,给叶片的绒毛镀上金粉,水珠在叶尖滚了滚,“咚” 地落进盆沿裂缝里。有时麻雀会停在窗棂上,歪头瞅这丛新绿,小爪子在木头上磕出轻响,倒惊得野菊晃了晃,漏下满窗台的碎光。
不必盼着开花的。单是看它把枯盆活出春意,看光影在叶上写短诗,就够温柔了。