举世无双语音合成系统 VITS 发展历程（2024.3 PAVITS） (2024)

VITS经典项目:

FaceBook开源，1000+语言，mms-meta/MMS

wenet社区，onnx和android，wenet-e2e/wetts

手写模型，huakunyang/SummerTTS

30+语言，rhasspy/piper

VITS流式推理：

PlayVoice/vits_chinese

VITS优化项目：

MasayaKawamura/MB-iSTFT-VITS

VITS歌声合成：

zhangyongmao/VISinger2

VITS变声系列（根据项目名称长短排序）：

RVC-Project/Retrieval-based-Voice-Conversion-WebUI

svc-develop-team/so-vits-svc

voicepaw/so-vits-svc-fork

PlayVoice/so-vits-svc-5.0

w-okada/voice-changer

sophiefy/Sovits

VITS语音克隆系列（根据项目名称长短排序）：

myshell-ai/OpenVoice: Instant voice cloning by MyShell

myshell-ai/MeloTTS：Support English, Spanish, French, Chinese, Japanese and Korean.

Plachtaa/VITS-fast-fine-tuning

Artrajz/vits-simple-api

fishaudio/Bert-VITS2

VITS论文&代码详解视频(鲁东大学于泓老师)

Flow&GAN https://www.bilibili.com/video/BV1fz4y1x7z3

整体结构 https://www.bilibili.com/video/BV19F411y7Tp

文本编码器 https://www.bilibili.com/video/BV13F41117U9

文本编码器 https://www.bilibili.com/video/BV1x94y1r7WG

相对位置编码 https://www.bilibili.com/video/BV1xp4y1n7Jh

后验音频编码 https://www.bilibili.com/video/BV1pF411k7if

Flow部分实现 https://www.bilibili.com/video/BV1Ep4y1N7d1

decoder音频解码 https://www.bilibili.com/video/BV1vm4y1T7TF

随机时长预测1 https://www.bilibili.com/video/BV1Fm4y1K7Wp

随机时长预测2 https://www.bilibili.com/video/BV1Nk4y1A7SL

随机时长convFlow https://www.bilibili.com/video/BV1fj411y7Bf

鉴别器部分 https://www.bilibili.com/video/BV1Mu4y1k79i

生成器总体工作流程 https://www.bilibili.com/video/BV1j8411B7NW

训练过程及损失函数计算 https://www.bilibili.com/video/BV1Pw411U7fd

模型训练 https://www.bilibili.com/video/BV1ah4y1Y7CZ/

声音转换 https://www.bilibili.com/video/BV1oV411c7Ec/

so-vits-svc-5.0代码详解视频(鲁东大学于泓老师)

1-整体框架 https://www.bilibili.com/video/BV1Tj411e7pQ

2-数据准备和预处理 https://www.bilibili.com/video/BV1uj411v7zW

3-先验后验编码器 https://www.bilibili.com/video/BV1Be411Q7r5/

4-decoder部分 https://www.bilibili.com/video/BV19u4y1b73U

5-蛇形激活函数 https://www.bilibili.com/video/BV1HN4y1D7AR

6-Flow部分 https://www.bilibili.com/video/BV1ju411F7Fs

7-训练及损失函数部分 https://www.bilibili.com/video/BV1qw411W73B

8-训练推理以及基频矫正 https://www.bilibili.com/video/BV1eb4y1u7ER

2021 年 6 月 11 日 VITS 论文和代码发布：

论文：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

代码：https://github.com/jaywalnut310/vits

机构：韩国科学院

会议：ICML 2021

作者其他论文：HiFiGAN、GlowTTS

2021 年 6 月 21 日与 VITS 同架构论文：

论文：Glow-WaveGAN：Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis

机构：西北工业大学，腾讯 AI 实验室

会议：INTERSPEECH 2021

2021 年 10 月 15 日 VITS 评估论文发布：

论文：ESPnet2-TTS Extending the Edge of TTS Research

代码：https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits

机构：开源机构 ESPnet、卡梅隆大学、东京大学等

目的：对先进的语音合成系统进行评估，尤其是 VITS；ESPnet 提供的 152 个预训练模型（ASR+TTS）中有 48 为 VITS 语音合成模型。