2023年作为AI元年,各个领域的技术都有大规模的革新,语音领域的TTS(语音合成)也有很多新技术出现,比如Bert-Vits2、OpenVoice等等,都风靡一时。
笔者由于工作需要,近一个月在调研开源TTS,由于业务需要,主要看合成音频的效果(MOS)和合成速度(RTF)这两个指标,以及克隆(Finetune)的效果,因为涉及的开源比较多,就不一一介绍模型原理了,后面会逐步发帖讲解(等我搞明白再说)。废话不多说,我们开始。
根据模型形态,TTS模型可以分为2大流派:两阶段式和端到端式。所谓两阶段式TTS,就是从文本输入到音频输出,中间经过两个模型,声学模型(Acoustic Model)和声码器(Vocoder),声学模型将文件转为梅尔频谱,声码器将梅尔频谱转化为波形,也就是我们听到的声音;端到端式TTS,顾名思义,就是一个模型搞定一切。
从时间发展上看,以2020年为界,之前可以说是两阶段式TTS的天下,声学模型主要有tacotron、tacotron2、fastspeech、fastspeech2,声码器就多了,如hifigan、melgan、waveglow、wavenet等等;自从2021年Vits出现之后,打破了两阶段式TTS的模式,毕竟谁不喜欢效果更好+训练更方便的模型。Vits作为端到端TTS的鼻祖,后续大家的研究基本都以它为基础,如Vits2、Bert-Vits2、Vits-Fast、MeloTTS 等等。
后面的讲解也分为