语音合成（TTS）开源调研与测评

语音合成（TTS）开源调研与测评

news/2024/7/20 18:13:21 标签: tts, 语音合成, vits, 大模型

2023年作为AI元年，各个领域的技术都有大规模的革新，语音领域的TTS（语音合成）也有很多新技术出现，比如Bert-Vits2、OpenVoice等等，都风靡一时。

笔者由于工作需要，近一个月在调研开源TTS，由于业务需要，主要看合成音频的效果（MOS）和合成速度（RTF）这两个指标，以及克隆（Finetune）的效果，因为涉及的开源比较多，就不一一介绍模型原理了，后面会逐步发帖讲解（等我搞明白再说）。废话不多说，我们开始。

根据模型形态，TTS模型可以分为2大流派：两阶段式和端到端式。所谓两阶段式TTS，就是从文本输入到音频输出，中间经过两个模型，声学模型（Acoustic Model）和声码器（Vocoder），声学模型将文件转为梅尔频谱，声码器将梅尔频谱转化为波形，也就是我们听到的声音；端到端式TTS，顾名思义，就是一个模型搞定一切。

从时间发展上看，以2020年为界，之前可以说是两阶段式TTS的天下，声学模型主要有tacotron、tacotron2、fastspeech、fastspeech2，声码器就多了，如hifigan、melgan、waveglow、wavenet等等；自从2021年Vits出现之后，打破了两阶段式TTS的模式，毕竟谁不喜欢效果更好+训练更方便的模型。Vits作为端到端TTS的鼻祖，后续大家的研究基本都以它为基础，如Vits2、Bert-Vits2、Vits-Fast、MeloTTS 等等。

后面的讲解也分为

http://www.niftyadmin.cn/n/5460315.html

相关文章

Redis--缓存常用的 3 种读写策略

Redis--缓存常用的 3 种读写策略

Cache Aside Pattern旁路缓存模式 Cache Aside Pattern 是平时使用较多的一个缓存读写模式，比较适合读请求比较多的场景。 Cache Aside Pattern 中服务端需要同时维系 db 和 cache，并且是以 db 的结果为准。缓存读写步骤： 写&#xff1a…

阅读更多...

【LeetCode热题100】20. 有效的括号（栈）

【LeetCode热题100】20. 有效的括号（栈）

一.题目要求给定一个只包括 ‘(’，‘)’，‘{’，‘}’，‘[’，‘]’ 的字符串 s ，判断字符串是否有效。有效字符串需满足： 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。…

阅读更多...

蓝桥杯刷题-重新排序

蓝桥杯刷题-重新排序

重新排序差分： s,d [0]*100010,[0]*100010 tmp 0 n int(input()) a list(map(int,input().split())) a.insert(0,0) for i in range(1,n1):s[i] s[i-1] a[i] m int(input()) for _ in range(m):l,r map(int,input().split())# [l,r]的和tmp s[r] - s[l-1…

阅读更多...

CTF题型 php://filter特殊编码绕过小汇总

CTF题型 php://filter特殊编码绕过小汇总

CTF题型 php://filter特殊编码绕过小汇总文章目录 CTF题型 php://filter特殊编码绕过小汇总特殊编码base64编码string过滤器iconv字符集例题1.[Newstarctf 2023 week2 include]2.[Ctfshow web 117] php://filter 是一个伪协议，它允许你读取经过过滤器处理的数据流…

阅读更多...

深入理解 React 中的 children props 和 render props

深入理解 React 中的 children props 和 render props

深入理解 React 中的 children props 和 render props 在 React 中，children props 和 render props 是两种常见的组件复用模式，它们都可以帮助我们更好地组织和复用组件代码。虽然它们的实现方式有所不同，但都能够有效地实现组件之间的数据…

阅读更多...

4、Cocos Creator 动画系统

4、Cocos Creator 动画系统

目录 1、Clip 参数 2、动画编辑器 3、基本操作更改时间轴缩放比例移动显示区域更改当前选中的时间轴节点播放 / 暂停动画修改 clip 属性快捷键 4、模拟实验 5、动画事件 6、注意事项参考 Animation 组件是节点上的一个组件。Clip 动画剪辑就是一份动画的声…

阅读更多...

golang大小写规则的影响

golang大小写规则的影响

目录 golang大小写的规则： 1、可见性（visibility）： 2、包的导入和调用： 3、json序列化和反序列化： 4、结构体字段的导出和可见性： 5、方法和函数的导出和可见性 ： 6、常量和变…

阅读更多...

IDEA插件开发-File -＞ New 中添加一个mybutton

IDEA插件开发-File -＞ New 中添加一个mybutton

写一个IDEA插件，在IDEA的File -> New 中添加一个mybutton ，点击mybutton 后弹出一个提示对话框:被点击了 1. **设置开发环境**： - 安装IntelliJ IDEA，并确保您的IDEA版本支持插件开发。 - 在IDEA中创建一个新的Java项目&…

阅读更多...

最新文章