AI模仿语音特征项目（更新中）

石嘉懿的博客

| 注册

首页
TypeScript
SpringCloud
提问
博客
分享

生活

面试
BUG
学习

笔记

微信小程序

mysql

JSP+Servlet

VueJs

模电和数电

Spring

Mybatis

Oracle

运维

Linux

maven

redis

Shiro

Android

Nginx

SpringBoot
时间轴

石嘉懿的博客

AI模仿语音特征项目（更新中）

小石同学i 1733浏览 0评论 2022-01-20

一、关键词解析

Speaker encoder：说话人编码器，提取指定说话人语音的特征向量

Synthesizer：合成器，用文本结合上面的特征向量，产生将指定说话人特征融入指定文本对应的语音的频谱

Vocoder：声码器，用频谱生成语音

声音编码器（encoder）

把语音音频编码为指定维度的向量。
向量的相似度反映音频音色的相似度。如果两个音频的编码向量相似度越高，则这两个音频的音色越接近。
编码向量主要用于控制发音的音色。

GE2E声音编码器

谷歌在上发布了GE2E算法的论文，详细介绍了其声纹识别技术的核心实现方法。
这是一种基于批（batch）的训练方法，这种基于批的训练，则是将同一批中每个说话者与其最相似的说话者的声纹特征变得不同。
论文通过理论和实验论证了，这种始终针对最困难案例进行优化的训练方式，能够极大地提升训练速度和效果。

语音合成器（synthesizer）

把文本转为语音频谱数据。
语音合成器接收声音编码向量和文本数据，然后结合这些信息把文本转为语音频谱。
语音合成器的任务是把文本转为语音频谱，本质上是序列到序列的任务。
可以把文本看做一个一个字组成的序列，把语音频谱看做是由一个一个语音特征组成的序列，语音合成器就是把文字序列转为语音特征序列的桥梁。
语音合成器的关键就是怎样建立模型让文字准确的转为正确的读音，而且放在正确的位置，同时读音前后应当衔接自然，而且整个语音听起来也应当自然。
要实现这样的目标，应当做很有针对性的模型。

Mellotron语音合成器

Mellotron是英伟达团队提出的语音合成模型，主要目标是做韵律风格转换和音乐生成。
Mellotron可以更加精细化的调整韵律和音调，将基频信息引入模型刻画声调信息，基频是区别音高的主要元素。
Mellotron模型的训练完全端到端化，不需要在数据集中含有音乐数据也可以生成音乐。
Mellotron不需要对音调和文本进行人为的对齐就可以学到两者之间的对齐关系。
Mellotron可以使用外部输入的注意力映射表，从而实现韵律迁移。

声码器（vocoder）

把语音频谱数据转为语音信号。
语音信号和语音频谱数据并不是简单可以相互转换的数据，语音转为频谱是有信息丢失的，但是频谱记录了语音最主要的信息，可以通过其他技术手段把语音频谱尽可能逼真地逆变为语音信号，声码器就是这样的技术。
声码器是把声音特征转为语音信号的技术。
在语音合成任务中，声码器是负责把语音频谱转为语音信号。
通常语音频谱记录的语音信息并不是全面的，例如mel频谱只是记录了部分频段的幅度信息，缺失了相位信息，而且许多频率的信息也丢失了。
而声码器模型就是要从这样的频谱中尽可能准确全面地还原出语音信号。
现在通常的方案是用深度学习的方法来解决，针对语音特征和语音信号的关系进行建模。

Waveglow声码器

WaveGlow是英伟达团队提出的一种依靠流的从梅尔频谱图合成高质量语音的模型。
Waveglow贡献是基于流的网络，结合了Glow和WaveNet的想法，因此网络称为WaveGlow 。
WaveGlow是一个生成模型，通过从分布采样中生成音频。
WaveGlow易于实施，仅使用单个网络进行训练，仅使用似然损失函数进行训练。
WaveGlow是兼顾生成速度快、生成质量高、稳定性强的模型。

最后修改于 2022-01-20 11:50:45

如果觉得我的文章对你有用，请随意赞赏

扫一扫支付

上一篇下一篇

发表评论

还没有人评论哦~赶快抢占沙发吧~

“框架”

没有什么是加一层解决不了的问题

“网络名句”

音乐推荐

广告

热门文章

学习工程，公共的Git仓库代码地址
2021-10-11 43797

SpringCloud微服务的学习工程（仓库）以及笔记整理
2022-01-14 20912

Quartz持久化
2023-10-11 16922

JPA的使用以及JPA的介绍
2020-08-27 15255

Mybatis的高频面试题
2021-10-25 12783

热门标签

模拟电路数字电路 Vue.js Linux java node.js mysql Andoid学习资料 vue html

“掌握自己学习知识的能力，比被动获取任何知识都更重要” ——石嘉懿