语音识别基础,总有一天你会用到 今天语音搜索了吗( 四 )


语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

这样的波形图对机器来说没有任何描述信息 。这个波形图背后是很多不同频率的波叠加产生的 。(准确的讲 , 它在时域上没有描述能力) 我们希望一段声纹能够给出一个人的特性 , 比如什么时候高 , 什么时候低 , 什么时候频率比较密集 , 什么时候比较平缓等等 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

就是我们上面所说的 , 用傅里叶变化来完成时域到频域的转换 。这就需要对每一帧做傅里叶变化 , 用特征参数MFCC得到每一帧的频谱(这个过程就是特征提取 , 结果用多维向量表示) , 最后可以总结为一个频谱图(语谱图) 。如下图所示 , 是“hello”的频谱图 , 很酷是吧~横轴是时间 , 纵轴是频率 。颜色越亮 , 表示强度越大 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

b)常用的特性参数 特性提取时 , 我们有常用的特征参数作为提取模板 , 主要有两种:
  • 线性预测系数(LPC)
LPC 的基本思想是 , 当前时刻的信号可以用若干个历史时刻的信号的线性组合来估计 。通过使实际语音的采样值和线性预测采样值之间达到均方差最小 , 即可得到一组线性预测系数 。求解LPC系数可以采用自相关法 (德宾 durbin 法) 、协方差法、格型法等快速算法 。
  • 倒谱系数
利用同态处理方法 , 对语音信号求离散傅立叶变换后取对数 , 再求反变换就可得到倒谱系数 。你可以理解为 , 是比音素更细致的语音单位 。通常把一个音素划分成3个状态 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

如上图所示 , 识别过程无非是: