语音识别基础,总有一天你会用到 今天语音搜索了吗( 二 )

6对话系统要注意的是 , 我们上面所说的应用场景和系统讨论 , 都是基于的举例 。语音识别技术只是其中关键的一环 , 想要组建一个完整的语音对话系统 , 还需要其他技术 。语音对话系统:(包含以下系统的一个或多个)

  • 语音识别系统:语音-->文字
  • 语义理解系统:提取用户说话的语音信息
  • 文字转语音系统:文字-->语音
  • 对话管理系统:1)+ 2)+3)完成实际应用场景的沟通

语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

语音识别系统语音识别问题 , 其实是一个模式识别的问题 。给你一段声波 , 机器判别是a还是b 。这个过程有两大块 , 一个是生成机器能理解的声音向量 。第二个是通过模型算法识别这些声音向量 , 最终给出识别结果 。每一块中间都有很多细小的步骤 , 我们后面会提到 。1系统架构概述下图是语音识别系统的组成结构 , 主要分4部分: 信号处理和特征提取、声学模型(AM)、语言模型(LM)和解码搜索部分 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

左半部分可以看做是前端 , 用于处理音频流 , 从而分隔可能发声的声音片段 , 并将它们转换成一系列数值 。声学模型就是识别这些数值 , 给出识别结果 。后面我们会详细解释 。右半边看做是后端 , 是一个专用的搜索引擎 , 它获取前端产生的输出 , 在以下三个数据库进行搜索:一个发音模型 , 一个语言模型 , 一个词典 。
  • 表示一种语言的发音声音 ,可通过训练来识别某个特定用户的语音模式和发音环境的特征 。
  • 表示一种语言的单词如何合并。
  • 列出该语言的大量单词  , 以及关于每个单词如何发音的信息 。
a)信号处理和特征提取:以音频信号为输入 , 通过消除噪声和信道失真对语音进行增强 , 将信号从时域转化到频域 , 并为后面的声学模型提取合适的有代表性的特征向量 。b)声学模型:将声学和发音学的知识进行整合 , 以特征提取部分生成的特征为输入 , 并为可变长特征序列生成声学模型分数 。c)语言模型:语言模型估计通过训练语料学习词与词之间的相互关系 , 来估计假设词序列的可能性 , 又叫语言模型分数 。如果了解领域或任务相关的先验知识 , 语言模型的分数通常可以估计的更准确 。d)解码搜索:综合声学模型分数与语言模型分数的结果 , 将总体输出分数最高的词序列当做识别结果 。2语音识别技术详解看完上面的架构图 , 你应该有个大致的印象 , 知道整个语音识别是怎么回事儿了 。下面我们详细说一些重要的过程 。2.1 语音识别单元 我们的语音内容 , 由基本的语音单元组成 。选择要识别的语音单元是语音识别研究的第一步 。就是说 , 你要识别的结果是以什么为基础单位的?是单词还是元音字母? 语音识别单元有单词 (句) 、音节和音素三种 , 具体选择哪一种 , 根据具体任务来定 , 如词汇量大小、训练语音数据的多少 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: