语音识别文献素材.ppt
《语音识别文献素材.ppt》由会员分享,可在线阅读,更多相关《语音识别文献素材.ppt(23页珍藏版)》请在咨信网上搜索。
1、LOGO语音音识别文献文献综述述n专业:通信工程:通信工程n学生:学生:顾文武文武n学号:学号:S151000805.目目录u研究背景与意研究背景与意义u语音音识别技技术u语音建模音建模单元元u声学模型声学模型u语言模型言模型u结语与致与致谢.u研究背景研究背景语言是人言是人类相互交流最常用、最有效、最重要和最方便的通信相互交流最常用、最有效、最重要和最方便的通信形式。随着形式。随着计算机的快速算机的快速发展,人展,人们生活的方方面面都离不开生活的方方面面都离不开计算机,那么算机,那么让计算机理解算机理解语言言显得十分重要,得十分重要,语音音识别技技术也将也将是是实现社会生活信息化和智能化社会
2、生活信息化和智能化进程中不可或缺的一程中不可或缺的一环1。近期,近期,通通过采用深度神采用深度神经网网络技技术,微,微软大大提升了大大提升了语音音识别的准确率,的准确率,错误率降低至率降低至18.5%。但是它。但是它还是一个科研是一个科研项目,目,实验条件十分理想。条件十分理想。一、研究背景及意一、研究背景及意义.一、研究背景及意一、研究背景及意义u研究意研究意义如今如今语音音识别技技术虽然有了然有了显著提高,但是仍存在著提高,但是仍存在诸多多问题有待解决有待解决2,如,如:1)语音信号会受到音信号会受到上下文上下文的影响而的影响而发生生变化化;2)发音人以及音人以及口音口音的的不同会的的不同
3、会导致致语音特征在参数空音特征在参数空间分分布的不同布的不同;3)同一同一发音人心理和生理音人心理和生理变化化带来的来的语音音变化化;4)不同的不同的发音方式和音方式和习惯引起的省略、引起的省略、连读等多等多变的的语音音现象象;5)环境和信道等因素造成的境和信道等因素造成的语音信号失真音信号失真问题。.二、二、语音音识别技技术语音音识别就是就是让机器能机器能够理解人理解人类语言,使它言,使它们能更好地能更好地对人的意人的意图做出正确反做出正确反应。语音音识别系系统是一种是一种模式模式识别系系统,是建立在一定的硬件平台和操,是建立在一定的硬件平台和操作系作系统之上的一套之上的一套应用用软件。件。
4、语音音识别的建模大致分的建模大致分为2个步个步骤:训练阶段得到相段得到相应“模板模板”,识别阶段利用搜索算法的到最段利用搜索算法的到最优解。解。.二、二、语音音识别技技术(是什么?)(是什么?)其中,X用表示语音信号,W表示文字序列。前一部分代表语言模型,表示一个文字序列本身的概率,也就是这一串词或字本身有多“像一句话”;后一部分代表声学模型,表示给定文字后翻译成这种语音信号的概率,即这句话有多大的可能发成这串音。.三、三、语音建模音建模单元元语音音识别中建模中建模单元的元的选取需要考取需要考虑一致性、共享性和可一致性、共享性和可训练性性3。语音音识别根据任根据任务的不同的不同,可以将可以将音
5、素音素、音音节或者或者词作作为基本的建模基本的建模单元。在元。在LVCSR的研究中的研究中,通常使用比通常使用比较细致的致的音素作音素作为建模建模单元。其次元。其次,常用上下文相关的音素建模方法常用上下文相关的音素建模方法(例如常用的三元音素建模例如常用的三元音素建模)来来对语音中的音中的协同同发音音现象象进行建行建模模。.四、声学建模四、声学建模常用的声学建模方法包含以下三种:常用的声学建模方法包含以下三种:(这个地方也个地方也应该有有文献引用吧!某某人提出什么方法文献引用吧!某某人提出什么方法啥的,常用的方法的的,常用的方法的话就把最初那个人提出来就好了,不就把最初那个人提出来就好了,不过
6、,也可以不用,也可以不用酱紫)紫)基于模式匹配的基于模式匹配的动态时间规整法(整法(DTW)-它基于它基于动态规划的思想,解决孤立划的思想,解决孤立词语音音识别中的中的语音信号特征参数序音信号特征参数序列比列比较时长度不一的模板匹配度不一的模板匹配问题。隐马尔可夫模型法(可夫模型法(HMM)-是在是在马尔可夫可夫链的基的基础上上发展起来的,它是一种基于参数模型的展起来的,它是一种基于参数模型的统计识别方法。方法。基于人工神基于人工神经网网络识别法(法(ANN)-以数学模型模以数学模型模拟神神经元活元活动,将人工神,将人工神经网网络中大量神中大量神经元并行分布运算的原元并行分布运算的原理、高效的
7、学理、高效的学习算法以及算法以及对人的人的认知系知系统的模仿能力充分的模仿能力充分运用到运用到语音音识别领域域。.四、声学建模四、声学建模u动态时间规整整DTW 4(这里是文献引用,里是文献引用,吗?标错了吧)了吧)(dynamic time warping)思想:由于思想:由于语音信号是一种具有相当大随机性的信号,音信号是一种具有相当大随机性的信号,因此在与已存因此在与已存储模型相匹配模型相匹配时,未知,未知单词的的时间轴要不均匀地扭要不均匀地扭曲或弯折,曲或弯折,以使其特征与模板特征以使其特征与模板特征对正正。特点特点:用用时间规整手段整手段对正是一种非常有力的措施,正是一种非常有力的措施
8、,对提高系提高系统的的识别精度非常有效。精度非常有效。.四、声学建模四、声学建模u隐马尔可夫模型法可夫模型法5(HMM)1.HMM思想是:思想是:HMM模仿人的言模仿人的言语过程,可程,可视作一个双重随作一个双重随机机过程程。一个是。一个是用具有有限状用具有有限状态数的数的马尔可夫可夫链来模来模拟语音信号音信号统计特性特性变化的化的隐含的随机含的随机过程程;另一个是与;另一个是与马尔可夫可夫链的每一的每一个状个状态相关相关联的的观测序列的随机序列的随机过程。程。2.HMM 2个重要假个重要假设一一阶马尔可夫假可夫假设:HMM当前当前时刻刻t所所处状状态st 只和前一只和前一时刻的状刻的状态st
9、-1 有关,与此前或者未来的其他有关,与此前或者未来的其他时刻的状刻的状态都无关都无关;输出无关假出无关假设:当前当前时刻的刻的输出出值仅受当前状受当前状态的概率密度支的概率密度支配,与配,与历史上已史上已经产生的其他生的其他输出出值和状和状态无关。无关。.四、声学建模四、声学建模3.HMM建模的建模的3个基本个基本问题-评估估问题,解,解码问题和和训练问题a、HMM数学表示数学表示HMM数学表示数学表示 ,表示表示观测序列,序列,代表代表HMM K个有限状个有限状态,代表初始代表初始时刻刻HMM处于于K个状个状态的分布概率,的分布概率,A代代表状表状态转移矩移矩阵,B代表不同状代表不同状态下
10、的下的输出概率分布函数。出概率分布函数。b、评估估问题在在观测向量向量O和和HMM模型模型 之之间存在着存在着隐藏的状藏的状态序列序列,任何一任何一个可能的状个可能的状态序列都能以一定概率序列都能以一定概率产生生观测向量向量O。所以。所以对于于 ,需要首先需要首先计算出算出HMM模型模型 按照特定的状按照特定的状态序列序列S进行行跳跳转时产生生O的概率的概率,再将所有可能存在的状再将所有可能存在的状态序列序列对应的概率的概率进行行累加累加,即即 .四、声学建模四、声学建模根据一根据一阶马尔科夫假科夫假设根据根据输出无关假出无关假设最最终化化简为物理意物理意义:首先首先,HMM由初始状由初始状态
11、以以 的概率跳的概率跳转到状到状态S1 ,并随之以并随之以输出概率出概率 产生生观测向量向量O1,依次下去,依次下去,一直到达一直到达T时刻刻。.四、声学建模四、声学建模c.解解码问题解解码问题是在是在给定定HMM模型模型 和和观测序列序列O以后以后,需要搜索需要搜索出出 中生成中生成O的最可能的状的最可能的状态序列。序列。常常见的的viterbi解解码算法算法6(收索算法)(收索算法),先定先定义了了时刻刻t位位于状于状态i的最的最优序列概率序列概率Vt(i),即:即:.四、声学建模四、声学建模递归计算算.四、声学建模四、声学建模d.训练阶段段语音音识别中中HMM模型参数模型参数值的估的估计
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 识别 文献 素材
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。