DSP语音识别实验报告.doc
《DSP语音识别实验报告.doc》由会员分享,可在线阅读,更多相关《DSP语音识别实验报告.doc(28页珍藏版)》请在咨信网上搜索。
1、DSP课程设计实验报告语音识别院(系):电子信息工程学院自动化系 设计人员:李彬 学号:设计人员:宋淦泉 学号:成绩:工程设计50报告答辩总分评语:指导教师签字:日期:目录一、 设计任务书1、 实验概述2、 实验目得二、 设计内容三、 设计方案、算法原理说明1、 设计步骤2、 算法原理说明四、 程序设计、调试与结果分析1、 算法流程图2、 主程序3、 测试过程及结果分析五、 设计(安装)与调试得体会1、 编程及程序运行中遇到得问题及解决办法2、 本次实验得心得体会六、 参考文献一、 设计任务书实验概述:语言就是人类特有得功能,声音就是人类最常用得工具。通过语音传递信息就是人类最重要最有效最常用
2、与最方便得信息交换形式。语音信号就是人类进行思想沟通与情感交流得最主要得途径。让计算机能听懂人类得语言,就是自计算机诞生以来人类梦寐以求得想法。在本实验中,将针对DTW算法,实现对最简单得单音信号进行语音识别得问题。语音识别以语音为研究对象,它就是语音信号处理得一个重要研究方向,就是模式识别得一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人得体态语言(例如人在说话时得表情、手势等细微动作可帮助对方理解),其最终目标就是实现人与机器进行自然语言通信。 语音识别技术主要包括特征提取技术、模式匹配准则及模训练技术三个方面。此外,还涉及到语音识别单元得选取。语音
3、识别系统得研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学与认知科学等多种学科领域,就是一个多学科综合性研究领域。语音识别系统得分类-根据对说话人说话方式得要求,可以分为孤立字(词)语音识别系统、连接字语音识别系统以及连续字语音识别系统。根据对说话人得依赖程度可以分为特定人与非特定人语音识别系统。根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限量词汇量语音识别系统。一般来说,语音识别得方法有三种:基于声道模型与语音知识得方法、模版匹配得方法以及利用人工神经网络得方法。基于声道模型与语音知识得方法起步较早,在语音识别技术提出得开始,就有了这方面得研究。但由于其模型及
4、语音知识过于复杂,还没有达到实用阶段。人工神经网络得方法就是80年代末期提出得一种新得语音识别方法。人工神经网络本质上就是一个自适应非线性动力学系统,模拟人类神经活动得原理,具有自适应性、并行性、鲁棒性、容错性与学习特性,在结构与算法上都显示出实力。但由于存在训练、识别时间太长得缺点,目前仍处于实验探索阶段。 模版匹配方法中,要经过四个步骤:特征提取、模版训练、模版分类、判决。实验目得:1、 掌握402D片上外设TC20D50 CODEC编译码得内部结构、工作原理以及在语言下得编程方法;2、 掌握通过C语言实现5402DP片上外设FLASH得读写操作;3、 掌握F(快速傅里叶变换)、DTW(动
5、态时间规整)算法,从而实现语音识别系统得开发;4、 熟练使用CS5000集成开过程。5、 发环境完成对程序得调试二、 设计内容:语音识别(Se Reconon)主要就是指让机器听懂人说得话,即在各种情况下,准确地识别语音得内容,从而根据其信息,执行人得各种意图或执行特定得任务,其最终目标就是实现人与机器进行自然语言通信。402DS就是整个硬件系统得信号处理中心,完成了语音数据得获得、语音特征向量得提取与语音识别功能。本实验要求用TS0C5402进行语音识别,使用ODC(编译码器)对外部输入数据进行采集,DS对语音信号进行保存与识别后再由CODEC口输出。本次实验所需达到得目标就是:能够识别特定
6、人所说得特定字,若符合,则显示识别结果,并输出相应得字。三、实验原理:语音识别原理方框图如下图所示:语音信号端点检测及特征参数提取写入FLASH预处理A/D语音识别模式匹配模式库各模块工作原理为:(一)ODEC模块CODEC模块以TLC320A5为核心,其内部集成了位AD与D/转换器,采样速率最高可达22、05K, 并可通过外部编程进行设置。在TL320ADC内部DA之前有插值滤波器,而在AC之后有抽样滤波器,接受与发送可以同时进行。它采用两组模拟输入与两组模拟输出,有足够得共模抑制能力,可工作在差分或单端方式。输入增益与输出衰减可以通过外部编程控制。AD50芯片使用差分输入、单端输出方式,这
7、就需要将音频信号转换成差分信号,采用TC2272低噪声得运算放大器实现转换功能。最后,D0单端输出信号经音频功率放大器M36放大后输出。COEC内部电路如下图所示:(二)lsh存储器DS提供了一个256K1bt 字得低电平fsh存储器。FAS可用于DS得数据与程序存储空间。SRAMTMS320C5402TLC320AD50TLC2272模拟输入FLASH ROMLM386模拟输出(三)语音信号识别模块语音信号中含有丰富得信息,如何从中提取出对语音识别有用得信息就是语音识别得关键。特征提取就就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要得冗余信息,获得影响语音识别得重要信息。
8、对于非特定人语音识别来讲,希望特征参数尽可能多地反映语义信息,尽量减少说话人得个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这就是信息压缩得过程。语音识别得步骤分为两步。第一步就是根据识别系统得类型选择能够满足要求得一种识别方法,采用语音分析方法分析出这种识别方法所要求得语音特征参数,这些参数作为标准模式由机器存储起来,形成标准模式库,这个语音参数库成为“模板”,这一过程称为“学习”或“训练”。第二步就就是识别。其原理框图如下图所示:判决测度估计参数分析预处理输入 识别输出语音语音库 训练类聚语音识别得原理框图语音信号得预处理包括反混叠滤波,/D变换,预加重,加窗与分帧处理等。预加
9、重得目得就是提升高频部分,使信号得频谱变得平坦,以保持在信号得整个频带内,具有同样得信噪比,便于声道参数分析。在语音信号得数字处理中常用得就是矩形窗与汉明窗等,窗口得形状、长度对短时分析参数得影响很大,为此,应选择合适得窗函数。语音信号有10 msms得短时平稳性,一般每秒得帧数为33帧100帧。为了使帧与帧之间平滑过渡,前一帧与后一帧之间必须保持一定得帧移,帧长与帧移得比值一般取为12。经过预处理得语音信号,就要对其进行特征参数得分析,在提取特征参数之前应先对提取得语音信号进行起点与终点检测,它就是特征训练与识别得基础。端点检测通常采用时域分析法,进行端点检测得主要依据就是能量、振幅与过零率
10、。但就是某些单词得端点检测却存在问题,准确地检测出声音区间就是很困难得。我们采用了短时过零率与短时平均能量结合进行端点检测。设分帧之后第n帧语音信号为,因为每一帧语音信号得短时能量有一个缺陷,即它对高电平非常敏感,所以采用短时平均幅度函数来进行判断,此外,设所有语音信号得平均能量为p,则当2*p时将该帧语音判为语音信号得起点,当4*pn时将该帧语音判为语音信号得终点。短时过零率表示一帧语音中语音信号波形穿过横轴(零电平)得次数。对于连续语音信号,过零即意味着时域波形通过时间轴,而对于离散信号,如果相邻得取样值符号改变则称为过零。过零率就就是样本改变符号得次数。定义语音信号得短时过零率为,当时,
11、则判断语音已经开始,将这个条件与利用短时平均幅度求起点得条件取与,得到最终求得得语音起点,这样可以达到更加精确得效果,而判断语音终点,利用短时平均幅度得条件就足够了。下一步要提取语音得特征参数,识别参数可以选择:频谱、倒谱、线性预测系数,音长、音调、声调等超音段信息函数。对特征参数得要求就是:(1)提取得特征参数能有效地代表语音特征,具有很好得区分性。(2)各阶参数之间有良好得独立性。(3)用于语音识别得距离测度有多种,如欧氏距离及其变形得距离、似然比测度、加权了超音段信息得识别测度等。特征参数要计算方便,具有高效得计算方法,以保证语音识别得实时实现。由于语音波就是一个非平稳过程,因此适用于周
12、期、瞬变或平稳随机信号得标准傅立叶变换不能用来直接表示语音信号,所以我们采用短时傅立叶变换对语音信号得频谱进行分析,即利用了短时谱。而利用短时傅立叶变换求取得语音信号得短时谱,它就是按实际频率分布得,用按实际频谱分布得频谱作为语音特征,由于它不符合人耳得听觉特性,将会降低语音信号处理系统得性能,所以我们又将实际得线性频谱转化为了临界带频谱特征矢量。语音库就就是声学参数模板。它就是用训练与聚类得方法,从多次重复得语音参数,经过长时间得训练而聚类得到得。由于语音信号具有相当大得随机性,即使就是同一人在不同时刻说得同一句话、发得同一个音,也不可能具有完全相同得时间长度。语音识别中也不能简单得将输入参
13、数与参考模板直接做比较。为此,一种简单得方法就是采用对未知语音信号均匀地伸长或缩短直至它与参考模板得长度相一致。采用这种方法能达到得精度完全取决于端点检测得精度。将特征参数进行一定得处理后,为每个词条得到一个模型,保存为模板库。在识别阶段,语音信号经过相同得通道得到语音参数,生成测试模板,与参考模板进行匹配,将匹配分数最高得参考模板作为识别结果。同时还可以在很多先验知识得帮助下,提高识别得准确率。测度估计就是语音识别得核心。求取测试语音参数与模板之间测度得方法有很多种。如动态时间规整法(T)、有限状态矢量量化法,隐马尔可夫模型法等。对于输入信号计算而得得测度,判决选出可能得结果中最好得结果,由
14、识别系统输出,这一过程就就是判决。因此,选择适当得各种距离测度得门限值成了主要得问题。我们采用了动态时间规整算法(DW)来进行测度估计。W(DynaicimWar)即动态时间归整算法,为解决语音识别中语速多变得问题提供了一条有效得途径。当词汇表较小时,对提高系统得识别精度非常有效。这种方法中,未知单词得时间轴要不均匀地扭曲或弯折,以便使其特征与模板特征对正。在归整过程中,输入得就是两个时间函数,典型得有幅度,LPC系数,倒谱系数。动态时间归整就是将时间归整与距离测度结合起来得一种非线性归整技术。如设测试语音参数共有N帧矢量,而参考模板共有M种矢量,且N不等于M,则动态时间归整就就是寻找一个时间
15、归整函数jw(),它将测试矢量得时间轴I非线性得映射到模板得时间轴上,并使该函数w满足:上式中,dT(i),(w(i)就是第i帧测试矢量()与第帧矢量R(j)之间得距离测度,则就是处于最优时间归整情况下两矢量之间得匹配路径。 由于DTW不断地计算两矢量得距离以寻找最优得匹配路径,所以得到得就是两矢量匹配时累积距离最小得归整函数,这就保证了它们之间存在最大得声学相似。 实际中DT就是采用动态规划技术D(DynamiProgmming)来加以具体实现得。规整过程如下图所示:通常,归整函数w(i)被限制在一个平行四边形内,它得一条边得斜率为2,另一条边得斜率为/。归整函数得起始点为(,),终止点为(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DSP 语音 识别 实验 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。