基于声纹的说话人特征识别.doc
《基于声纹的说话人特征识别.doc》由会员分享,可在线阅读,更多相关《基于声纹的说话人特征识别.doc(71页珍藏版)》请在咨信网上搜索。
1、基于声纹的说话人特征识别JIU JIANG UNIVERSITY 毕 业 论 文(设 计) 题 目 基于声纹的说话人特征识别 英文题目 Speaker feature recognition based on the voiceprint 院 系 专 业 姓 名 年 级 指导教师 2013年6月 65九江学院学士学位论文摘 要说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而自动识别说话人身份的技术。它也常被人们称为声纹识别技术,是生物认证技术的一种,其基本思想就是运用某种匹配方法进行特征识别,从而确定说话人的身份。目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平
2、均幅度、过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。 本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识别技术的应用前景。通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统,实验结果表明实验正确、有效。关键字:说话人识别;特征参数;基音周期;线性预测倒谱;Mel频率倒谱 Speaker feature recognition based on the voiceprintAbstractSpeaker recognition is
3、 the voice parameters in a speech waveform which reflects the speakers physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication technology.The basic ide
4、a is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate, formant, the line spectrum of the Linear Predicti
5、on Coefficient (LPC), Linear Prediction Cepstrum (LPCC) , Mel Frequency Cepstral (MFCC). This article describes the speaker identification concepts, principles and implementation methods of identification, and pointed out the prospect of speaker recognition technology. By the Matlab7.0 platform, voi
6、ce pitch, linear prediction cepstrum and Mel Frequency inverted spectra characteristic parameter extraction, analysis, contrast, identify a simple speaker recognition system, experimental results show that the experiment is correct, effective .Key Words:Speaker Recognition;Feature Parameter;Pitch;Li
7、near Prediction Cepstral Coefficient;Mel Frequency Cepstral Coefficient目 录摘 要IAbstractII目 录III引 言1第一章 说话人识别研究31.1说话人识别研究的意义31.2说话人识别应用领域31.3说话人识别的技术优势41.4说话人识别研究的难点和热点51.4.1说话人识别技术研究的难点51.4.2说话人识别研究的热点71.5影响说话人识别性能的因素71.6论文的内容安排9第二章 说话人识别的基本介绍102.1语音的基础知识102.1.1语音的产生原理102.1.2语音产生模型102.1.3语音信号的预处理技术1
8、22.2说话人识别的分类142.3说话人识别的基本原理162.4说话人识别的常用特征182.5说话人识别系统的结构框架182.6说话人识别的主要模型202.7说话人识别系统评价标准22第三章 特征参数的提取243.1 倒谱243.1.1 同态处理基本原理243.1.2 复倒谱和倒谱253.2线性预测倒谱(LPCC)的提取253.2.1 LPCC的介绍263.2.2 LPCC的提取过程273.2.3 Matlab中实现LPCC的提取273.3 Mel频率倒谱(MFCC)的提取283.3.1 Mel频率介绍283.3.2 MFCC提取过程293.3.3 Matlab中实现MFCC的提取313.4
9、基音周期的提取333.4.1基音周期的介绍333.4.2短时自相关函数343.4.3 MATLAB中实现基音周期的提取35第四章 说话人识别系统的实现364.1 实验实现的环境364.2 WAV声音文件格式分析364.3实验平台的选择374.4录音374.5 预处理和端点检测374.6实验所用语音库的建立384.7 系统实验框图和步骤394.8实验结果和分析414.8.1实验结果414.8.2 结果分析464.9 小结46参考文献47附 录48致 谢62九江学院学士学位论文引 言语音是人类交流信息的基本手段。随着信息科学飞速发展,如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交
10、叉学科,它和认知科学、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。语音信号处理技术的发展依赖这些学科发展,而语音信号处理技术的进步也会促进这些学科的进步。因此,语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。语音信号的研究一般都基于语音信号的数字表示,因此语音信号的数字表示是进行语音信号数字处理的基础。语音信号的数字表示基本上可以分为两大类:波形表示和参数表示。波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”,而参数表示则是把语音信号表示成某种语音产生模型输出。为了得到参数表述,首先必须对语音进行采样和量化,然后再进一步处理得到语音产生
11、模型的参数。语音模型的参数一般可分为两大类:一大类是激励参数;另一大类是声道参数。对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面:1.从语言中产生和听觉感知来研究语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动,从而形成声波的传播。听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动,然后逐级传递到大脑皮层的语音中枢。2.将语音作为一种信号来处理早期形成的数字滤波器、FFT等数字信号处理方法广泛应用在语音信号处理领域,后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。到了八十年代,出现了分析合成法、码激励线性预测(CELP)、矢量量化(V
12、Q)以及马尔可夫模型(HMM)等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容,但其前提是对语音信号进行分析。只有将语音信号表示成其本质特征的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别模版或知识库。而且语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要先用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就好。有如,利用带通滤波器组法来进行语音识别,其
13、先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此,应先对语音信号进行特征分析,得到提高语音识别率的有用数据,并据此来设计语音识别系统的硬件和软件。根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时,最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用的应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。常用的频域分析方法有带通滤波器组方法、傅里叶变化法和线性预测分
14、析法等。频谱分析具有如下有点:时域波形较容易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽建性。另外,语音信号的频谱具有非常明显的声学特征,利用频域分析获得的语音特征具有实际的物理意义。如共振峰参数、基音周期等参数。倒谱域是将对数功率谱进行反傅里叶变换后得到,它可以进一步将声道特征和激励特征有效的分开,因此可以更好地揭示语音信号的本质特征。语音信号处理的主要应用包括:语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。近年来,各个分支都取得了很大的进步,已经深入应用到通信、办公自动化、远程控制、声控电话拨号、计算机语音应答、机器人听觉与口语系统等使用系统中。本文要进行的是
15、语音信号处理在说话人识别中的应用,以完成说话人识别系统的功能实现。 人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理过程,人在讲话时使用的发生器官舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。这就使得每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对、一成不变的。这种差异可能来自生理、病理、心理、模拟、伪装,也可能与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,说话人的鉴定仍能区别不同的人或识别是否是同一个人的声音,从而进行个人身份识别。说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而
16、自动识别说话人身份的技术,主要包括特征提取和模式匹配两个部分。这项技术自研究发展至今,以其特有的方便性、经济性、安全性和准确性等优点受到特别关注,其研究和应用系统的开发具有重要的现实意义。作为生物特征识别技术的一种,说话人识别技术在声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮箱、安全控制、计算机远程登陆等互联网及通信领域得到广泛应用;在呼叫中心应用上,说话人识别技术同样提供更加个性化的人机交互;在军事领域,说话人识别技术用于战场监听,以辨认出敌方的指挥员;在生物识别技术领域中,说话人识别技术日益成为人们日常生活和工作中重要且普及的安全验证方式。第一章 说话人识别研究 说话人识
17、别(Speaker Recognition,SR)技术,也常被人们称为声纹识别(Voiceprint Recognition,VR)技术,是生物认证技术的一种。其基本思想就是运用某种匹配方法进行特征(本文指说话人的语音特征)识别,从而确定说话人的身份。1.1说话人识别研究的意义在生物学和信息学高度发展的今天,生物识别技术已经越来越广泛地应用于人们的工作、学习和生活中,作为一种便捷和先进的信息安全技术,它能满足现代社会对于身份鉴别的准确性、安全性和实用性的更高要求。生物识别技术的崛起得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展,由于它为身份识别提供了一个可靠的解决方案,其
18、应用前景广阔,并能为构筑21世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。生物识别技术是一种根据人体自身的生理特征(指纹、手形、脸部、DNA、虹膜、视网膜、气味等)和行为特征(声音、签名、击键方式等)来识别身份的技术。它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术,作为一种更加便捷、先进的信息安全技术,生物识别技术将全球带进了电子商务时代。说话人识别作为生物识别的一种,是通过由计算机利用语音波形中所包含的反映特定说话人生理、心理和行为特征的语音特征参数来实现自动识别说话人身份的。由于每个人的声音特征都是唯一的,而且几乎很少会发生变化的。说话人识别技术正式根据
19、这一特性,利用语音信号中说话人特有的“语音个性”,而不考虑语音中的字词意思,通过说话人识别系统对用户进行身份识别。在当今社会,说话人识别几乎可以应用到人们的日常生活的各个角落,成为人们生活中和工作中重要且普及的安全验证方式。1.2说话人识别应用领域由于与其他生物识别技术相比,说话人识别技术具有不可遗忘和忘记、不需记忆、使用方便等优点,同时说话人识别还具有更为准确、经济及可扩展性良好等众多优势,因此,说话人识别技术在以下许多方面得到广泛应用。1.用于银行、证劵系统目前电话银行,炒股等业务不断增加,为了进一步提高这些实时性高、风险性高的业务操作的安全性,可采用说话人识别技术并结合设定的密码及其他安
20、全措施进行真实、安全、有效地用户身份辨认,从而实现方便、快捷、安全有效地操作。2. 网络安全在日益频繁的电子商务、电子购物、国际贸易领域中,越来越多的人们依赖于网上各种口令和密码,随着密码在不同场合的频繁使用,这种非特征性的依赖缺陷安全缺陷,也越发明显。同时,记忆并定期修改众多的密码是非常让人头疼的事情。在说话人识别过程中,每次发音都可由随机产生的提示文本来控制,可有效的防止身份复制和账号、密码的盗窃,并且用户不需要记忆和修改任何东西。因此,在网上交易时采用说话人识别技术要比其他生物识别技术更具有优势,且操作方便、简洁,很容易为广大计算机使用者接受。3. 语音检索对于大量的录音素材,将说话人识
21、别技术与连续语音识别技术相结合,可以检索出其中我们感兴趣的特定人所说的内容。4. 用于身份鉴别利用不同人的声纹特征进行身份鉴别,为用户设计声纹打卡系统、声纹锁、声控防盗门、声控车载启动系统等等。如国内的“得意身份证”、“昭德数字”声纹门禁系统等。5. 用于军事安全随着现代信息技术的发展,现在各国的国防部门也已经逐步采用声纹信息管理系统,并将其应用到军事命令、机密情报等重要信息的获取和鉴别中。6. 医学应用说话人识别的主要依据是说话人声道结构的差异,从而可知说话人识别技术的研究和医学中生理学的发展是相互促进的,一方面生理学和解剖学的进展可以促进说话人识别问题的研究,另一方面也可借助说话人识别技术
22、进行声道特性的研究。例如为响应病人请求的命令,设计一个针对患者的说话人识别系统,可方便地实现患者需求的控制等。7.用于司法取证、刑事案件侦破对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在一段录音中查找出嫌疑人,帮助对嫌疑人的查证,1971年美国警方就利用此技术协助破案。另外,现在很多法庭已经使用声纹作为鉴别犯罪的依据。当然,这也需要防止发音伪装的问题。1.3说话人识别的技术优势生物识别技术是目前最为方便、安全和环保的识别技术,具有不会遗失、无需记忆等优点。此外,与其他生物认证技术相比,说话人识别技术还有以下几个方面的优势:(1) 用户接受程度高以说话人的声音作为特征进行识别,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 声纹 说话 特征 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。