基于麦克风阵列的多声源测向方法研究.doc
《基于麦克风阵列的多声源测向方法研究.doc》由会员分享,可在线阅读,更多相关《基于麦克风阵列的多声源测向方法研究.doc(54页珍藏版)》请在咨信网上搜索。
分类号 密级 UDC注1 学 位 论 文 基于麦克风阵列的多声源测向方法研究 (题名和副题名) (作者姓名) 指导教师姓名 申请学位级别 硕 士 专业名称 电路与系统 论文提交日期 2014.02 论文答辩日期 2014.03 学位授予单位和日期 南 京 理 工 大 学 答辩委员会主席 评阅人 2014年 2月 24 日 注1:注明《国际十进分类法UDC》的类号。 声 明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。 研究生签名: 年 月 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。 研究生签名: 年 月 日 硕士论文 基于麦克风阵列的多声源测向方法研究 摘 要 基于麦克风阵列的多声源测向技术通过对麦克风阵列接收的多声源混合信号进行处理,从而确定各个声源的方位。它在很多领域都具有广泛的应用前景和实际意义,如在民用方面的视/音频会议、语音识别及增强等领域中,常利用声源测向技术精确估计出说话人位置来控制摄像头,使其自动对该位置的语音信号进行增强。在军事方面声源测向技术被广泛地应用在飞机,火炮、狙击手探测等方面。因此,该技术成为了语音信号处理领域的研究热点之一。 本课题针对基于麦克风阵列多声源测向问题展开研究,归纳总结并比较了传统的几类声源测向方法。本文以典型的双阵元麦克风阵列为研究对象,针对远场多声源模型,将基于语音信号时频正交特性的退化分离估计技术(DUET)应用于声源信号测向。该算法利用了语音信号特有的时频稀疏和短时正交特性(W-Disjoint Orthogonality,W-DO),基于此特性的时延估计算法计算量小,实现简单,仅用两个麦克风就可以实现多个声源的方位测向。但是当声源存在波长小于两倍阵元间距的高频成分时,此类声源测向方法将出现相位卷绕模糊问题,而阵元间距因物理尺寸限制也不可能无限缩小,因此限制了该类方法的实际应用领域。针对上述问题,本文提出了一种基于迭代时频掩蔽的宽间距麦克风阵列多声源测向方法,该方法通过迭代消去过程,显著抑制了相位卷绕产生的影响。此外,结合基于能量的语音端点检测技术,本文进一步给出了上述方法的实时处理算法步骤。针对上述方法,本文进行了仿真实验和相关外场实验,实验结果表明:针对宽间距麦克风阵列多声源测向,本文所述方法明显优于常规DUET类方法,具有一定的实际应用价值。 关键词:麦克风阵列 多源测向 时延估计 相位模糊 实时处理 47 Abstract Measuring multiple source direction in a microphone-array refers to that the direction of acousitc source is determined by mixed-signal imformation received from microphones. It is widely used in many areas, such as video / audio conferencing, speech recognition and speech enhancement etc. By estimating the speaker position to control the microphone and camera, then the automatic speech signal of the speaker can be enhanced.In the military area, the technology is widely used in the aspects of sniper detection and target detection of aircraft, artillery etc.Therefore, multiple sound source direction measurement is a new hotspot in acoustic signal processing field. This thesis mainly focuses on a study based on multiple sound source direction measurement technology. And the several categories of traditional sound source direction measurements are summarized and compared firstly. In this paper, the typical dual-microphone array is studied, focused on far-field multiple sound source mode, the degenerate unmixing estimation technique (DUET) based on W-Disjoint Orthogonality (W-DO) of the source signals is applied to the acousitc source direction measurement. The time delay estimation algorithm based on this characteristic has simple implementation, little computation.And it can measurement the directions of multiple acoustic sources with only two microphones.However, when the wavelength is less than twice the spacing of the two microphones, this kind of algorithm is prone to phase wrap-around aliasing, which often leads to artifacts. However the spacing can not be infinitely reduced, thus the practical applications is limited of such methods. In response to these problems, an approach to correct the phase wrap-around aliasing based on an iterative time-frequency masking process is presented in this paper. By iteratively clustering in the masked time-frequency plane and the artifacts due to the phase wrap-around aliasing can be extremely suppressed. In addition, combined with the speech endpoint detection technology that based on energy, the paper puts forward a real-time processing algorithm. For the above method, simulation and outdoor experiments are taken. The experimental results show that the method is superior to conventional DUET method, which proves that the method has a great practical application value. KeyWords:Microphone array, Multiple source localization, Time delay estimation, Disambiguity, Real-time processsing 硕士论文 基于麦克风阵列的多声源测向方法研究 目 录 摘 要 I ABSTRACT II 1 绪论 1 1.1 课题的研究背景及意义 1 1.2 基于麦克风阵列的声源测向技术简介 2 1.2.1 麦克风阵列声源测向技术的特点 2 1.2.2 麦克风阵列声源测向技术的应用领域 2 1.3 论文的结构安排 3 2 基于麦克风阵列的声源测向算法 5 2.1 基于最大输出功率的可控波束形成的方法 5 2.2 基于高分辨率谱估计技术的方法 7 2.3 基于声压幅度比的方法 7 2.4 基于时延估计的方法 9 3双阵元麦克风阵列时延估计方法 10 3.1 双阵元麦克风阵列信号模型 10 3.2 传统的时延估计算法 12 3.2.1 广义互相关函数法(GCC) 12 3.2.2 最小均方(LMS)自适应滤波 16 3.2.3 互功率谱相位法 17 3.3 基于声源信号时频正交特性的时延估计方法(DUET) 18 3.3.1 语音信号的加窗分帧处理 18 3.3.2 W-Disjoint Orthogonality (WDO)特性 20 3.3.3 DUET算法主要流程及仿真结果 22 3.3.4 DUET算法的局限性 25 4基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕 26 4.1 迭代时频掩蔽方法 26 4.2 算法仿真及外场实验结果与分析 29 4.2.1宽间距麦克风阵列双声源测向仿真实验结果与分析 29 4.2.2宽间距麦克风阵列三声源测向仿真实验结果与分析 31 4.2.3外场实测结果与分析 33 5 基于迭代时频掩蔽的宽间距麦克风实时多声源测向 37 5.1 实时多声源测向方法 37 5.1.1 语音端点检测 37 5.1.2 实时多源测向法的具体步骤 39 5.2 仿真实验结果与分析 41 6 结论与展望 44 6.1 结论 44 6.2 展望 44 致 谢 45 参考文献 46 附 录 硕士期间论文发表和专利申请情况 49 1 绪论 1.1 课题的研究背景及意义 声源测向技术是通过电子和声学装置采集声源信号来探测声源方向的一种技术,它在很多领域都有着广阔的应用前景[[] 黄海军. 基于传声器阵列的声源定位系统的初步研究[D]. 东华大学, 2013. ]。根据不同的探测方式,声测技术可以分成主动声测技术和被动声测技术。主动声测技术由发射和接收装置组成,比如根据主动声纳的发射信号的回波来判断目标源的位置。本课题研究的基于麦克风阵列的声源测向技术属于被动测向技术,它只有接收装置。麦克风阵列是指将若干个麦克风按照一定的几何结构组成阵列形式,相较于与单个麦克风有很多的优势。它具有较强的空间选择性,不需要移动麦克风就可以以电子扫描的方式实现目标声源的自动定位跟踪。基于麦克风阵列的多声源测向是指对麦克风阵列采集的多路语音信号进行分析处理,在多个声源的平面内得到各个声源的方位角,它相较于传统的测向系统具有隐蔽性强、可视距远、不受电磁波干扰等优势。 早在20世纪80年代,国外的一些发达国家就已经取得了一定的研究成果。在声测预警方面,以色列研制了一套AEWS声测预警系统,它可以探测慢速飞行的固定翼飞机、直升机、微型飞机等,其实质是一个声学传感器网络,将采集到的信号通过内部的控制中心处理得到的定位数据传送到地面作战指挥所;在直升机探测方面,英国Ferranti公司的 Picker直升机报警器和瑞典Swetron 公司的Helisearch直升机声测系统采用是被动式声探测技术,它是根据接收到的时延值来判断声源方向的[[] 王伟. 基于时延估计的被动声定位研究[D]. 国防科学技术大学, 2010. ]。其探测距离能够达到 15-20 km,方位精度可以精确到1度,同时它还有很强的多目标识别、探测的能力;在炮位侦查方面,具有代表性的是瑞典SATT通信公司研制的SORAS-6声测系统和美国工SC技术公司研制的PALS被动声探测系统[[] 严素清, 黄冰. 传声器阵列的声源定位研究[J]. 电声技术, 2005 (12): 27-30. ]。这两套系统都由无线电装置,传声器,信号处理计算机和测试子系统组成,它可迅速地测定火炮方位,并且具有很强的抗干扰性。在语音信号处理领域,早在二十世纪八十年代传声器阵列就已经被应用到语音识别、语音增强等系统中。进入二十世纪九十年代以后,它又有了很多其他方面的应用,如大型场所的会议记录、车载环境中的语音获取以及助听装置等[[] 吴俣. 基于麦克风阵列的声源定位技术的研究[D]. 成都: 电子科技大学, 2008. ]。由此可见,声探测技术在很多军用和民用系统中有着相当重要的意义。 目前,国内外已经出现了很多相关的产品,并已广泛地应用到社会各个领域,尤其是近年来无线传感器网络(wireless sensor networks, WSN)在学术研究和工业应用等领域都受到了极大关注,而其中基于传声器阵列的声测节点通过网络融合进行目标感知、定位、跟踪等方面的研究也成为当前研究热点之一,因此开展基于麦克风阵列的多声源测向方法研究有着较为重要的意义。 1.2 基于麦克风阵列的声源测向技术简介 1.2.1 麦克风阵列声源测向技术的特点 麦克风阵列是分布在空间中的、按照一定方式排列的多个麦克风以更好得获取目标的空间信息。它是在传统的阵列信号处理基础上发展起来的,和传统的阵列信号处理的区别在于以下几个方面: (1)传统阵列信号处理的是有调制载波的窄带信号比如雷达信号。而麦克风阵列处理的是没有经过调制的宽带信号,频率一般集中在30~3000Hz。 (2)传统阵列信号处理的通常是准平稳或者平稳信号,但是麦克风阵列处理的通常是非平稳的语音信号。 (3)传统阵列信号处理一般建立在远场模型的基础上,而麦克风阵列可以根据实际不同的情况选择近场或者远场模型。 麦克风阵列实现被动声源的测向的方法较其他探测方法而言,它具有以下几点优势: (1)不受视线的限制。由于声波可以绕过障碍物,因此声探测系统可以探测障碍物后的声源位置,突破了激光,无线电等探测方式的局限。 (2)隐蔽性好。基于麦克风阵列的被动声探测系统可以避免电磁波的干扰,工作隐蔽性强,不易被发现。 (3)受外界环境的影响小。声探测系统可以在阴天、雾天等环境下正常使用,受外界环境影响较小。 (4)生产成本低。由于声探测系统的成本相对较低,因此它可以实现大量地布设,以扩大侦测的面积。 1.2.2 麦克风阵列声源测向技术的应用领域 随着对麦克风阵列技术的不断深入研究,基于麦克风阵列的声测系统应用也日益广泛,在国防军事、音/视频会议、人机交互等许多领域方面都有重要的开发潜力与科研价值。 在国防军事领域,声源测向技术最早被应用在飞机、坦克、火炮等目标的探测方面,为了提高准确度,也常结合其他探测方式比如磁场探测、红外探测等。目前国内外又利用该技术为战车和单兵系统配备了便携式的声测系统来帮助士兵监测战场的环境,这些便携系统可以快速准确地检测到炮位、飞机或坦克等方位[[] 邵怀宗SHZ. 基于麦克风阵列的声源定位研究[J]. 云南民族大学学报 (自然科学版),2004,13(4): 256-258,267. ]。 此外在反狙击手方面声测向技术也得到了很好应用。在城市巷战中,只有准确、快速地发现并消灭狙击手,才能保障进攻方的行动安全。反狙击手声测定位仪通过接收并测量膛口激波和弹丸飞行产生的冲击波来确定狙击手的位置,常见的有固定设置车载型和单兵佩挂型[[] 胡郢. 麦克风阵列声源定位和语言增强技术研究[D]. 哈尔滨工程大学, 2008. ]。 在民用方面,声源测向技术最早被应用在大型会场与视频会议当中,若将一个麦克风放在某个固定位置,那么当说话人距离麦克风较远时,最终的语音信号将会变弱,为了使该语音信号增强,通常当谁发言时就把麦克风传递给谁,这种方法成本低,但是使用不便。或者为每个人配置一个麦克风,然而这种方法在参会者众多时花费太高,不太符合实际。然而当采用基于麦克风阵列的声探测系统时,说话人在发言的时候能够自动地把摄像机与麦克风阵列聚焦到说话人,从而增强说话人的声音,与此同时也抑制了会场中的噪声。这样在提高了音视频结合的效果的同时也避免了安放多个采音系统,从而节省了很多成本[[] Fallon M F, Godsill S J. Acoustic source localization and tracking of a time-varying number of speakers[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(4): 1409-1415. ]。 麦克风阵列的声测向系统在车载电话应用方面也起着很重要的意义。驾驶员如果在高速驾驶时手接电话就容易产生安全问题,为避免这一安全问题出现了车载免提电话。但是当车内环境噪声较大或者车内有多人说话时就对车载电话的接听产生影响,这时如果将麦克风阵列自动定位驾驶员的位置,那么就可以针对该位置加强驾驶员的声音,与此同时抑制来自其他方向的噪声。这样就能使车载免提电话的效果得到大大提升。 随着科技的发展,机器人开始进入人类的生活为人类进行服务。语音是一种控制机器人最常见的方法,人类通过对机器人下达语音指令来使机器人完成一系列工作。所以机器人可以通过安装在身上的麦克风阵列来实时的定位出当前用户的具体位置。在多机器人协作系统中,也常常结合基于激光,超声波,视觉的定位方法[[] 朱伟涛. 面向人与机器人交互的目标跟踪与识别算法研究[D]. 杭州电子科技大学, 2009. ]。和这些定位方法相比,基于麦克风阵列的声源测向有可视距离远的优点,因此在有障碍物遮挡或者光线不好时都可以起到很好的定位作用。 1.3 论文的结构安排 第一章:主要介绍本课题研究的背景,特点以及应用领域。 第二章:主要介绍声源测向技术中传统的几种算法,如最大输出功率的可控波束形成方法,高分辨率谱估计法,时延估计法等等,并且分析这几种算法各自的优缺点。 第三章:研究双阵元麦克风阵列时延估计方法,主要包括简要介绍双阵元麦克风阵列模型以及几种传统的时延估计算法,如广义互相关法,最小均方自适应滤波法,互功率谱相位法。然后介绍基于语音信号时频正交特性的时延估计算法(DUET),包括DUET算法的主要流程以及实验仿真,最后指出了该算法在宽间距麦克风阵列情况下存在的相位卷绕问题。 第四章:详细阐述了本文提出的基于迭代时频掩蔽的宽间距麦克风阵列相位解卷绕方法,说明了方法原理和实现步骤,进行了仿真实验和外场实验验证,并对实验结果进行了分析。 第五章:结合语音端点检测技术,也即语音活动检测(voice activity detection, VAD)技术,给出了宽间距麦克风阵列多声源实时测向方法的实现过程,通过仿真实验验证了该方法的可行性。 第六章:对本文进行了总结,并对未来进一步开展研究的思路进行了展望。 2 基于麦克风阵列的声源测向算法 2.1 基于最大输出功率的可控波束形成的方法 可控波束形成法是出现最早的一类测向方法,常被应用在声纳、雷达和移动通信方面。该类算法的主要过程是,在频域内将各个传声器阵元接收到的信号通过加权求和来形成波束,然后调节阵列的接收方向,使其在信号接收空间内进行扫描来搜索目标可能的位置,同时不断地修改调整加权值使阵列的输出功率达到最大,此时指向的波束输出信号功率最大的点就是声源的位置[[] 鲁佳. 基于传声器阵列的声源定位研究[D]. 天津: 天津大学, 2008. -[] 张青. 基于时延估计的声源定位算法的研究[D]. 北方工业大学, 2012. ]。 采用不同的波束形成器可以得到不同的算法,目前主要有两类算法,一是时延求和波束算法,另一个是自适应波束算法。时延求和波束形成器的相位和信号到达的时间差有关,该波束形成器的权值主要取决于阵元信号的相位延迟。其原理如下图所示: 图2.1 时延求和波束形成法原理 如果有个线性排列的麦克风阵元,声源信号表示为,高斯白噪声表示为,和是互不相关的随机过程,搜索的声源方位角为,为声源到达阵元的时延。暂不考虑能量衰减和混响的因素,则第个阵元采集的信号可以表达为: (2.1) 对上式进行傅里叶变换可以得到: (2.2) 式(2.2)在频率处的向量形式为: (2.3) 其中,,,。 由于是一个高斯随机过程,所以它的条件概率分布可以表示为: (2.4) 其中的为阵元接收信号的互谱密度 (2.5) 将式(2.3)代入式(2.5)可以得到 (2.6) 其中,。 对式(2.4)求对数可以得到: (2.7) 其中, (2.8) 选择合适的使得式(2.7)取得最大值,即也就是为最大时,这时候的就是我们需要的目标源的方位估计。求式(2.7)的最大值也就相当于求 (2.9) 的最大值,其中 (2.10) (2.11) 此时我们所求的信源方位角为: (2.12) 图2.2所示为一种可控波束形成算法的仿真,其中阵元个数为15,目标源位置为20°。 图2.2 可控波束形成算法仿真示例 基于时延求和的可控波束形成方法原理简单,容易实现,计算量小,但是也存在一些缺点,如它的抗噪性能较差,通常需要增加阵元个数才能得到提高它的抗噪性能,这样势必会增加成本。对于自适应算法来说,由于它存在自适应滤波这一过程,所以不仅会增加运算量而且会导致输出信号有一定的失真,不过自适应算法需要的麦克风个数较少,成本小。从本质上来说可以将可控波束形成法看成一种最大似然估计,因此它同样需要声源和背景噪声的先验知识,但这种先验知识在实际应用中通常很难获得。除此之外,因为最大似然估计又属于非线性优化问题,对初始点的选择比较敏感,而且它的目标函数一般有多个极点。所以,利用传统的梯度下降法通常会陷入局部极小点导致找不到全局的最优点 [[] 赵文峰. 基于麦克风阵列的声源定位系统研究及实现[D]. 武汉: 华中科技大学, 2009. ]。 2.2 基于高分辨率谱估计技术的方法 高分辨率谱估计法是建立在时域谱估计、空域滤波基础上的一类算法。它是利用接收信号相关矩阵的空间谱,通过求解阵元间的相关矩阵来获得最终目标的方位角[[] 郭俊成. 基于传声器阵列的声源定位技术研究[D]. 南京航空航天大学, 2007. ]。此类算法的提出主要是为了提高处理带宽内信号的角度分辨率,估计精度等。目前主要的方法有最小方差谱估计法(MV)、自回归模型法(AR)、ESPRIT法和特征值分解法(如MUSIC法)等等[[] 严素清, 黄冰. 传声器阵列的声源定位研究[J]. 电声技术, 2005 (12): 27-30. ]。这些方法定位精度一般都比较高,并且已成功地应用在阵列信号处理系统中,但是这类方法在声源测向中的应用效果往往不太理想。其原因主要有以下几个方面: (1) 高分辨率谱估计算法所需的信号空间相关矩阵在实际应用中通常是未知的,需要经过估计信号的时间平均值才能得到[[] 杨祥清, 汪增福. 基于麦克风阵列的三维声源定位算法及其实现[J]. 声学技术, 2008, 27(2): 260-265. ]。这就要求在整个估算过程中信号平稳,但是声音信号是一个短时平稳的过程,因此高分辨率谱估计方法在声源测向应用中的鲁棒性没有传统的波束形成方法好。 (2) 高分辨率的谱估计法往往需要信号源是理想点源,并且要求麦克风的特性完全相同,由于这些要求在实际中很难做到,所以将会导致误差较大。虽然,我们可以采用一些方法来减小这些因素的影响,但这会大幅度地增加计算复杂度和运算量。 (3) 高分辨率谱估计法通常是假定声源在远场,当需要近距离声源测向的时候,此方法误差将会非常大,因此该方法不适用于近场的声源测向。 (4) 高分辨率谱估计法一般处理的是窄带信号所以处理语音这一类宽带信号时,必须对已有的算法进行改进,这也势必会增加它的运算量。 2.3 基于声压幅度比的方法 这类基于声压幅度比的方法和双耳效应中的耳间声强差的原理相似,由于声源信号在到达不同麦克风的过程中在声音强度上有不同程度的衰减,所以我们可以利用这个强度差异再结合一些其他条件就能判断出目标声源的方位。首先利用麦克风处产生的输出电压和声源与麦克风间的距离推导出一个约束条件,然后再用这个条件在三维空间里确定出一个球面。同理对于每个麦克风,我们都可以推导出这样的一个约束条件,最后结合这些约束条件就可以确定出声源的位置。我们以二维平面上的声源定位问题为例简单地对此类方法进行分析。示意图如下所示。 图2.3 二维平面声压幅度比声源定位示意图 设在X轴上有四个麦克风,它们以相等的间距排列,坐标依次为(-3a,0),(-a,0),(a,0)和(3a,0)。设声源的坐标位置为S(x,y),那么声源到四个麦克风的距离分别为: (2.13) (2.14) (2.15) (2.16) 如果第i 个麦克风采集到的的声压幅度是,则有如下关系表达式: (2.17) (2.18) 将式(2.17)、(2.18)代入上面(2.13)~(2.16)可以得到只有变量x和y的一个二元二次方程组。结合该方程组得到解和声源的先验知识,就能够得到目标源的具体位置。同理在三维空间的情况下,我们只要通过不在同一个平面内的四个麦克风就能得到声源的具体位置。 基于声压幅度比的方法原理简单,易于实现,但是该类算法的准确度很容易受外在条件的影响,比如麦克风灵敏度不一致,环境噪声,采样率等因素。 2.4 基于时延估计的方法 除了上述的几种传统测向算法,近年来发展起来的基于时延估计的测向方法由于它运算量小并且精度相对较高而被广泛地应用。时延估计算法的基本思想分两步:第一步首先估计出两两麦克风之间的时间延迟值,时延值的估计目前主要有广义互相关GCC(Generalized Cross Correlation ) 法、互功率谱CSP(Cross-power Spectral Phase)法、LMS 自适应滤波器法以及高阶统计量法等等。其中的广义互相关法运用的最为广泛,它是在基本互相关(GCC)法的基础上发展起来的,由于GCC算法的性能容易受到混响的影响,所以广义互相关法对信号在频域内进行加权处理,抑制混响及噪声带来的影响。第二步再利用估计出来的时延值,结合麦克风阵列的空间几何关系来获得声源的方位角,通常利用几何法或者搜索法,比如球型差值法[[] 居太亮. 基于麦克风阵列的声源定位算法研究[D]. 成都: 电子科技大学, 2006. ]。 例如在无混响,信噪比为10dB的仿真条件下,对时延值为20个采样点的单声源信号通过PHAT函数加权的广义互相关GCC得到的相关函数如下图2.3所示: 图2.3 GCC-PHAT加权函数法仿真 基于时延估计的方法成本低、实时性好、运算量较前几种传统算法大大减小。而它的不足在于:第一,由于该算法是分为两步完成的,在第二步中使用的参数是对过去时间的估计,说明这只是对声源方位的次最优估计;第二,在环境噪声较大或者反射混响强烈的情况下,会严重影响时延的精确度;第三,传统的时延估计方法通常比较适合单声源的测向,对于多声源的测向效果往往不够理想;第四,因为时延估计法受到系统采样率、阵列结构等条件的限制,所以此类算法的精度远远比不上超分辨类算法[[] 陆晓燕. 基于麦克风阵列实现声源定位[J]. 硕士论文. 大连: 大连理工大学, 2003, 3. -[] 邵怀宗SHZ. 基于麦克风阵列的声源定位研究[J]. 云南民族大学学报 (自然科学版), 2004, 13(4): 256-258,267. ]。在这三种定位方法中,基于时延估计的声源定位方法应用比较广泛,本文将重点讨论该方法。 3双阵元麦克风阵列时延估计方法 3.1 双阵元麦克风阵列信号模型 本文主要对最基本的双阵元麦克风阵列进行讨论研究,该阵列结构简单,开发成本小,算法复杂度也相对较低。当然,此类阵列也有不足之处,由于它的结构简单,所以它所获得的空间信息也相对较少,导致这类的声源测向系统的性能普遍偏低。另外,麦克风的数目也限制了该阵列的结构只能是直线型,所以会受到直线阵列局限性的影响。所以,我们可以从麦克风的类型、麦克风的间距、声源测向的算法等方面着手来提高双阵元麦克风阵列系统的性能[[] 王冬霞, 赵光, 郑家超. 麦克风阵列拓扑结构对语音增强系统性能影响的理论分析[J]. 辽宁工业大学学报: 自然科学版, 2010, 30(1): 1-4. -[] Yousefian N, Loizou P C. A dual-microphone speech enhancement algorithm based on the coherence function[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(2): 599-609. ]。 利用麦克风阵列采集声音信号的实质就是对信号进行空间采样,因此采样过程会受到阵元间距的影响,这种影响和许多因素有关,比如信号的频率、系统的采样率和性能等。对均匀直线阵列来说,阵元之间的距离不可以太小,距离越小,到达两个麦克风所需时间的差异就越小,也就是说信号的偏移量就越小,给分析过程带来难度。然而阵元间的距离也不可以太大,否则会出现空间混叠的现象。由信号的空间采样定理我们可以得出,阵元间距不能大于最小波长的一半。从上述分析能够得出,麦克风的间距与精度、空间信息以及声源远进场的划分都离不开关系。所以我们在实际应用中要根据实际情况,综合考虑阵列尺寸、空间采样定理、精度等因素来决定阵元之间的距离,以保证系统的良好性能[[] 徐燕子. 面向麦克风阵列应用的声源定位算法研究[D]. 华中科技大学, 2009. -[] Zhang W, Rao B D. A two microphone-based approach for source localization of multiple speech sources[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2010, 18(8): 1913-1928. ]。 阵列模型可以按照声源到麦克风阵列的距离近远划分成远场模型和近场模型。当声源离麦克风参考点的距离在信号波长范围内就属于近场,当声源离麦克风的距离超过信号波长的范围则属于远场[[] 关晓彬. 基于空间域的麦克风阵列近场声源定位与增强研究[D]. 西南交通大学, 2012. ]。通常采用公式 (3.1) 来区分。式中r表示声源离麦克风的距离,L阵列的长度,λ表示声源信号的最大波长。如果该式成立,则该阵列模型属于近场模型,否则属于远场模型。然而在实际应用中,声源的位置是不确定的,可能有时候离麦克风较近,有时候又较远。或者也有可能声源是动态的,时而处于近场时而又处于远场。因此,仅仅采用一种模型来对处理所有的声源测向是不合适的,我们要根据实际情况来选择合适的模型。 当声源和麦克风阵列的距离小于时,我们利用近场模型进行处理,将接收到的声波近似看做球面波。示意图如下,Mic1和Mic2表示两个麦克风,S表示声源位置,d1和d2分别为声源到两麦克风的距离,两麦克风的间为d 。我们从图中可以很容易地得到声音信号到两麦克间的相对时延为: (3.2) 图3.1 近场声波传播模型 近场中的声波是以球面波的形式来传播的,由于声源到两麦克风的传播距离不同,两麦克风接分别接收到的声音信号的幅度差异会很明显,所以必须考虑幅度差异在近场模型中产生的影响。假设声波到达Mic1的衰减因子为: (3.3) 则我们可以将在近场模型下,Mic1和Mic2接收到的信号模型表示为: (3.4) 式中表示声源信号,和表示背景噪声,三者为互不相关的正态平稳随机过程。由图中的几何关系易知,由S,Mic1和Mic2有 (3.5) 将(3.2)变形为,并代入上式中可得:- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 麦克风 阵列 声源 测向 方法 研究
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【xrp****65】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【xrp****65】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【xrp****65】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【xrp****65】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文