时频特征的海豚发声端点检测方法研究.pdf
《时频特征的海豚发声端点检测方法研究.pdf》由会员分享,可在线阅读,更多相关《时频特征的海豚发声端点检测方法研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 42 卷 第 5 期Vol.42,No.52023 年 9 月Journal of Applied AcousticsSeptember,2023 研究报告 时频特征的海豚发声端点检测方法研究杨昱皞1,2何瑞麟1,2戴 阳2方 亮3贺刘刚2(1 大连海洋大学航海与船舶工程学院大连116023)(2 中国水产科学研究院东海水产研究所农业农村部渔业遥感重点实验室上海200090)(3 中国水产科学研究院南海水产研究所广州510300)摘要:为在复杂的海洋环境噪声场中检测出目标海豚的某类声信号,设计了一种基于海豚声学特征的端点检测方法。根据海洋环境中噪声能量大且分布频率范围广,而海豚声音的时频特
2、征具有持续时间短、频率高且集中、发声行为持续时间长的特点,将采集到的海洋声音进行分帧,计算单帧信号短时能量、谱质心和谱质心二阶偏移率,当海豚发出声信号时,谱质心和能量相应发生突变,截取发生突变的信号实现端点检测。通过与门限法等其他常见端点检测方法进行对比,结果表明,此方法在低信噪比的海洋环境下对单一海豚的某一类声信号检测准确度更高,同时具有较强的抗干扰能力。关键词:被动声学;海豚声信号;端点检测;谱质心二阶偏移率中图法分类号:PN733.23文献标识码:A文章编号:1000-310X(2023)05-1042-10DOI:10.11684/j.issn.1000-310X.2023.05.01
3、8The detection method of dolphin vocal endpoint based on time-frequencycharacteristicsYANG Yuhao1,2HE Ruilin1,2DAI Yang2FANG Liang3HE Liugang2(1 School of Navigation and Naval Architecture,Dalian Ocean University,Dalian 116023,China)(2 Key Laboratory of Fisheries Remote Sensing Ministry of Agricultu
4、re and Rural Affairs,East China Sea Fisheries ResearchInstitute,Chinese Academy of Fishery Sciences,Shanghai 200090,China)(3 South China Sea Fisheries Research Institute,Guangzhou 510300,China)Abstract:In order to detect a certain kind of sound signal of target dolphins in the complex marine en-viro
5、nment noise field,an endpoint detection method based on dolphin acoustic characteristics was designed.According to the large noise energy and wide distribution frequency range in the marine environment,thetime-frequency characteristics of dolphin sound have the characteristics of short duration,high
6、 frequency andconcentration,and long duration of phonation behavior.The collected ocean sound is divided into frames,andthe short-time energy,spectral centroid and second-order shift rate of the single frame signal are calculated.When the dolphin sends out the sound signal,the spectral centroid and
7、energy change correspondingly,andthe signal with the change is intercepted to realize endpoint detection.Compared with other common end-point detection methods such as threshold method,the results show that this method has higher accuracy indetecting a certain kind of sound signal of a single dolphi
8、n in the marine environment with low signal-to-noiseratio,and has strong anti-interference ability.Keywords:Passive acoustics;Dolphin sound signal;Endpoint detection;Second order shift rate of spectralcentroid2022-05-18收稿;2022-07-22定稿上海市2020年度科技创新行动计划社会发展科技攻关项目(20dz1206400),上海市青年科技英才扬帆计划项目(19YF14600
9、00)作者简介:杨昱皞(1998),男,安徽六安人,硕士,研究方向:海洋声学。通信作者 E-mail:第42卷 第5期杨昱皞等:时频特征的海豚发声端点检测方法研究10430 引言海豚是鲸类哺乳动物,广泛生活于全球各大海域,在内海及入海口附近的咸淡水中也有分布,是我国国家重点保护野生动物之一。海豚的声信号主要分为3类:回声定位信号(click)、脉冲信号(burst-pulse)、通讯信号(whistle)12,whis-tle信号主要集中在8 15 kHz,burst-pulse信号主要集中在15 30 kHz,click信号主要集中在100 150 kHz3。其中click信号是海豚捕食、定
10、位等主要活动的声信号,是进行海豚生物特征以及种群资源调查的重要研究对象4。海洋环境噪声场是海洋环境中普遍存在而又不期望出现的背景声场。它是由风浪、降雨、航船、海洋生物、人类工业活动等因素产生的,是主被动声呐的主要声学背景干扰5。虽然目前有许多研究通过绘制信号声谱图,将声音问题转化为图像问题,再使用深度学习或机器学习等方式进行识别6,但无论是使用哪种方式,都包含大量噪声的干扰,因此数据的预处理变得尤为重要。除海洋环境的噪声干扰外,另一难点是海豚有3种声信号,其中click信号的频率往往超过人耳听力范围,声音的传播特性又使得高频分量衰减得更加迅速,导致人工处理信号制作数据集变得困难,使用深度学习的
11、方法识别难以进行7。国内外对于海洋生物的声音已经有不同程度的研究。在Hildebrand等8的海洋哺乳动物信号检测和分类性能指标研究中,发现用于检测的数据集受到干扰使得分析数据时非常耗时,说明要研究海洋中的目标生物声音,如何降低噪声及其他生物声音的干扰是检测海洋动物声信号的必要条件。牛富强等910发现在不同的声行为下,印度洋瓶鼻海豚(Tursiops aduncus)发出的click信号频谱特性变化趋势基本一致;黄龙飞等11对普里兹湾虎鲸(Orcinus orca)click信号进行了检测,发现click脉冲间隔的范围为10.5 183.5 ms;周韦峥嵘等12对中华白海豚(Sousa chi
12、nensis)的whistle信号进行了统计分析,得到了海豚whistle信号的谐波特性。上述研究表明海豚不同声信号相对于海洋环境噪声场都具有持续时间短、频率高的特点,这些特征为检测海豚声信号提供了重要的基础。Roch等13通过人工制作数据集根据时域变化训练了回声定位检测,得到了良好的效果,说明时域上的特征可以用于识别海豚声音;Gillespie等14在齿鲸类全自动检测和物种分类方法中发现,当声音中包含的物种从4种提高至12种时,准确率从94%下降至58.5%;Miller等15使用开源软件PAMguard对须鲸(Balaenoptera)叫声进行跟踪并验证其功能,发现检测难度随着声信号时间和
13、带宽的变化而升高。以上两种研究表明,要更准确地识别出鲸豚类的声信号,需要同时考虑海洋环境中包含的物种、时间、带宽的信息。Frasier16在使用深度学习识别物种齿鲸信号的研究中,使用了无监督聚类的方法得到齿鲸的信号,通过齿鲸click信号的声谱形状和分布间隔识别;王宸等17在中华白海豚(Sousachinensis)click 信号识别的研究中,结合能源算子方法和滤波器对click信号实现自动检测。以上研究表明,研究海豚的声音需要海豚声音的数据集,海洋环境中海豚的声信号具有高频、宽带和短时的特点,海洋环境噪声场具有物种复杂、持续时间长、频率分布广的特点。如果能够获得准确的海豚声音数据集,海洋环
14、境噪声场干扰等问题可以相应解决。结合时域特征、噪声环境特征、持续时间、频域特征,本文提出一种基于时频特征的海豚发声端点检测方法研究。端点检测是为了找到声频信号的开始和结束位置,对语声和非语声的区域进行区分。端点检测已经广泛应用于语声识别、语声增强和声频分类技术的前端,可以简化语声识别过程中的冗余数据,加快识别速度18。常用的检测方法有:(1)双门限法端点检测,利用短时能量和短时过零率设定两个门限可以较好地区分浊音、清音和静音,但是在海洋环境中噪声场和其他生物发声同样会导致过零率产生变化,过零率不能作为海豚声音检测的参数;(2)自相关法,使用自相关函数求出语声波形序列的基音周期实现噪声的区分,但
15、是海豚的声音和海洋环境的噪声场都没有规律,没有稳定的基音周期,不足以分辨海豚声音;(3)谱熵法,是根据熵来表示信号的有序程度,而海洋环境中的所有声信号都是无序的,熵不能够在复杂环境中区分出目标生物的声音;(4)比例法等其他方法。这些方法在物种信息多、频率范围广、能量大和无序性的海洋环境中并不适用。本文提出的一种基于时频特征的海豚发声端点检测方法研究,以海洋环境噪声场和海豚叫声作为研究主体,综合时频特征研究海豚发声的端点检10442023 年 9 月测技术,为研究海豚发声习性、海豚声音识别及生物保护奠定基础。1 方法及原理1.1流程设计首先对获取的海洋声音,按照一定长度存储;再将每段声频按照海豚
16、的发声特征选择合适的长度进行分帧,并计算出每一帧的短时能量;对每一帧信号做离散傅里叶变换,对不同的频率范围设计不同权重,求得加权后的谱质心;设置短时能量阈值、谱质心阈值、谱质心二阶偏移率;将短时能量和谱质心超过阈值的部分作为备选有效声段;再分别向备选有效声段的两端比较谱质心二阶偏移率,谱质心二阶偏移率超过阈值的部分,添加至备选有效声段生成完整的有效声段;输出有效声段。具体流程图如图1所示。?图1端点检测流程图Fig.1 Endpoint detection flow chart1.2信号预处理由于数据集中声频长度不同,处理时长较长的声频需要大量计算并且输出的声谱图不便于观察持续时间很短的cli
17、ck信号,为了体现每一帧短时能量、谱质心的变化,将所有声信号切割为时长1 s的若干段,切割后不足1 s的样本舍弃。1.3提取声频信号特征通过寻找持续时间、声频能量符合目标发声特点并且在频域上符合目标发声频率范围的声段,即可从声音文件中区分出目标声音。由于获取的声音能量大小受声信号种类和距离影响,用能量变化表示发声具有不确定性,因此在分析时,更依赖于频域特征,两者互相验证,这样可以减少突发高频噪声和目标声信号能量较弱对结果的影响。1.3.1信号分帧海豚声信号的特点是持续时间短、频率高。如果每次处理的声频时间过长,在时域内能量变化会被平滑,在频域内傅里叶变换反映出的是信号整体的功率谱特征,会掩盖短
18、暂发声的信息,因此需要对信号进行分帧加窗处理。由于不需要对声音进行时移叠加还原,不需要考虑旁瓣泄漏的问题,因此选择使用方形窗,步长等于窗长的分析方法。加窗后做短时傅里叶变换将受到不确定性原理的约束,无法同时保证时间分辨率与频率分辨率达到最优,因此窗长应根据实际情况选择,加窗计算公式19如下:n=1,0 6 n 6 N 1,0,others,(1)xn(m)=nxn+m,(2)其中,n表示采样点序号,m表示帧序号,n表示分析窗,xn(m)表示第m帧内第n采样点的信号振幅。1.3.2时域分析时域分析是提取语声信号的时域特征,短时能量、短时过零率、短时自相关系数和短时平均幅度差等是最基本的时域分析参
19、数。短时能量是度量声信号幅值变化的函数,对高电平非常敏感;短时过零率表示的是信号波穿过横轴的次数,可以表达发生信号的频次,由于噪声以及其他生物的声音也会使短时过零率增大,因此不适用于海洋环境中;短时平第42卷 第5期杨昱皞等:时频特征的海豚发声端点检测方法研究1045均幅度是一帧声信号的幅度大小的表征,短时能量通过对信号振幅平方,将振幅的变化扩大,因此短时能量更能够体现出信号的变化;短时自相关系数是衡量信号自身波形在时域上变化程度的指标,但是海洋环境噪声场的构成很复杂,由于信号的无序性,短时自相关系数不适用处理海洋环境声音。因此选择短时能量作为参数,可以增大目标声信号和噪声之间的区分度,计算公
20、式19如下:Ei=Nm=1x2n(m),(3)式(3)中,Ei是第i帧的短时能量,N 是单帧信号的采样点数,m是采样点序号,xn(m)是每一个采样点的振幅大小。海洋环境中的噪声大多比较平稳,能量波动范围不大,当出现目标声信号时,该时刻短时能量会增大,通过短时能量和持续时间可以一定程度区分目标声音。1.3.3频域分析对声音进行傅里叶变换,计算公式6如下:Xl=n=0 xnejt.(4)对于非平稳信号来说,傅里叶变换一般是不合适的。傅里叶变换的全局积分导致变换结果无法提供频率分量的时间信息。本文使用短时傅里叶变换进行数据处理,加窗后计算公式6如下:Xl=Nn=0nxn+lHejt.(5)式(4)(
21、5)中,X1表示第l帧的傅里叶变换,n表示分析窗,xn表示第n采样点的信号振幅,窗长为N,l表示帧的序号,H 表示窗与窗之间的步长,n表示采样点序号,ejt表示复变函数。利用谱质心表征频谱分布情况,计算公式19如下:Ci=Nk=1FkXkNk=1Xk,(6)式(6)中,Ci是第i帧的谱质心,N 是单帧信号的采样点数,Fk是短时傅里叶变换后的频率分量,Xk是对应频率分量的能量大小。考虑到海豚声音的频率的特征,whistle信号和burst-pulse信号主要分布在8000 Hz 30 kHz,click信号最高可以达到100 150 kHz,改进后的公式为Ci=Q1N1k1Fk1Xk1N1k1X
22、k1+Q2N2k2Fk2Xk2N2k2Xk2,(7)式(7)中,Q1是海豚声音频率范围的权重;Q2是非海豚声音频率范围的权重;N1是海豚声音频率范围;N2是非海豚声音频率范围。由于海洋环境噪声场的低频能量很大,海豚声音对谱质心的提升不明显,为了能够更好地区分海豚发声的声段,设定海豚声音频率范围的权重应当大于非海豚声音频率范围的权重。同时由于海豚的click信号和burst-pulse信号是宽频信号,所以不能不考虑非海豚声音频率范围的分量。由于本文中使用的实验数据较为纯净,低频噪声的能量不大,因此拟定Q1为0.6,Q2为0.4。在不同的环境或者数据中,Q1、Q2的值应做适当修改。为了找到目标发声
23、的起始点和终止点,引入谱质心一阶偏移率,即每一帧谱质心相对于上一帧谱质心的变化。谱质心二阶偏移率,即谱质心变化的变化趋势。图2是谱质心一阶偏移率和二阶偏移率的对比图。100806040200100806040200?/kHz?/kHz?3020100-10-203020100-10-20图2谱质心一阶偏移率和二阶偏移率对比图Fig.2Comparison diagram of first-order andsecond-order spectral centroid migration rates观察图2中的竖线可得,当某一时刻谱质心发生变化时,谱质心一阶偏移率尚没有发生变化,对于该变化的表达
24、存在滞后性,而二阶偏移率在该点已经达到峰值,可以表现出这一时刻谱质心的变化趋势,以此可以精确检测出发声的起始点和终止点。因为信号成分复杂、信号中的波形函数未知,无法建立函数表达式,而每一帧之间的时间间隔很小,所以通过每一帧的谱质心进行计算可近似得到10462023 年 9 月二阶偏移率,公式如下:Si=(Ci Ci1)/Ci1,(8)Bi=(Si Si1)/Si1,(9)式(8)(9)中,i表示帧序号,Ci是谱质心,Si是谱质心偏移率,Bi是谱质心二阶偏移率。1.3.4拟定阈值图3是中华白海豚(Sousa chinensis)click信号、瓶鼻海豚(Tursiops aduncus)burs
25、t-pulse信号和whistle信号的声谱图。1401201008060402003025201510503025201510501.00.80.60.40.201.00.80.60.40.201.00.80.60.40.207006005004003002001001000806040200806040200?/kHz?/kHz?/kHz?/s?/s?/s(a)?click?(b)?burst-pulse?(c)?whistle?图3不同声信号的声谱图Fig.3Spectrogram of three kinds of dolphinsound signals由图3(a)可以看到,中华白海
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 特征 海豚 发声 端点 检测 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。