基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf
《基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf》由会员分享,可在线阅读,更多相关《基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf(8页珍藏版)》请在咨信网上搜索。
1、第 51 卷第 1 期渔 业 现 代 化Vol.51 No.12024 年 2 月FISHERY MODERNIZATIONFeb.2024DOI:10.3969/j.issn.1007-9580.2024.01.007收稿日期:2023-07-11基金项目:辽宁省教育厅重点科研项目“面向鱼类行为分析的声音与视觉特征融合关键技术研究(LJKZ0729)”;国家自然科学基金项目“水下实时背景下鱼类精准识别新方法研究:融合 VSM 和 DELM(31972846)”;设施渔业教育部重点实验室开放课题“基于鱼类骨架和轨迹特征的异常行为识别方法研究(202313)”作者简介:杨雨欣(2000),女,硕
2、士研究生,研究方向:计算机视觉。E-mail:1931816804 通信作者:于红(1968),女,博士,教授,研究方向:海洋渔业大数据分析、智慧渔业等。E-mail:yuhong 基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别杨雨欣,于 红,杨宗轶,涂 万,张 鑫,林远山(1 大连海洋大学信息工程学院,辽宁 大连 116023;2 大连市智慧渔业重点实验室,辽宁 大连 116023;3 设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023;4 辽宁省海洋信息技术重点实验室,辽宁 大连 116023)摘要:养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行
3、为识别准确率不高,为解决上述问题,提出基于 Mel 声谱图(Mel spectrogram)与改进 SEResNet 的鱼类行为识别模型 TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的 Mel 声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在 SEResNet 模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,
4、试验结果显示:TAP-SEResNet 相比 SEResNet 在不降低检测速度的条件下准确率提升了 3.23%;相比 PANNS-CNN14、ECAPA-TDNN 及 MFCC+ResNet 等先进声音识别模型,TAP-SEResNet 在准确率上分别提升了5.32%、2.80%和 1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。关键词:鱼类行为识别;被动水声信号;Mel 声谱图;SEResNet中图分类号:S932.2;TP391.4 文献标志码:A 文章编号:1007-9580-(2024)01-0056-008 精准养殖是鱼类养殖的新趋势1,鱼
5、类行为识别为精准养殖提供技术支持2。目前,鱼类行为监测主要采用计算机视觉技术量化和识别鱼类的多种行为3-5。赵梦等6将 SKNet 注意力机制与 YOLOv5 融合,构成了关注像素级信息的特征提取网络,有效增强了检测效果;韦思学等7提出通道非降维双重注意力机制 ECBAM,对降维操作进行了优化,进一步提高了识别精度。然而,在规模化、集约化等更为复杂的养殖环境中,计算机视觉方法仍有局限性8,研究者考虑到声波在水中衰减小且不受水体浑浊影响、传播范围更广,开始将深度学习引入声音识别领域9。Kong 等10提出了在大规模 AudioSet 数据集上训练的预训练音频神经网络(PANNs),并证明可以将神
6、经网络转移到其他音频相关任务,但网络提取声音特征能力受限;Desplanques 等11提出利用 1D 卷积神经网络融合 Res2Net 和 SE 模块以聚合声音不同层次的特征,增强特征通道相互依赖性,但难以处理声音细节特征。在鱼类行为识别领域中,同样可使用声学特征12-13。Meng 等14提出将鱼类摄食音频转换为声音特征信息,使用卷积神经网络(CNN)模型对鱼的摄食强度进行分类,但 CNN 对鱼类细粒度声音信息提取能力有限;胥婧雯等15-16采用能对鱼类声音特征进行细粒度分类的 ResNet 网络,实现低维细节特征与高维语义特征融合,但样本种类较少,且深度残差网络中有大量冗余层、网络提取关
7、键信息少。基于以上分析,可用神经网络增强鱼类声音特征提取17,识别鱼类行为,但现有鱼类声音数据和识别模型存在不足18-19。本研究首先开展第 1 期杨雨欣等:基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别鱼类行为声音信号数据采集,然后提出基于 Mel声谱图与改进 SEResNet 的鱼类行为识别模型TAP-SEResNet,通过 Mel 声谱图对频率特征进行非线性映射,提升网络对鱼类声音高级语义特征提取能力;通过融合时序聚合池化层 TAP,使SEResNet 保留最佳声音特征信息。以上改进使SEResNet 在复杂养殖环境下鱼类行为识别的准确率与 F1 值的性能指标得到显著提升。
8、1 材料与方法1.1 数据集1.1.1 试验对象与环境本试验在大连海洋大学鱼类行为学实验室进行,试验系统共 3 个养殖池,养殖池直径 60 cm,高度 60 cm,养殖水深 40 cm,如图 1 所示。DNDN图 1 鱼类行为数据采集系统Fig.1 Fish behavior data collection system以虹鳟鱼(Oncorhynchus mykiss)为试验对象,选取体长 810 cm、平均规格 10 g,共 30 条,养殖水温保持 15 18,密度 9.2 kg/m3,pH 为 6.5 6.9,溶氧质量浓度 122 mg/L,将虹鳟鱼按数量均分为 3 个养殖池以保持最适养殖
9、鱼群密度,均经过 1 个月的养殖适应期。每天定量投喂两次20,投喂时间分别为早上 10:00 和下午 18:00。在饲料投喂时段,通过摄像头观察鱼类行为,采集鱼群摄食、游泳和跳跃声音信号,试验期间保持室内安静。为采集鱼类不同行为的声音信号,使用水下声学测量系统,水听器型号为 AQH20k-1062,采样频率 2020 000 Hz,覆盖鱼类发声频率范围。为避免水听器撞击水箱壁造成杂音,将铅锤垂直放置于养殖池水面下方 10 cm 的位置,水听器绑在铅锤上固定在养殖池中央。另一端连接计算机存储数据,存储为 wav 格式。为实时观察鱼类行为且不妨碍鱼类正常生活,摄像头(海康威视网络摄像机)架设在高于
10、水面 30 cm 的养殖水箱旁,同时连接计算机。1.1.2 数据集构建虹鳟鱼是一种具有商业价值且养殖广泛的鱼类,其跳跃行为对于鱼类健康监测和养殖环境改进有重要意义21。经过分析22,将鱼群行为分为“Feed”“Swim”“Jump”三种,采集声音信号,声音频谱图如图 2 所示。其中,“Feed”表示摄食行为,“Swim”表示游泳行为,“Jump”表示跳跃行为,红色虚线表示跳跃轨迹。4096204810245120409620481024512040962048102451200 0.5 1 1.5 20 0.5 1 1.5 20 0.5 1 1.5 2TTT)图 2 鱼类行为数据集划分Fig.
11、2 Fish behavior number set division75渔 业 现 代 化2024 年 为了保证声音包含一个完整周期的行为信息,每个行为采集时长为 120 s。由于鱼类行为声音时长短,将采集到的声音信号按照每段 2 s 进行人工切分并编号;另设一组噪声对照组同步采集背景噪声,以便获取环境噪声。收集不同时间段的试验数据并重复进行上述采集过程,采集虹鳟鱼摄食声音信号样本 300 个,游泳声音信号样本 420 个,跳跃声音信号样本 300 个,共计样本1 020 个。训练、验证、测试集按照 7 2 1 比例随机划分。1.2 鱼类行为识别方法1.2.1 声音特征提取鱼类声音信号是非稳
12、态信号,在时域中难以看出其特性,需要将每帧信号进行傅立叶变换得到相应频谱图,以分析声音特征。目前,声音特征提取常用方法为声谱图(Spectrogram)23、Mel 频率倒 谱 系 数(MFCC)24和 Mel 声 谱 图(Mel spectrogram)25等。声谱图能够捕捉频率变化,但对于非稳态声音信息处理能力不足,丢失部分细节时域信息。Mel 频率倒谱系数具有较强特征表达能力,但是通过离散余弦变换转换为较低维度的特征向量时,压缩过多频率尺度,致使识别准确率不高。Mel 声谱图通过应用 Mel 滤波器对音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出鱼类声音中的重要频率特征
13、,在频率轴上对音频信号进行有效压缩,提高声音信息分辨能力;在保留鱼类声音关键信息的同时降低特征维度,能更完整地提取鱼类细粒度声音信息。因此,为了精准表示鱼类行为声音特征,选择高分辨率、特征表示较好的 Mel 声谱图特征提取方法,提取不同鱼类行为 Mel 声谱图特征如图 3 所示。鱼类摄食行为声音信号含有断断续续的峰值波动,因此 Mel 声谱图呈现出明显的鱼类摄食强度变化;游泳行为声音是连续的波动信号且强度较弱,因此 Mel 声谱图特征微弱,呈现出较为明显的周期性特征;跳跃行为声音为短暂的脉冲信号,因此 Mel 声谱图持续时间短,信号振幅大。409620481024512040962048102
14、4512040962048102451200 0.5 1 1.5 20 0.5 1 1.5 20 0.5 1 1.5 2TTT)E#E#E#)图 3 不同鱼类行为的 Mel 声谱图Fig.3 Mel spectrogram of different fish behavior1.2.2 TAP-SEResNet 框架设计由于真实养殖环境下存在各种刺激源,饲料投放、水流变化等外部条件刺激将导致鱼类产生不同的声音响应,因此鱼类声音数据具有复杂性和多样性,对鱼类的行为识别必须具有较高的抗混淆能力与精准性。ResNet 网络26中的残差结构能够有效降低鱼类声音特征之间的相关性,增强模型对于差异化特征的
15、感知能力,避免关键信息逐层消失;SENet27能够对鱼类声音中的关键特征进行加权计算,增强模型对于鱼类细粒度声音的特征提取和区分能力。因此,SEResNet 对于鱼类声音能够高效提取特征、关注重要信息,可满足鱼类行为识别要求。TAP-SEResNet 基于 SEResNet,其模型结构如图 4 所示。TAP-SEResNet 由 SEResNet、TAP、全连接层和 Softmax 分类器构成。输入 Mel 声谱图信息,首先经过 SEResNet 的残差连接,得到鱼类原始声音特征,通过嵌入的 SE 注意力机制模块进行关键特征加权计算,学习鱼类声音关键信息,并和原始特征相加;针对养殖环境中频率波
16、动大、特征差异小的鱼类细粒度声音信息提取困难问题,通过融合 TAP,提升对鱼类声音信息的特征提取能力,最后将深层声音特征提供给全连接层整合信息,经过 Softmax 分类器输出鱼类行为识别结果。85第 1 期杨雨欣等:基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别FeedSwimJumpoutputSoftmaxFCTemporal AggregatedPoolingScaleResidualSEblockTFCFCReLUMel spectrogram)E#Sigmoid图 4 TAP-SEResNet 结构图Fig.4 TAP-SEResNet structure diagr
17、am1.2.3 TAP 模块针对养殖环境下复杂多样的鱼类行为声音信息,SEResNet 的残差结构和 SE 注意力机制能够有效提取鱼类声音深层细粒度特征,但是残差网络中声音特征尺寸过度压缩会导致关键信息丢失。为保留最佳鱼类声音特征信息同时不丢失背景信息,提出 TAP 模块。TAP 通过融合池化区域的最大值和平均值,兼顾鱼类声音信号的局部关键信息和整体背景信息,从而强化空间信息,提升空间感知能力,提供更丰富、全面的特征表达。时序聚合池化层 TAP 结构如图5 所示。DPODBU&图 5 时序聚合池化层 TAP 结构图Fig.5 Temporal Aggregated Pooling struct
18、ure diagram 设鱼类行为声音经过卷积处理后的特征向量为 ht,沿着总时间维度 t,同时进行平均池化 和最大池化 f(x)。平均池化能提供区域内特征的整体趋势和背景信息;最大池化则能够捕捉输入区域内的最显著特征,保留重要局部细节和去除冗余信息。最后将池化后的鱼类声音特征信息进行拼接操作,得到融合后的向量 E,计算如公式(1)(4)所示:ht=(h1,h2,.,ht)(1)=1tti=1hi(2)f(x)=max(0,hi)(3)E=,f(x)(4)式中:hi(i=1,2,.,t)是特征向量分量;max 表示取特征向量最大值;,表示拼接操作。1.3 试验平台与评估指标1.3.1 试验平台
19、与模型训练参数本研究试验环境为 Intel Core 17-9700 CPU 3.00 GHz 3.00 处理器,RTX3090 显卡,32GB 内存,操作系统为 Windows10,运行环境 Python3.8,开源深度学习框架 Pytorch 版本为 1.13.1。训练参数设置 batch_size 为 32,epoch 为 100。95渔 业 现 代 化2024 年1.3.2 评估指标本研究所提模型评估采用准确率、F1 值作为模型性能评价指标,分类评估采用精确率、召回率和 F1 值作为分类性能评价指标。准确率(Accuracy,Ac)反映的是被预测为正确鱼类行为样本数与样本总数的比值,即
20、是模型正确识别各种鱼类行为的概率;精确率(Precison,Pr)反映的是在特定鱼类行为下,正确分类样本在所有预测为该鱼类行为样本中所占的比例;召回率(Recall,Re)反映的是正确分类的鱼类行为占所有该行为总样本的比例;F1 值(F1-score,F1)作为分类器的综合指标,是精确率和召回率的调和平均数。计算如公式(5)(8)所示:Ac=TTP+TTNTTP+FFP+FFN+TTN(5)Pr=TTPTTP+FFP(6)Re=TTPTTP+FFN(7)F1=2 Pr RePr+Re(8)式中:TTP(True Positives)为在正样本中预测出正确鱼类行为的样本数;FFN(False N
21、egatives)为在正样本中预测出错误鱼类行为的样本数;FFP(False Positives)为在负样本中预测出正确鱼类行为的样本数;TTN(True Negatives)为在负样本中预测出错误鱼类行为的样本数。2 试验设计与结果分析2.1 消融试验为验证时序聚合池化层 TAP 对 SEResNet 改进的有效性,设计消融试验内容如下:分别在有池化层 TAP 和无池化层 TAP 条件下进行了鱼类行为识别对比试验。试验结果如表 1 所示,加入TAP 模 块 后 模 型 的 准 确 率、F1 值 分 别 提 升3.23%、4.33%,表明所提模块有效。通过融合TAP 模块对 SEResNet
22、模型进行改进,结合最大值和平均值,保留鱼类声音信号的局部关键信息和整体背景信息,使鱼类细粒度声音完整提取,减少有效信息丢失,提升模型性能,可更好满足鱼类行为识别要求。表 1 消融试验Tab.1 Ablation experiment模型TAP 模块准确率/%F1 值/%SEResNet87.9286.10TAP-SEResNet91.1590.432.2 对比试验2.2.1 特征提取方法对比为验证 Mel 声谱图对于鱼类声音特征提取的有效 性,设 计 对 比 试 验 内 容 如 下:在 TAP-SEResNet 的基础上与目前常用的声音特征提取方法声谱图23和 Mel 频率倒谱系数24进行对比
23、。试验结果如表 2 所示,Mel 声谱图相比其他方法准确率分别提升 8.36%、0.97%,F1 值分别提升 8.8%、0.47%。由分析可得,声谱图处理非稳态声音信息能力不足,Mel 频率倒谱系数压缩过多频率尺度,影响模型准确性。Mel 声谱图在频率轴上有效压缩鱼类声音信号,增强声音信息特征提取和分辨能力,与 Mel 频率倒谱系数和声谱图相比,更适用于提取鱼类声音信息,明显优于其他方法。表 2 特征提取方法对比Tab.2 Comparison of feature extraction methods特征方法准确率/%F1 值/%Spectrogram82.7981.63MFCC90.188
24、9.96Mel spectrogram91.1590.432.2.2 模型对比试验为验证 TAP-SEResNet 在鱼类行为识别的有效性,与先进声音识别模型进行对比试验,对比模型分别是:Kong 等10通过迁移学习方法,提出声音识别网络 PANNs-CNN14;Desplanques 等11通过结合 Res2Net 模块和 SE 注意力机制并使多层特征聚合,提出语音识别网络 ECAPA-TDNN;胥婧雯等15通过结合 MFCC 和 ResNet,提出鱼类行为识别网络 MFCC+ResNet。试验结果如表 3 所示,与其他方法相比,TAP-SEResNet 准确率分别提升 5.32%、2.80
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Mel 声谱 改进 SEResNet 鱼类 行为 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。