分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf

基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf

上传人：自信****多点

文档编号：3419044

上传时间：2024-07-05

格式：PDF

页数：8

大小：3.73MB

《基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf》由会员分享，可在线阅读，更多相关《基于Mel声谱图与改进SEResNet的鱼类行为识别.pdf（8页珍藏版）》请在咨信网上搜索。

1、第 51 卷第 1 期渔业现代化Vol.51 No.12024 年 2 月FISHERY MODERNIZATIONFeb.2024DOI:10.3969/j.issn.1007-9580.2024.01.007收稿日期:2023-07-11基金项目:辽宁省教育厅重点科研项目“面向鱼类行为分析的声音与视觉特征融合关键技术研究(LJKZ0729)”;国家自然科学基金项目“水下实时背景下鱼类精准识别新方法研究:融合 VSM 和 DELM(31972846)”;设施渔业教育部重点实验室开放课题“基于鱼类骨架和轨迹特征的异常行为识别方法研究(202313)”作者简介:杨雨欣(2000),女,硕

2、士研究生,研究方向:计算机视觉。E-mail:1931816804 通信作者:于红(1968),女,博士,教授,研究方向:海洋渔业大数据分析、智慧渔业等。E-mail:yuhong 基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别杨雨欣,于红,杨宗轶,涂万,张鑫,林远山(1 大连海洋大学信息工程学院,辽宁大连 116023;2 大连市智慧渔业重点实验室,辽宁大连 116023;3 设施渔业教育部重点实验室(大连海洋大学),辽宁大连 116023;4 辽宁省海洋信息技术重点实验室,辽宁大连 116023)摘要:养殖环境中饲料投放、水流变化等刺激源导致鱼类声音分辨难,使行

3、为识别准确率不高,为解决上述问题,提出基于 Mel 声谱图(Mel spectrogram)与改进 SEResNet 的鱼类行为识别模型 TAP-SEResNet。首先针对鱼类行为声音频率波动大、特征差异小,造成特征提取难的问题,采用高分辨率、特征表示较好的 Mel 声谱图以捕捉鱼类声音的频谱特征。其次针对鱼类声音特征关键信息易丢失的难题,提出在 SEResNet 模型中融合时序聚合池化层(Temporal Aggregated Pooling,TAP),提取池化区域的最大值和平均值,保留鱼类行为更多细粒度声音特征,提高识别准确率。为验证所提模型的有效性,分别设计了消融试验和模型性能对比试验,

4、试验结果显示:TAP-SEResNet 相比 SEResNet 在不降低检测速度的条件下准确率提升了 3.23%;相比 PANNS-CNN14、ECAPA-TDNN 及 MFCC+ResNet 等先进声音识别模型,TAP-SEResNet 在准确率上分别提升了5.32%、2.80%和 1.64%。所提模型有助于养殖过程中对鱼类行为实现精准监测,对精准养殖具有重要的推动作用。关键词:鱼类行为识别;被动水声信号;Mel 声谱图;SEResNet中图分类号:S932.2;TP391.4 文献标志码:A 文章编号:1007-9580-(2024)01-0056-008 精准养殖是鱼类养殖的新趋势1,鱼

5、类行为识别为精准养殖提供技术支持2。目前,鱼类行为监测主要采用计算机视觉技术量化和识别鱼类的多种行为3-5。赵梦等6将 SKNet 注意力机制与 YOLOv5 融合,构成了关注像素级信息的特征提取网络,有效增强了检测效果;韦思学等7提出通道非降维双重注意力机制 ECBAM,对降维操作进行了优化,进一步提高了识别精度。然而,在规模化、集约化等更为复杂的养殖环境中,计算机视觉方法仍有局限性8,研究者考虑到声波在水中衰减小且不受水体浑浊影响、传播范围更广,开始将深度学习引入声音识别领域9。Kong 等10提出了在大规模 AudioSet 数据集上训练的预训练音频神经网络(PANNs),并证明可以将神

6、经网络转移到其他音频相关任务,但网络提取声音特征能力受限;Desplanques 等11提出利用 1D 卷积神经网络融合 Res2Net 和 SE 模块以聚合声音不同层次的特征,增强特征通道相互依赖性,但难以处理声音细节特征。在鱼类行为识别领域中,同样可使用声学特征12-13。Meng 等14提出将鱼类摄食音频转换为声音特征信息,使用卷积神经网络(CNN)模型对鱼的摄食强度进行分类,但 CNN 对鱼类细粒度声音信息提取能力有限;胥婧雯等15-16采用能对鱼类声音特征进行细粒度分类的 ResNet 网络,实现低维细节特征与高维语义特征融合,但样本种类较少,且深度残差网络中有大量冗余层、网络提取关

7、键信息少。基于以上分析,可用神经网络增强鱼类声音特征提取17,识别鱼类行为,但现有鱼类声音数据和识别模型存在不足18-19。本研究首先开展第 1 期杨雨欣等:基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别鱼类行为声音信号数据采集,然后提出基于 Mel声谱图与改进 SEResNet 的鱼类行为识别模型TAP-SEResNet,通过 Mel 声谱图对频率特征进行非线性映射,提升网络对鱼类声音高级语义特征提取能力;通过融合时序聚合池化层 TAP,使SEResNet 保留最佳声音特征信息。以上改进使SEResNet 在复杂养殖环境下鱼类行为识别的准确率与 F1 值的性能指标得到显著提升。

8、1 材料与方法1.1 数据集1.1.1 试验对象与环境本试验在大连海洋大学鱼类行为学实验室进行,试验系统共 3 个养殖池,养殖池直径 60 cm,高度 60 cm,养殖水深 40 cm,如图 1 所示。DNDN图 1 鱼类行为数据采集系统Fig.1 Fish behavior data collection system以虹鳟鱼(Oncorhynchus mykiss)为试验对象,选取体长 810 cm、平均规格 10 g,共 30 条,养殖水温保持 15 18,密度 9.2 kg/m3,pH 为 6.5 6.9,溶氧质量浓度 122 mg/L,将虹鳟鱼按数量均分为 3 个养殖池以保持最适养殖

9、鱼群密度,均经过 1 个月的养殖适应期。每天定量投喂两次20,投喂时间分别为早上 10:00 和下午 18:00。在饲料投喂时段,通过摄像头观察鱼类行为,采集鱼群摄食、游泳和跳跃声音信号,试验期间保持室内安静。为采集鱼类不同行为的声音信号,使用水下声学测量系统,水听器型号为 AQH20k-1062,采样频率 2020 000 Hz,覆盖鱼类发声频率范围。为避免水听器撞击水箱壁造成杂音,将铅锤垂直放置于养殖池水面下方 10 cm 的位置,水听器绑在铅锤上固定在养殖池中央。另一端连接计算机存储数据,存储为 wav 格式。为实时观察鱼类行为且不妨碍鱼类正常生活,摄像头(海康威视网络摄像机)架设在高于

10、水面 30 cm 的养殖水箱旁,同时连接计算机。1.1.2 数据集构建虹鳟鱼是一种具有商业价值且养殖广泛的鱼类,其跳跃行为对于鱼类健康监测和养殖环境改进有重要意义21。经过分析22,将鱼群行为分为“Feed”“Swim”“Jump”三种,采集声音信号,声音频谱图如图 2 所示。其中,“Feed”表示摄食行为,“Swim”表示游泳行为,“Jump”表示跳跃行为,红色虚线表示跳跃轨迹。4096204810245120409620481024512040962048102451200 0.5 1 1.5 20 0.5 1 1.5 20 0.5 1 1.5 2TTT)图 2 鱼类行为数据集划分Fig.

11、2 Fish behavior number set division75渔业现代化2024 年为了保证声音包含一个完整周期的行为信息,每个行为采集时长为 120 s。由于鱼类行为声音时长短,将采集到的声音信号按照每段 2 s 进行人工切分并编号;另设一组噪声对照组同步采集背景噪声,以便获取环境噪声。收集不同时间段的试验数据并重复进行上述采集过程,采集虹鳟鱼摄食声音信号样本 300 个,游泳声音信号样本 420 个,跳跃声音信号样本 300 个,共计样本1 020 个。训练、验证、测试集按照 7 2 1 比例随机划分。1.2 鱼类行为识别方法1.2.1 声音特征提取鱼类声音信号是非稳

12、态信号,在时域中难以看出其特性,需要将每帧信号进行傅立叶变换得到相应频谱图,以分析声音特征。目前,声音特征提取常用方法为声谱图(Spectrogram)23、Mel 频率倒谱系数(MFCC)24和 Mel 声谱图(Mel spectrogram)25等。声谱图能够捕捉频率变化,但对于非稳态声音信息处理能力不足,丢失部分细节时域信息。Mel 频率倒谱系数具有较强特征表达能力,但是通过离散余弦变换转换为较低维度的特征向量时,压缩过多频率尺度,致使识别准确率不高。Mel 声谱图通过应用 Mel 滤波器对音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出鱼类声音中的重要频率特征

13、,在频率轴上对音频信号进行有效压缩,提高声音信息分辨能力;在保留鱼类声音关键信息的同时降低特征维度,能更完整地提取鱼类细粒度声音信息。因此,为了精准表示鱼类行为声音特征,选择高分辨率、特征表示较好的 Mel 声谱图特征提取方法,提取不同鱼类行为 Mel 声谱图特征如图 3 所示。鱼类摄食行为声音信号含有断断续续的峰值波动,因此 Mel 声谱图呈现出明显的鱼类摄食强度变化;游泳行为声音是连续的波动信号且强度较弱,因此 Mel 声谱图特征微弱,呈现出较为明显的周期性特征;跳跃行为声音为短暂的脉冲信号,因此 Mel 声谱图持续时间短,信号振幅大。409620481024512040962048102

14、4512040962048102451200 0.5 1 1.5 20 0.5 1 1.5 20 0.5 1 1.5 2TTT)E#E#E#)图 3 不同鱼类行为的 Mel 声谱图Fig.3 Mel spectrogram of different fish behavior1.2.2 TAP-SEResNet 框架设计由于真实养殖环境下存在各种刺激源,饲料投放、水流变化等外部条件刺激将导致鱼类产生不同的声音响应,因此鱼类声音数据具有复杂性和多样性,对鱼类的行为识别必须具有较高的抗混淆能力与精准性。ResNet 网络26中的残差结构能够有效降低鱼类声音特征之间的相关性,增强模型对于差异化特征的

15、感知能力,避免关键信息逐层消失;SENet27能够对鱼类声音中的关键特征进行加权计算,增强模型对于鱼类细粒度声音的特征提取和区分能力。因此,SEResNet 对于鱼类声音能够高效提取特征、关注重要信息,可满足鱼类行为识别要求。TAP-SEResNet 基于 SEResNet,其模型结构如图 4 所示。TAP-SEResNet 由 SEResNet、TAP、全连接层和 Softmax 分类器构成。输入 Mel 声谱图信息,首先经过 SEResNet 的残差连接,得到鱼类原始声音特征,通过嵌入的 SE 注意力机制模块进行关键特征加权计算,学习鱼类声音关键信息,并和原始特征相加;针对养殖环境中频率波

16、动大、特征差异小的鱼类细粒度声音信息提取困难问题,通过融合 TAP,提升对鱼类声音信息的特征提取能力,最后将深层声音特征提供给全连接层整合信息,经过 Softmax 分类器输出鱼类行为识别结果。85第 1 期杨雨欣等:基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别FeedSwimJumpoutputSoftmaxFCTemporal AggregatedPoolingScaleResidualSEblockTFCFCReLUMel spectrogram)E#Sigmoid图 4 TAP-SEResNet 结构图Fig.4 TAP-SEResNet structure diagr

17、am1.2.3 TAP 模块针对养殖环境下复杂多样的鱼类行为声音信息,SEResNet 的残差结构和 SE 注意力机制能够有效提取鱼类声音深层细粒度特征,但是残差网络中声音特征尺寸过度压缩会导致关键信息丢失。为保留最佳鱼类声音特征信息同时不丢失背景信息,提出 TAP 模块。TAP 通过融合池化区域的最大值和平均值,兼顾鱼类声音信号的局部关键信息和整体背景信息,从而强化空间信息,提升空间感知能力,提供更丰富、全面的特征表达。时序聚合池化层 TAP 结构如图5 所示。DPODBU&图 5 时序聚合池化层 TAP 结构图Fig.5 Temporal Aggregated Pooling struct

18、ure diagram 设鱼类行为声音经过卷积处理后的特征向量为 ht,沿着总时间维度 t,同时进行平均池化和最大池化 f(x)。平均池化能提供区域内特征的整体趋势和背景信息;最大池化则能够捕捉输入区域内的最显著特征,保留重要局部细节和去除冗余信息。最后将池化后的鱼类声音特征信息进行拼接操作,得到融合后的向量 E,计算如公式(1)(4)所示:ht=(h1,h2,.,ht)(1)=1tti=1hi(2)f(x)=max(0,hi)(3)E=,f(x)(4)式中:hi(i=1,2,.,t)是特征向量分量;max 表示取特征向量最大值;,表示拼接操作。1.3 试验平台与评估指标1.3.1 试验平台

19、与模型训练参数本研究试验环境为 Intel Core 17-9700 CPU 3.00 GHz 3.00 处理器,RTX3090 显卡,32GB 内存,操作系统为 Windows10,运行环境 Python3.8,开源深度学习框架 Pytorch 版本为 1.13.1。训练参数设置 batch_size 为 32,epoch 为 100。95渔业现代化2024 年1.3.2 评估指标本研究所提模型评估采用准确率、F1 值作为模型性能评价指标,分类评估采用精确率、召回率和 F1 值作为分类性能评价指标。准确率(Accuracy,Ac)反映的是被预测为正确鱼类行为样本数与样本总数的比值,即

20、是模型正确识别各种鱼类行为的概率;精确率(Precison,Pr)反映的是在特定鱼类行为下,正确分类样本在所有预测为该鱼类行为样本中所占的比例;召回率(Recall,Re)反映的是正确分类的鱼类行为占所有该行为总样本的比例;F1 值(F1-score,F1)作为分类器的综合指标,是精确率和召回率的调和平均数。计算如公式(5)(8)所示:Ac=TTP+TTNTTP+FFP+FFN+TTN(5)Pr=TTPTTP+FFP(6)Re=TTPTTP+FFN(7)F1=2 Pr RePr+Re(8)式中:TTP(True Positives)为在正样本中预测出正确鱼类行为的样本数;FFN(False N

21、egatives)为在正样本中预测出错误鱼类行为的样本数;FFP(False Positives)为在负样本中预测出正确鱼类行为的样本数;TTN(True Negatives)为在负样本中预测出错误鱼类行为的样本数。2 试验设计与结果分析2.1 消融试验为验证时序聚合池化层 TAP 对 SEResNet 改进的有效性,设计消融试验内容如下:分别在有池化层 TAP 和无池化层 TAP 条件下进行了鱼类行为识别对比试验。试验结果如表 1 所示,加入TAP 模块后模型的准确率、F1 值分别提升3.23%、4.33%,表明所提模块有效。通过融合TAP 模块对 SEResNet

22、模型进行改进,结合最大值和平均值,保留鱼类声音信号的局部关键信息和整体背景信息,使鱼类细粒度声音完整提取,减少有效信息丢失,提升模型性能,可更好满足鱼类行为识别要求。表 1 消融试验Tab.1 Ablation experiment模型TAP 模块准确率/%F1 值/%SEResNet87.9286.10TAP-SEResNet91.1590.432.2 对比试验2.2.1 特征提取方法对比为验证 Mel 声谱图对于鱼类声音特征提取的有效性,设计对比试验内容如下:在 TAP-SEResNet 的基础上与目前常用的声音特征提取方法声谱图23和 Mel 频率倒谱系数24进行对比

23、。试验结果如表 2 所示,Mel 声谱图相比其他方法准确率分别提升 8.36%、0.97%,F1 值分别提升 8.8%、0.47%。由分析可得,声谱图处理非稳态声音信息能力不足,Mel 频率倒谱系数压缩过多频率尺度,影响模型准确性。Mel 声谱图在频率轴上有效压缩鱼类声音信号,增强声音信息特征提取和分辨能力,与 Mel 频率倒谱系数和声谱图相比,更适用于提取鱼类声音信息,明显优于其他方法。表 2 特征提取方法对比Tab.2 Comparison of feature extraction methods特征方法准确率/%F1 值/%Spectrogram82.7981.63MFCC90.188

24、9.96Mel spectrogram91.1590.432.2.2 模型对比试验为验证 TAP-SEResNet 在鱼类行为识别的有效性,与先进声音识别模型进行对比试验,对比模型分别是:Kong 等10通过迁移学习方法,提出声音识别网络 PANNs-CNN14;Desplanques 等11通过结合 Res2Net 模块和 SE 注意力机制并使多层特征聚合,提出语音识别网络 ECAPA-TDNN;胥婧雯等15通过结合 MFCC 和 ResNet,提出鱼类行为识别网络 MFCC+ResNet。试验结果如表 3 所示,与其他方法相比,TAP-SEResNet 准确率分别提升 5.32%、2.80

25、%和 1.64%,F1 值分别提升5.93%、1.96%和 2.00%。经分析可得,PANNs-CNN14 通过将神经网络用于音频任务,学习声音特征,但是 CNN 对声音信息提取能力有限;ECAPA-TDNN 通过在 1D 卷积网络基础上融合06第 1 期杨雨欣等:基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别Res2Net 和 SE 模块以聚合声音不同层次的特征,但是对噪声和环境变化比较敏感;MFCC+ResNet通过将残差模块中的最大池化替换为平均池化,多维度学习鱼类声音特征,但是深度残差网络含有大量冗余层,有效声音信息提取不够。TAP-SEResNet 通过融合 TAP 模

26、块保留更多的鱼类行为声音关键特征,同时不丢失声音背景信息,促进SEResNet 对鱼类细粒度声音信息进行有效提取,达到最优识别性能。表 3 不同模型与 TAP-SEResNet 的性能对比Tab.3 Performance comparison between different models and TAP-SEResNet模型准确率/%F1 值/%PANNs-CNN1485.8384.50ECAPA-TDNN88.3588.47MFCC+ResNet89.5188.43TAP-SEResNet91.1590.432.3 TAP-SEResNet 识别结果为验证 TAP-SEResNet 对

27、鱼类行为识别的分类性能,识别结果和归一化混淆矩阵如表 4 和图6 所示。表 4 TAP-SEResNet 鱼类行为识别结果Tab.4 TAP-SEResNet fish behavior recognition results鱼类行为精确率/%召回率/%F1 值/%Feed98.1799.8599.00Jump98.0082.7289.71Swim81.1399.1589.24图 6 鱼类行为识别归一化混淆矩阵Fig.6 Fish behavior recognition normalized confusion matrix由表 4 数据分析可得,“Feed”行为由于声音信息较丰富,分类效果

28、最好,评估指标均在 98%以上;“Feed”和“Jump”鱼类行为识别精确率均达到 98%以上,“Feed”和“Swim”鱼类行为识别召回率均达到 99%以上,3 个鱼类行为识别 F1 值均达到 89%以上,模型整体准确率为 91.15%。由图 6可知,归一化混淆矩阵的左上到右下的对角线表示每个分类的识别准确率,对角线外区域表示错误分类区域,“Feed”和“Jump”分类精确率均达到98%,稳定性好。故 TAP-SEResNet 通过融合 TAP模块,增强模型分类性能,试验结果表明所提模型改进的有效性。然而本算法仍具有局限性,由于鱼类游泳行为动作幅度小、特征不明显,游泳行为有效声音信息较少,故

29、图 6 中游泳行为识别结果的精确率仅达到 81%,与摄食、跳跃行为识别结果相差 17%,识别效果较差,说明部分鱼类声音信息仍然无法高效捕捉和分辨,同时试验环境中可能存在影响声音检测的其他干扰因素。对比鱼类品种识别28-29,本研究识别难度在于鱼类行为声音信息难采集、频率波动大和特征差异小等特点使得目标特征信息难以捕捉,声音关键信息的提取准确率低;对比鱼类摄食强度量化30,本研究识别难度在于真实养殖环境通常比较复杂,鱼类行为声音信息易受环境噪声影响且含有多样性和复杂性,增加了识别难度。针对上述难点,TAP-SEResNet 识别模型通过采用 Mel 声谱图提取声音特征信息,从而降低了鱼类声音信息

30、提取难度;同时提出融合 TAP 模块加强对关键特征的提取,从而增强 SEResNet 对鱼类细粒度声音信息的识别能力。3 结论本研究提出基于 Mel 声谱图和改进SEResNet 的鱼类行为识别模型 TAP-SEResNet,鱼类声音信息由 Mel 声谱图特征提取,通过融合TAP 模块保留鱼类声音的局部关键信息和整体背景信息,减少关键信息丢失,提高 SEResNet 模型识别能力,可为研究鱼类行为识别领域提供技术支持,有助于养殖过程中对鱼类行为实现精准检测。然而,本研究仅在实验室环境下进行,对复杂养殖环境中含有杂乱背景声音信息的问题,仍需进一步研究改进,同时还可以针对鱼类

31、声音特点考虑其他更有效的特征提取方法。16渔业现代化2024 年参考文献1 于红.水产动物目标探测与追踪技术及应用研究进展J.大连海洋大学学报,2020,35(6):793-804.2 裴凯洋,张胜茂.基于计算机视觉的鱼类视频跟踪技术应用研究发展J.海洋渔业,2022,44(5):640-647.3ZHANG P,YU H,LI H Q,et al.MSGNet:Multi-Source Guidance Network for Fish Segmentation in Underwater VideosJ.Frontiers in Marine Science,2023,10:125

32、6594.4 LI H Q,YU H,ZHANG P,et al.Detection of tiger puffer using improved YOLOv5 with prior knowledge fusionJ.Information Processing in Agriculture,2023,2214-3173.5 LI H Q,YU H,GAO H T,et al.Robust detection of farmed fish by fusing YOLOv5 with DCM and ATM J.Aquacultural Engineering,2022,99:102301.6

33、赵梦,于红,李海清,等.融合 SKNet 与 YOLOv5 深度学习的养殖鱼群检测 J.大连海洋大学学报,2022,37(2):312-319.7 韦思学,于红,张鹏,等.基于通道非降维注意力机制与改进YOLOv5 的养殖鱼群检测J.渔业现代化,2023,50(3):72-78.8 唐荣,陈军,刘世晶,等.基于声学方法的水产养殖投饲反馈技术研究进展J.渔业现代化,2019,46(3):15-21.9 耿艳利,宋朋首,林彦伯等.采用改进 CNN 对生猪异常状态声音识别J.农业工程学报,2021,37(20):187-193.10 KONG Q Q,CAO Y,IQBAL T,et al.P

34、anns:Large-scale pretrained audio neural networks for audio pattern recognitionJ.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2020,28:2880-2894.11DESPLANQUES B,THIENPONDT J,DEMUYNCK K.ECAPA-TDNN:Emphasized Channel Attention,Propagation and Aggregation in TDNN Based Speaker Verificat

35、ion C /Proceedings of INTERSPEECH 2020.2020:3830-3834.12曲蕊,刘晃,庄保陆,等.水产养殖中摄食声学研究进展J.渔业现代化,2020,47(4):1-6.13曹晓慧,刘晃,戚仁宇,等.循环水养殖大口黑鲈摄食颗粒饲料的声学特征J.农业工程学报,2021,37(20):219-225.14 CUI M,LIU X B,ZHAO J Z,et al.Fish Feeding Intensity Assessment in Aquaculture:A New Audio Dataset AFFIA3K and a Deep Learning Alg

36、orithmC/2022 IEEE 32nd International Workshop on Machine Learning for Signal Processing(MLSP).IEEE,2022:1-6.15胥婧雯,于红,李海清,等.基于 MFCC 和 ResNet 的鱼类行为识别J.海洋信息技术与应用,2022,37(1):21-27.16胥婧雯,于红,张鹏,等.基于声音与视觉特征多级融合的鱼类行为识别模型 U-FusionNet-ResNet50+SENetJ.大连海洋大学学报,2023,38(2):348-356.17JUNG S Y,LIAO C H,WU Y S,et a

37、l.Efficiently classifying lung sounds through depthwise separable CNN models with fused STFT and MFCC featuresJ.Diagnostics,2021,11(4):732.18陈雨琦,冯德军,桂福坤,等.采用机器视觉和傅里叶频谱特征的循环水养殖鱼类摄食状态判别J.农业工程学报,2021,37(14):155-162.19汤勇.中国渔业资源声学评估研究与进展J.大连海洋大学学报,2023,38(2):185-195.20秦勇,丁丰源,张国维,等.刘家峡水库虹鳟鱼网箱养殖当年养成技术J.中国水

38、产,2022(9):81-83.21窦玉龙,吴立新,Biju Sam Kamalam J.虹鳟鱼营养与摄食研究进展J.中国水产,2021(4):64-72.22杨秀,张旭彬,孔令杰.黑龙江省漂浮式流水槽养殖虹鳟鱼技术试验分析J.中国水产,2020(12):89-90.23 ZENG Y H,YANG X T,PAN L,et al.Fish school feeding behavior quantification using acoustic signal and improved Swin Transformer J.Computers and Electronics in Agricu

39、lture,2023,204:107580.24 DENG Muqing,MENG Tingting,CAO Jiuwen,et al.Heart sound classification based on improved MFCC features and convolutional recurrent neural networksJ.Neural Networks,2020,130:22-32.25刘亚荣,于顼顼,谢晓兰.基于滤波器组和残差网络的环境声音识别算法J.计算机工程与设计,2023,44(6):1736-1742.26HE K M,ZHANG X Y,REN S Q,et a

40、l.Deep residual learning for image recognition C/Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2016:770-778.27HU J,SHEN L,SUN G.Squeeze-and-excitation networksC/Proceedings of the IEEE conference on computer vision and pattern recognition.IEEE,2018:7132-7141.28张溟

41、晨,赵伦,施杰,等.基于迁移学习的 PSO-Shuffle Net 鱼类识别方法J.渔业现代化,2023,50(2):67-73.29涂雪滢,刘世晶,钱程.基于 ResNet 的典型养殖鱼类识别方法研究J.渔业现代化,2022,49(3):81-88.30黄志涛,何佳,宋协法.基于鱼体运动特征和图像纹理特征的鱼类摄食行为识别与量化J.中国海洋大学学报(自然科学版),2022,52(1):32-41.26第 1 期杨雨欣等:基于 Mel 声谱图与改进 SEResNet 的鱼类行为识别Fish behavior recognition based on Mel spectrogram and im

42、proved SEResNetYANG Yuxin,YU Hong,YANG Zongyi,TU Wan,ZHANG Xin,LIN Yuanshan(1College of Information Engineering,Dalian Ocean University,Dalian 116023,Liaoning,China;2 Dalian Key Laboratory of Smart Fisheries,Dalian 116023,Liaoning,China;3 Key Laboratory of Environment Controlled Aquaculture(Dalian O

43、cean University),Dalian 116023,Liaoning,China;4 Liaoning Provincial Key of Marine Information Technology,Dalian 116023,Liaoning,China)Abstract:In order to solve the problem that the sound discrimination of fish is difficult and the behavior recognition accuracy is not high due to the stimulus source

44、s such as feed release and water flow change in the breeding environment,a fish behavior recognition model based on Mel spectrogram and improved SEResNet was proposed.Firstly,in view of the difficulty of feature extraction due to the large frequency fluctuation and small feature difference of fish b

45、ehavior sounds,a high-resolution Mel spectrogram with good feature representation is adopted to capture the spectral features of fish sounds and enhance the recognition ability of fine-grained sound information of fish.Secondly,to solve the problem that key information of fish sound features is easy

46、 to be lost,it is proposed to integrate the Temporal Aggregated Pooling layer in the SEResNet model,extract the maximum value and average value of the pooled region,and retain more fine-grained sound features of fish behaviors to improve the recognition accuracy.To verify the effectiveness of the pr

47、oposed model,the ablation experiment and the model performance comparison experiment were designed respectively.The test results showed that the accuracy of TAP-SEResNet was improved by 3.23%compared with SEResNet without reducing the detection speed.Compared with advanced voice recognition models s

48、uch as PANNS-CNN14,ECAPA-TDNN and MFCC+ResNet,TAP-SEResNet has improved its accuracy by 5.32%,2.80%and 1.64%,respectively.The results show that the proposed model can effectively solve the problem of low accuracy of fish behavior recognition in aquaculture environment,help to realize accurate monitoring of fish behavior in aquaculture process,and play an important role in promoting precision aquaculture.Key words:fish behavior recognition;passive underwater acoustic signal;Mel spectrogram;SEResNet36

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于 Mel 声谱改进 SEResNet 鱼类行为识别

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。