基于残差卷积神经网络模型的勺嘴鹬动作识别.pdf
《基于残差卷积神经网络模型的勺嘴鹬动作识别.pdf》由会员分享,可在线阅读,更多相关《基于残差卷积神经网络模型的勺嘴鹬动作识别.pdf(9页珍藏版)》请在咨信网上搜索。
1、生态多样性与生态文化DOI:10.15886/ki.rdswxb.20220088主持人:任明迅基于残差卷积神经网络模型的勺嘴鹬动作识别杨雪珂1,蒙金超1,冯悦恒1,林婷婷1,2,王兆君2,刘辉1(1.海南大学林学院,海口570228;2.中国科学院动物研究所,北京100101)摘要:为开启海南热带地区鸻鹬类涉禽的动作识别以及其他野生鸟类行为学自动识别的研究,建立了基于野外采集影像的勺嘴鹬(Eurynorhynchus pygmeus)动作图像数据集。该数据集由表达勺嘴鹬主要行为模式的 9 种动作标签组成;同时利用 ResNet50、ResNet101 和 ResNet152 共 3 种残差卷
2、积神经网络模型尝试对勺嘴鹬的动作进行自动识别。结果表明,ResNet50、ResNet101、ResNet152 测试集准确率分别为 96.90%、96.94%和 96.90%,说明 3 种模型都能对勺嘴鹬图像进行快速准确的动作识别。关键词:残差卷积神经网络;鸟类图像;动作识别;勺嘴鹬中图分类号:Q958文献标志码:A文章编号:16747054(2023)05048109杨雪珂,蒙金超,冯悦恒,等.基于残差卷积神经网络模型的勺嘴鹬动作识别 J.热带生物学报,2023,14(5):481489.doi:10.15886/ki.rdswxb.20220088随着科技的发展,鸟类图像的大量采集变得更
3、加便捷,可利用图像采集设备(如红外相机1、普通相机)采集,也可利用智能手机采集。随着鸟类数据共享平台(eBird2、中国爱鸟网等)的建立,来自世界各地的大量鸟类图像数据被上传至网络数据库。仅以 eBird 为例,已有超过 2000 万张鸟类图像被上传至该平台,并且图像数量依旧在迅速增长。鸟类图像记录了鸟类形态学特征、生境信息3及行为学特征,对鸟类学研究有着重要的价值,但面对如此大量的鸟类图像数据,仅凭人工处理是无法满足需求的。为了能快速自动化处理大量的鸟类图像数据,深度学习(DeepLearning)领域的研究人员已经开展了相关研究。图像识别技术应用于鸟类物种识别已有一些成功案例,在标准鸟类图
4、像数据库 CUB200-20114的技术报告中,Welinder 等4就使用局部区域和基于传统特征的词包模型实现分类,Berg 等5提出 POOF 特征,Yao6和 Yang7等均尝试使用模板匹配的方法替换定位算法中的滑动窗口,以降低算法复杂度。基于图像识别技术的珍稀濒危鸟类的行为识别具有重大应用价值8,但整体看来,目前的研究主要涉及计数9、密度估计10、生境因素识别11等。虽然目前自动监测获得的影像数据量极大,其中很大一部分行为表达数据对于无人为干扰下鸟类行为的研究很有价值,但是目前使用这种方式对野生鸟类行为学进行的研究少之又少。动物通常以身体运动和身体姿势来表达行为,动物的行为是其对环境和
5、生理状况的一种反应,为研究动物健康水平提供了重要的线索12,所以进行动物行为识别或动作识别是十分必要的。卷积神经网络(ConvolutionalNeuralNetworks,CNN)为深度学习的代表算法之一,其在图像识别领域展现了非常大的潜力和极佳的性能1315。经典的神经网络模型包括 ResNet16、VGGNet17、ALexNet18、GoogLeNet19等,其 中,残 差 网 络(ResidualNetwork,ResNet)良好地解决了网络加深带来的学习退化问题,该模型目前在各领域取得了广泛应用20。目前利用卷积神经网络来实现野生动物自动识别的研究较多。史春妹等21运用单次多盒目标
6、检测方法来进行东北虎的个体识收稿日期:20221022修回日期:20230124第一作者:杨雪珂(1997),女,海南大学林学院 2020 级硕士研究生.E-mail:通信作者:刘辉(1988),男,博士.讲师.研究方向:热带野生动物保护.E-mail:liuhui_第14卷第5期热带生物学报Vol.14No.52023年9月JOURNALOFTROPICALBIOLOGYSep.2023别,达到 97.4%的准确率。石鑫鑫等22提出了一种全连接算法与稀疏连接算法相结合的全卷积神经 网 络 解 决 了 蛙 声 识 别 问 题,准 确 率 达 到99.67%。还有使用基于感兴趣区域与卷积神经网络
7、的野生动物物种自动识别方法实现了基于野生动物监测图像的物种识别研究,平均识别率均可达到 90%左右23。残差网络模型的应用研究成果对于鸟类图像大数据的有效利用有着重要的辅助作用,但仍不能满足实际需要,仍缺乏应用卷积神经网络进行野生鸟类的动作自动化识别研究24。勺 嘴 鹬 隶 属 鹬 科(Scolopacidae)滨 鹬 属(Calidris),是一种仅分布于东亚澳大利西亚候鸟迁徙路线上的涉禽25,被世界自然保护联盟(IUCN)红色名录列为极度濒危(CR)物种。其在我国的江苏、浙江、福建、广东、海南等省份均有被记录到,其中,海南儋州湾是海南岛目前已知的为数不多的勺嘴鹬的为数不多的越冬地。繁殖期以
8、外的时期,勺嘴鹬只在滨海滩涂湿地有分布,觅食地主要为潮间带的滩涂26。目前,国内外主要利用环志等回收数据,开展勺嘴鹬的栖息地保护27、种群数量28和分布区系29等的研究,未涉及其行为动作的识别。因此,笔者尝试使用卷积神经网络模型(ResNet50、ResNet101 和 ResNet152)进行勺嘴鹬动作的自动识别研究,以期开启海南热带地区鸻鹬类30涉禽的动作识别以及其他野生鸟类行为学自动识别的研究。1材料与方法1.1研究区域概况儋州湾(1090210936E,19332001N)位于海南省儋州市中北部,由北部湾伸入洋浦半岛进而形成的半封闭内湾,面积约为50km2。该区域属于季风性气候,冬季干
9、燥、夏季湿润,年平均降雨量约 1426mm,年均气温23.131。儋州湾于 1986 年被设立为市级自然保护区,红树林面积约 133hm2,是黑脸琵鹭(Plataleaminor)、小青脚鹬(Tringa guttifer)、勺嘴鹬等珍稀濒危迁徙涉禽的重要越冬地和停歇地32。1.2研究方法1.2.1 数据的采集与预处理数据的采集与预处理数据采集于 2020-11-212021-03-20,采集时间段主要集中在 9:00-17:30,共获得 42 份用相机拍摄的勺嘴鹬视频(佳能 SX60HS 长焦数码相机、尼康 D500 单反相机和尼康 Z6 微单相机,视频尺寸为 1920108030p)。将采
10、集的数据进行预处理:1)通过查找相关文献、咨询专家和快速浏览现有视频资料确定可以用于识别勺嘴鹬动作的标签(表 1);2)将 42 份视频数据解帧(每 5 秒解帧,有重复的图片只保留 1 张,再进行人工修正),共获得 66875 张勺嘴鹬图像;3)删除勺嘴鹬与其他鸟类同框的图像和因拍摄抖动或对焦失败形成的模糊图像,手动筛选相应标签的图像(每 1 张图像包含 1 种标签),并在筛选结束后创建以标签命名的文件夹,最后共获得 9 个标签文件夹;4)使用 Grad-Cam33对 3 种模型的预测结果进行可视化处理(图 1)。图 1 中橙色部分表示模型是基于这些区域判断出图像中的动作类别。1.2.2 构建
11、数据集构建数据集由于目前没有用于识别勺嘴鹬动作的公共数据集,因此,笔者建立了个由猎食、觅食、休憩、理羽、洗浴、抖羽、振翅和踱步9 种动作标签构成的共 2174 张图片的数据集(表 2),该数据集按照311 的比例随机划为训练集、验证集和测试集34。1.3残差卷积神经网络和迁移学习卷积神经网络包含多个卷积层、池化层和全连接层35。卷积层和池化层是提炼图像特征关键部分的模型,全连接层能够在高层次特征域内把图像分类作为主要实现的图像映射3638。卷积神经网络也可以被认为是由特征提取器和分类器 2 个部分组成,具有端到端特征提取和分类的特性。在卷积神经网络的结构中,卷积的层次更深,网络学习的能力也就更
12、强,那么特征图能得到的信息也会更全。然而,随着网络层次和结构逐渐加深,网络内的计算量也将随之增多,进而导致网络也变得更为复杂,同时可能会导致梯度消失和网络退化等问题39,从而导致识别效果和稳定性都不理想。残差网络(ResNet)是最近十多年以来相关领域研究人员提出的最新关于执行计算机领域视觉任务的一种典型的卷积神经网络,因其加入了残差模块从而减少了随网络深度的增加而引起的梯度消失的问题40,一方面减少了参数数量,另一方面在网络中增加了直连通道,增加了卷积神经网络对特征的学习能力41。鉴于此背景,笔者使用ResNet10142、ResNet5043和 ResNet152443 种 不482热带生
13、物学报2023年同层数的残差卷积网络模型作为本研究的基本网络。因本研究数据集的图像相对较少,所以采用残 差 网 络 迁 移 学 习20的 方 法,将 前 人 训 练ImageNet图像数据集得到的不同深度残差网络模型的模型参数当作勺嘴鹬图像训练 3 种网络模型的初始化值,然后把预训练网络内的最后一层的全连接层输出替换为本研究的勺嘴鹬图像数据集的类别数 9,以此为基础,再将勺嘴鹬图像识别模型进行下一步训练(图 2)。1.4实验环境配置实验中所有代码均是在PyTorch45神经网络框架下完成的。本研究选用 的 是 PyTorch1.3.1,框 架 环 境 为 GPU:TeslaV100Mem:32
14、GB,操作系统是 LinuxCentoOS7.2 服务器。1.5实验模型1.5.1 模型结构模型结构本研究所用模型是以经典的ResNet50、ResNet101 和 ResNet152 模型为基础进行新的改善,网络结构超参数具体设置分别为损失函数设置为交叉熵函数;优化器设置为自适应矩估算法;学习率设置为 0.0001;训练轮数为 100;批量为 64。1.5.2 模型优化与评价标准模型优化与评价标准本研究采用自适应矩估计(Adam)方法46进行模型的优化。图像分表1勺嘴鹬的动作分类及定义动作标签描述图像理羽用喙部梳理、修饰身体不同部位羽毛的过程猎食狩猎食物的一种警戒状态,一般表现为不停转圈、直
15、立伸长脖颈等观察食物位置的一系列动作抖羽使羽毛微微鼓起或竖起,抖动羽毛的过程进食吞咽食物的一系列动作觅食将喙部贴在水面或深入水下寻觅食物的过程踱步脖子或身子略向前倾,脚抬起往前的过程休憩头颈后转、喙前端埋于翅下或头颈略为回缩、闭眼静止不动的行为洗浴将身体浸入水中或在水体表面,通过颈部伸缩、翅膀的快速抖动及身体摆动等动作将水遍布身体,清洗身体的过程振翅大幅度拍打翅膀或翅膀完全张开的过程第5期杨雪珂等:基于残差卷积神经网络模型的勺嘴鹬动作识别483类评估中常用的评价指标有准确率(精度)、精确率、召回率和 F1-score47,在此基础上本研究添加模型训练时长作为模型的评价指标。根据真实标签和预测结
16、果,将所有测试图像分为 4 类。总共有 4 个基本数:真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)。正确预测的测试图像的数量由 TP 和 TN 表示,错误预测的图像的数量由FN 和 FP 表示。准确率就是正确分类样本所占总样本的比率,能够衡量分类器对于总样本的判断能力33。精确率又称查准率,值越高说明正确分类率越高。召回率又称查全率,值越高说明识别得越全面。F1-score 表示的是算法的综合性能,可以QriginalResNet50ResNet101ResNet152图1Grad-CAM 热力图注:图像中各部分对预测结果的权重,颜色越深红,表示该区域对网络的响应越大,对预测
17、结果的贡献越大,也即该模型对该区域的关注度越高。表2动作标签数据集动作标签数量/张训练集/张验证集/张测试集/张理羽4632709090猎食229893030抖羽126742525进食69321111觅食4071966666踱步191933132休憩1711003434洗浴4012408081振翅90521718总数21741146384387484热带生物学报2023年平衡召回率和准确率的影响,其取值范围为 01,值越大表示算法性能越好。以上评价标准形式化定义如下:准确率=TP+TNTP+TN+FP+FN,精确率=TPTP+FP,召回率=TPTP+FN,F1score=2RecallPrec
18、isionRecall+Precision,式中:阳性与阴性是相对的,若阳性代表觅食,阴性代表踱步;TP 为真阳性(truepositive)图像数目,真阳性则证明这个图像在整个预测分类的结果和标记标签中属于觅食;FP 为假阳性(falsepositive)图像数目,假阳性证明此图像标记标签是觅食,但是在预测分类结果中为踱步;TN 为真阴性(truenegative)图像数目,真阴性证明该图像标记标签为踱步,并且对其预测的结果也属于踱步;FN(falsenegative)是假阴性图像数目,假阴性是图像标记标签踱步,但在预测的分类结果里是觅食26。2结果与分析2.1不同模型的损失和验证精度随着训
19、练轮数的增加,每个模型的预测值与真实值之间的损失都呈下降趋势,验证集中的准确性都呈上升趋势(图 3)。最后,随着训练轮数增多,每个模型的验证准确率都趋于稳定,仅存在小幅波动,这表明网络得到了充分的训练。2.2不同模型的识别准确率和训练时长从准确率来说,3 种网络模型准确率之间的差别较小,不同模型的验证集准确率和测试集准确率都在95%以上,说明模型的泛化能力良好(表 3)。模型在每轮训练时长上都有较快的速度,时长由短到长依次为 ResNet50、ResNet101 和 ResNet152,其中,ResNet50 和 ResNet152 测试集准确率都是96.90%,ResNet101 测试集准确
20、率为 96.64%,低于其他 2 个模型。ResNet50 训练时长是 89.78s轮,ResNet152 训练时长是 101.87s轮,在同样准确率的情况下,ResNet50 训练时长低于 ResNet152。2.33 种模型的精度、召回率及 F1-score图 4展示了不同模型在数据集上的评价指标结果。进食动作标签在 ResNet101 和 ResNet152 模型的视频预处理训练集(60%)+验证集(20%)测试集(20%)训练好的模型模型训练最优模型模型评估-删除模糊、多鸟种同框的图像-确定动作标签图2残差网络数据分析流程图000.20.40.60.81.0损失/%2040608010
21、0Trainning-ResNet50Trainning-ResNet101Trainning-ResNet152Validation-ResNet50Validation-ResNet101Validation-ResNet152ResNet50ResNet101ResNet1520707580859095验证准确率/%2040训练轮数6080100图33 种模型的损失和准确率表3ResNet50、ResNet101 和 ResNet152模型的准确率和训练时长模型训练集准确率/%验证集准确率/%测试集准确率/%训练时长/(s轮)ResNet5092.4196.6196.9089.78Res
22、Net15290.4995.3196.90101.87ResNet10187.8797.4096.6495.53第5期杨雪珂等:基于残差卷积神经网络模型的勺嘴鹬动作识别485F1-score 值偏低于 0.90,除此之外的其他动作标签在不同的模型的 F1-score 值都高于 0.90,表明本研究算法的综合性能较好。在模型精度方面,除踱步和进食 2 种动作标签的精度在 ResNet50 和ResNet101 上低于 0.90,其余标签的精度都不低于0.90,说明 3 种模型在识别动作标签时都有较强的识别能力。在召回率方面,进食标签在 ResNet152上的召回率在 0.80 以下,其余标签在不
23、同的模型上召回率都在 0.80 以上,且大部分高于 0.90,说明进食动作识别得不够全面。抖羽0.600.650.700.750.800.850.900.951.00召回率踱步进食猎食理羽觅食休憩洗浴振翅ResNet50ResNet101ResNet152抖羽0.600.650.700.750.800.850.900.951.00精度踱步进食猎食理羽觅食休憩洗浴振翅ResNet50ResNet101ResNet152抖羽0.600.650.700.750.800.850.900.951.00F1-score踱步进食猎食理羽觅食休憩洗浴振翅ResNet50ResNet101ResNet152图4
24、种模型的精度、召回率及 F1-score2.4勺嘴鹬 9 种动作标签的预测分类结果图 5对角线上表示在测试集中预测正确的图像数量,其余为预测错误的数量。模型对一些动作的识别容易存在误判现象,如 ResNet50 模型在识别猎食和踱步时错判最多,有 4 张猎食被错判成踱步;ResNet101 模 型 有 2 张 抖 羽 被 错 判 成 理 羽;ResNet152 模型有 3 张进食被错判成觅食。Res-Net50、ResNet101 和 ResNet152 模型识别错误的图像总数分别是 12、13、20 张。预测标签ResNet50真实标签087654321012345678预测标签ResNet
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 卷积 神经网络 模型 勺嘴鹬 动作 识别
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。