基于改进的Mask R-CNN的鱼类识别算法研究.pdf
《基于改进的Mask R-CNN的鱼类识别算法研究.pdf》由会员分享,可在线阅读,更多相关《基于改进的Mask R-CNN的鱼类识别算法研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 51 卷收稿日期:2022年12月10日,修回日期:2023年1月24日作者简介:闫党康,男,硕士研究生,研究方向:深度学习、计算机视觉、目标检测。1引言鱼类是水体资源及水下生态系统的重要组成部分,合理开发和利用鱼类资源对于水体生态保护和渔业资源的可持续利用进而实现社会经济的可持续发展发展具有重要意义。而深度学习是近年来兴起的主流的人工智能技术之一,在图像识别中的优势尤其突出,因此,基于深度学习技术开展水下鱼类识别的研究具有重要的学术价值和社会经济价值。传统的鱼类识别方法大多基于特定环境下的鱼类采用人工设计的特征使用图像识别方法进行分类,具有一定的局限性。由于人工设计的特征具有强烈的主观性
2、,识别效果的优劣取决于人工设计的特征是否合理,因此,对于特定的数据集和识别任务,人工设计的低级特征能在一定程度下获得良基于改进的 Mask R-CNN 的鱼类识别算法研究闫党康(北方工业大学信息学院北京100144)摘要水下鱼类是重要的地球生物资源。针对现有的深度学习模型在水下鱼类图像识别场景中识别效果不佳的问题,提出了一种基于改进的Mask R-CNN的鱼类识别算法模型。首先,采用深度残差网络和特征金字塔结构对水下鱼类图像进行特征提取;其次,选用区域候选网络针对特征图生成感兴趣区域;然后,通过改进的Soft NMS算法对感兴趣区域进行后处理以减少对鱼类目标候选框的误检率;最后,在头部网络中添
3、加级联结构对特征区域进行微调以提升鱼类识别精度。在Fish4knowledge数据集上的对比实验结果表明,改进的鱼类识别算法的平均精度均值为87.4%,相对于基线算法模型精度提升了3.6%。所提算法能够有效提高水下鱼类识别精度,同时减少误检率,提升泛化性能,对我国水下鱼类资源的开发利用具有重要的学术价值和经济价值。关键词鱼类识别;Mask R-CNN;Soft NMS;级联结构;迁移学习中图分类号TP391DOI:10.3969/j.issn.1672-9722.2023.06.005Research on Fish Recognition AlgorithmBased on Improved
4、 Mask R-CNNYAN Dangkang(School of Information,North China University of Technology,Beijing100144)AbstractUnderwater fishes are important living resources on the earth.Aiming at the poor detection ability of existing deeplearning models in underwater fish images detection environments,a fish detectio
5、n algorithm model based on improved MaskR-CNN is proposed with the use of the state-of-art in deep learning.Firstly,the deep residual network and feature pyramid areused to extract the features of underwater fish images.Secondly,the region proposal network is selected to generate the region of inter
6、est for the feature maps.Then,the improved Soft NMS algorithm is used to the region of interest that is post-processed to reducethe false detection rate of the fish object candidate frame.Finally,a cascade structure is added to the head network to fine-tune thefeature area to improve the accuracy of
7、 fish recognition.The results of comparative experiments on the Fish4knowledge dataset showthat,the average mean accuracy of the algorithm is 87.4%,which is an improvement of 3.6%compared to the single algorithm model accuracy.The proposed algorithm can effectively improve the recognition accuracy o
8、f underwater fish while reducing the false detection rate and improving the generalization performance,which has important academic and economic value for the developmentand utilization of underwater fish resources in my country.Key Wordsfish detection,Mask R-CNN,Soft NMS,cascade structure,transfer
9、learningClass NumberTP391总第 404 期2023 年第 6 期计算机与数字工程Computer&Digital EngineeringVol.51 No.612382023 年第 6 期计算机与数字工程好的性能,但随着数据集的增长,基于人工设计特征的传统鱼类识别方法的泛化能力迅速饱和,不仅复杂度高、鲁棒性差,且产生大量的候选冗余区域 1。2012年,Krizhevsky等2提出了一种基于深度卷积神经网络的AlexNet算法,该方法使用仿生视觉细胞的局部感受野等手段解决了图像处理的难题,并在 ImageNet 竞赛中获胜。2014 年,Girshick等3提出了基于区域
10、的卷积神经网络,它结合选择性搜索(Selective Search)、卷积神经网络等方法进行候选区域生成、特征提取、位置修正,提高了目标检测效果,改变了目标检测领域的研究思路。受此启发,特征提取网络、特征表示器和检测框架相继出现。目前的深度学习目标检测算法可以划分为两类4:1)一步(one-stage)目标检测算法,这类检测算法不需要生成候选区域(region proposal)阶段,即仅通过一步均匀在特征图(feature map)上进行密集抽样,产生大量的先验框(prior box),然后进行分类和回归,因此在检测速度上相对较快,代表算法有YOLO58、SSD9等;其中YOLO算法是将原始
11、输入图片进行分割成网格进而得到预测结果,SSD算法利用了多尺度的特征图相融合的方法消除冗余得到预测结果。2)两步(two-stage 目标检测算法,这类检测算法将检测问题划分为两步,首先,产生包含目标位置信息的候选区域(region proposals),然后,对候选区域进行分类和位置精修。因此在检测精度上优势显著,代表算法有更快的区域卷积神经网络10,该算法将特征提取(feature extraction),区域(proposal)提取,边界框回归(bounding box regression),分类(classification)整合在一个卷积神经网络中,使得检测性能大大提高。深度学习目
12、标检测算法在诸多领域中广泛应用,例如交通中的“车辆检测”11,人脸识别中的“多姿态识别”12,行人检测中的“细粒度识别”13等任务均获得进展。不同于以上类型的识别目标,鱼类图像为水下拍摄所得,受光照、水质等因素的影响,图像质量较低,难以针对鱼类目标进行精确地候选框生成,并将对目标的分类定位任务造成一定的影响。因此,本文采用基于深度学习的目标检测算法,提出将Mask R-CNN结构应用到鱼类识别中并加以改进,主要工作包含以下几个部分:1)数据集的获取与打标阶段,选择Fish4knowledge鱼类数据库并利用VIA图像打标工具进行标注,采用翻转、剪切等几何变换方式对数据集进行扩充,实现数据增强。
13、2)候选区域生成阶段,采用改进的Soft NMS替代非极大值抑制(Non Maximum Suppression,NMS)进行感兴趣区域(Region of Interest,RoI)的后处理,以降低置信度进而提升准确率。3)分类回归阶段,在头部网络中添加级联结构,针对边界框(bounding box)递增地调用多个IOU 阈值以区分真实边框(ground-truth boundingbox)和预测框(predicted bounding box)。2网络框架2.1Mask R-CNN算法本文采用 Mask R-CNN 算法实现对鱼类进行识别,网络结构如图 1所示。首先,使用深度残差网络(De
14、ep Residual Network,ResNet)14和特征金字塔(Feature Pyramid Network,FPN)15进行特征提取以生成特征图(feature map)和感兴趣区域;其次,输入到区域生成网络(Region Proposal Network,RPN)中进行二值分类(前景或背景)和边界框回归,过滤掉一部分候选的感兴趣区域;然后,对感兴趣区域进行双线性插值操作(RoIAlign)操作解决特征图和原始图像上感兴趣区域的不对准问题;最后,将感兴趣区域全连接网络中同时进行分类和回归。图 1Mask R-CNN结构1239第 51 卷在Mask R-CNN算法头部网络的训练环节
15、,使用RoIAlign替代全连接层操作,可以实现输入与输出像素的一一对应,即对每一个类输出一张特征图,并采用平均二进制交叉熵损失函数替代全连接层中的 Softmax 损失函数进行训练。因此,MaskR-CNN算法对感兴趣区域的多任务损失函数可以定义为16L=Lcls+Lbax+Lmask(1)2.2骨干网络骨干网络(backbone network)是用于提取图像特 征 图 的 一 系 列 卷 积 层,如 VGG、GoogLeNet、ResNet101等4。深层的网络有利于进行复杂的特征提取,同时会出现梯度爆炸和模型退化等问题。为了解决这一问题,采用 ResNet 进行特征提取。残差网络单元如
16、图2所示。图 2残差网络单元残差单元可以表示为y1=h()xl+F()xlWlxl+1=f()yl(2)其中Xl和Xl+1分别表示的是第L个残差单元的输入和输出,F 是残差函数,表示学习到的残差,而h()xl=xl表示恒等映射,f是ReLU激活函数。在ResNet中有两种实现策略:1)采用零填充(zero-padding)增加维度,采用步距为 2的池化(pooling)进行下采样以减少参数量;2)采用新的映射(projection shortcut),短路连接使用恒等映射替代11的卷积操作,避免了参数量和计算量的增加。2.3迁移学习迁移学习指的是将已训练好的模型参数迁移到新的模型中来帮助模型训
17、练1718。迁移学习不仅能够快速地训练出一个相对理想的实验模型,也可以在数据集量不充足时学习到更丰富的特征信息。迁移学习主要作用在以下三个方面:初始性能高,学习速率块;模型收敛强。为了更好地学习到鱼类图像的特征信息,提升泛化性能,本文在训练过程中载入MS-COCO数据集的预训练权重训练本文实验模型中的所有参数。2.4非极大值抑制及其改进非极大值抑制算法19针对候选框进行如下处理:删除大于设定阈值的重叠候选框,保留无重叠的候选框和低于阈值的重叠候选框。非极大值抑制算法对不同阈值的候选框处理由公式表示如下:si=siiou()MbiNi0iou()MbiNi(3)考虑到非极大值抑制算法直接删除大于
18、设定阈值的重叠框导致误检漏检的问题,本文采用改进的Soft NMS进行替代,即在算法执行过程中摒弃直接删除感兴趣区域大于设定阈值的候选框方式,选用降低置信度得分的方式过滤候选框。由于是在非极大值抑制算法的基础上进行改进,因此不需要重新训练原有模型即可集成到原识别任务中,同时改进的Soft NMS在阈值重置函数部分采用与非极大值抑制计算方式相同的二值化函数。此外,改进的非极大值抑制算法的计算方式依据权重变量的值分为线性加权和高斯加权,其计算公式如下所示:1)线性加权:si=siiou()MbiNtsi()1-iou()Mbiiou()MbiNt(4)2)高斯加权:si=sie-iou()Mbi2
19、biD(5)2.5级联结构为了判断候选框的正负样本,需要设定感兴趣区域阈值,感兴趣区域阈值的选择是影响模型的识别性能的重要因素:当感兴趣区域阈值较高时,正样本数量减少,训练阶段缺失足够的正样本,训练过程出现过拟合;当感兴趣区域阈值较低时,检测器难以鉴别负样本和背景图,导致误检情况的出现。同时训练阶段和预测识别的感兴趣区域阈值的不同也将导致识别目标不匹配情况的出现。因此考虑到在头部网络中加入级联结构,即加入一个多阶段检测子网络对区域候选网络产生的特征区域进行逐步的微调。由于采用了多阈值检测子网络的级联结构,级联顺序将按照阈值由小到大排列,当感兴趣区域阈值为0.5时,正样本数量足够,保证模型不会过
20、拟合,而当修正后的感兴趣区域阈值由更高阈值的回归器进行修正时,则能够大大提高识别目标位置的准确性。通过添加级联机闫党康:基于改进的Mask R-CNN的鱼类识别算法研究12402023 年第 6 期计算机与数字工程构解决了传统单个网络设定阈值时出现正样本数量不够以及候选区域修正效果不佳之间的矛盾。3实验方法与结果3.1实验平台本文的实验配置为运行环境Anaconda3,编程语 言 Python3.6,深 度 学 习 框 架 TensorFlow1.4.0,keras2.1.6,CPU 为 AMD R7,GPU 为 GTX1650,CUDA9.0,模型参数初始化采用 MS COCO 预训练权重。
21、3.2数据集的选取与制作基于深度学习的鱼类识别需要大量的数据集进行训练学习识别目标的特征信息,因此,本文从典型的 Fish4knowledge 数据库中进行选取制作实验数据集,该数据库从实时视频数据集中获取到鱼类图像数据,共得到27370张鱼类图像,划分为23种鱼类,数据显示不同鱼类之间的数据量不平衡,其中最常见的物种约是最不常见物种的1000倍。数据集制作过程采用VIA图像打标工具进行标注以制作成标准的MS-COCO数据集。首先,定义实验数据集中的鱼类相应的属性值;其次,针对图像中的鱼使用多边形工具进行打标;最后,将所有标注好的鱼类信息导出成json文件以备实验模型调用。3.3预训练为了减少
22、训练时间,提高实验模型精度,本文采用MS-COCO数据集预训练权重进行迁移学习,MS-COCO数据集的预训练权重中包含 80类对象特征信息,有助于加速训练实验模型,学习识别目标特征信息。在预训练阶段,骨干网络选择使用ResNet101深度残差神经网络进行特征提取,训练过 程 中 设 定 为 30 个 epoch,每 个 epoch 设 置 为100step。3.4实验评价指标目标识别算法性能的通用评价指标可分为:交叉点联合(Intersection Over Union,IOU)、平均精度(average precision)、平均精度均值(mAP)、准确率(precision)、召回率(re
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于改进的Mask R-CNN的鱼类识别算法研究 基于 改进 Mask CNN 鱼类 识别 算法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。