基于改进MobileViT...的大球盖菇品质分级实验研究_左银华.pdf
《基于改进MobileViT...的大球盖菇品质分级实验研究_左银华.pdf》由会员分享,可在线阅读,更多相关《基于改进MobileViT...的大球盖菇品质分级实验研究_左银华.pdf(10页珍藏版)》请在咨信网上搜索。
1、 实 验 技 术 与 管 理 第 40 卷 第 9 期 2023 年 9 月 Experimental Technology and Management Vol.40 No.9 Sep.2023 收稿日期:2023-04-27 基金项目:浙江省基础公益研究计划项目(LGN22E050003);浙江省新苗人才计划项目(2022R409A037)作者简介:左银华(1997),女,甘肃庆阳,硕士研究生,主要研究方向为机器视觉与图像处理,。通信作者:赵明岩(1974),男,山西侯马,硕士,副教授,主要研究方向为现代农业装备及农业机器人,。引文格式:左银华,赵明岩,吴顺海,等.基于改进 MobileV
2、iT 模型的大球盖菇品质分级实验研究J.实验技术与管理,2023,40(9):81-90.Cite this article:ZUO Y H,ZHAO M Y,WU S H,et al.Experimental study on quality grading of stropharia rugoso-annulata based on improved mobileViT modelJ.Experimental Technology and Management,2023,40(9):81-90.(in Chinese)ISSN 1002-4956 CN11-2034/T DOI:10.16
3、791/ki.sjg.2023.09.012 基于改进 MobileViT 模型的大球盖菇 品质分级实验研究 左银华,赵明岩,吴顺海,李一欣(中国计量大学 机电工程学院,浙江 杭州 310018)摘 要:针对传统大球盖菇人工分级劳动强度大、效率低、一致性差等问题,提出基于 MobileViT 模型的改进方法。通过设计自适应分支的多尺度模块、增加局部与全局特征融合、引入双重注意力模块等,提高特征提取能力,增强模型鲁棒性。实验结果表明,改进后的 XCA-MobileViT 对实验平台上 5 个级别的大球盖菇数据集平均识别准确率达 97.71%,相较于 MobileViT 模型准确率提高 2.34%
4、,参数量和计算量分别下降 0.401 M和 140.2 M。通过对两个菌菇公开数据集进行的验证实验发现,XCA-MobileViT 的 F1 分及准确率超越对比的其他模型,具有良好的泛化性。关键词:深度学习;多尺度特征;双重注意力;大球盖菇;MobileViT 中图分类号:TP391 文献标识码:A 文章编号:1002-4956(2023)09-0081-10 Experimental study on quality grading of stropharia rugoso-annulata based on improved MobileViT model ZUO Yinhua,ZHAO
5、Mingyan,WU Shunhai,LI Yixin(School of Mechanical and Electrical Engineering,China Jiliang University,Hangzhou 310018,China)Abstract:Aiming at the problems of traditional manual grading of stropharia rugoso-annulata,such as high labor intensity,low efficiency,and poor consistency,an improved method b
6、ased on MobileViT model was proposed.By designing multi-scale modules with adaptive branching,adding local and global feature fusion,and introducing dual attention modules,the feature extraction capability is improved and the model robustness is enhanced.The experimental results show that the averag
7、e recognition accuracy of the improved XCA-MobileViT for the five levels of stropharia rugoso-annulata datasets on the experimental platform is 97.71%,which is 2.34%higher than that of the MobileViT model,and the number of parameters and computation decreased by 0.401 M and 140.2 M respectively.Thro
8、ugh validation experiments on two publicly available datasets of mushrooms,it was found that the F1 score and accuracy of XCA-MobileViT exceeded other models compared and showed good generalization.Key words:deep learning;multi-scale feature;dual attention;stropharia rugoso-annulata;MobileViT 大球盖菇色泽
9、鲜艳,菌柄粗大,富含矿物质、维生素等生物活性物质及人体必需的氨基酸1,分级销售可获得更好的经济效益2。目前大球盖菇分级主要依靠人工进行,存在劳动强度大、效率低、一致性差等问题,严重制约了相关产业规模化、标准化发展。近年来,针对菌菇分级问题,国内外研究人员在利用光谱分析技术3-5和视觉图像机器学习方法6-8方面开展了大量研究并取得了一定进展,但仍存在检测范围小、信息获取量少、成本高、耗时长和特征提取难度较大等问题。随着大数据技术的发展及计算机算82 实 验 技 术 与 管 理 力的大幅提升,深度学习技术在农业信息领域的应用取得了丰硕成果9。在菌菇分级方面,Liu Q10等提出一种高效通道修剪机制
10、改进 YOLOX 深度学习方法,可有效检测香菇表面纹理,mAP(平均精度均值)和FSP(每秒帧率)分别为 99.96%和 57.38。Wu Y11等将 YOLOv5 单阶段目标检测和 PSPNet 的语义分割深度集成,提出一种用于实时目标检测的 Y-PNet 模型和图像分割网络,使用 MobileNetV3 嵌入式 CBAM 来改进 PSPNet,将像素精度提高到 96.35%。尽管卷积神经网络(convolutional neural networks,CNN)功能强大,但菌菇级别评判标准(包括菌体发育水平、菌盖内卷水平、有无开伞迹象、子实体长度和菌盖直径等)繁杂,CNN 难以建模和提取全局
11、级别特征。Vision Transformer(ViT)12克服了 CNN 的局限性,将图片分割成多个补丁,通过嵌入补丁将图片压缩成一定维度的向量,并加入位置信息,输送至transformer 编码器。Wang B13提出一种新的深度学习架构,使用视觉 ViT 大型网络进行蘑菇分类,在测试数据集上获得了 95.97%的准确率。Liu Z 提出包含滑动窗口操作、具有层级设计的 Swin Transformer14,克服了以往 transformer基于全局计算注意力计算复杂度高的缺点,引入滑动窗口,增加了局部性。但对比轻量级 CNN,如 MobileNet15和 ShuffleNet16,用于视
12、觉领域的 transformer 虽然提高了准确率,但存在模型参数大、计算量大等问题,不满足菌菇检测对速度、精度的要求。考虑到 CNN 和 ViT 模型的特性,我们设计了基于 MobileViT17针对大球盖菇分级检测任务的混合模型与相关实验,即 XCA-MobileViT,该模型具有快速、准确、轻量化等特点,可为食用菌品质分级和有毒蘑菇鉴别提供技术支持。1 数据集 1.1 实验样本 实验选用杭州市富阳区、金华市武义县、湖州市德清县种植基地的大球盖菇。参考大球盖菇鲜品等级划分标准,以菌柄形态、鲜重作为主要指标,结合子实体长度、菌柄直径和菌盖直径可将大球盖茹分为 A级、a 级、B 级、b 级和
13、S 级 5 个鲜品等级2。本文将大球盖菇划分为 5 类:一等品、二等品、三等品、菌菇柄、菌菇伞,具体参数如表 1 所示。1.2 数据集图像采集及预处理 采集系统由摄像头模块和光源模块组成,色温范围为 3 0006 500 K。不同级别的大球盖菇平放在聚氯乙烯(polyvinyl chloride,PVC)绿色传送带上,用通用串行总线(universal serial bus,USB)接口的HIKVISION 表 1 大球盖菇鲜品等级分级 鲜品等级 指标 一等品二等品 三等品 菌柄 菌伞 鲜重/g 38.620.838.6 12.620.8/子实体长度/cm 7.010.56.08.5 5.08
14、.3/菌柄直径/cm 2.44.01.92.7 1.62.4 1.64.0/菌伞直径/cm 4.16.33.24.5 2.74.0/2.76.3形态 彩色工业相机(相机型号为 MV-CE060-10UC,镜头型号为 MVL-HF0628M-6MP)垂直采集大球盖菇样本,拍摄距离为 15 cm,样本总数为 3 100 幅,每幅图像像素大小为 2 0482 048,格式为联合图像专家组(joint photographic experts group,JPEG)。图像采集装置如图 1 所示。图 1 大球盖菇数据集样本采集装置 为了应对数据集样本数量过少而可能导致的过拟合问题,同时提高模型泛化能力和
15、识别准确率,采用数 据 增 强 方 法 对 样 本 图 像 数 量 进 行 扩 充。使 用OpenCV 对图像进行水平翻转、垂直翻转、随机旋转、亮度变换以及对比度变换等操作。最终获得 8 752 幅图像数据集,包括所有增强后的图像样本,其中,一等品 1 104 幅,二等品 1 488 幅,三等品 1 336 幅,菌柄 2 616 幅,菌伞 2 208 幅。模型训练时,从样本集中随机选取 60%的样本作为训练集,训练模型参数及调整模型超参数,剩余 40%作为测试集评估模型。利用TensorBoard 可视化工具跟踪模型指标,检查深度学习工作流程中的权重和偏差,判断模型是否发生过拟合,进行超参数优
16、选和模型择优。2 搭建 XCA-MobileViT 网络模型 ViT 被广泛应用于视觉处理18,通过自注意力(self-attention)机制学习全局表示,基于 transformer的模块在很大程度上依赖于自注意力操作,增加了计 左银华,等:基于改进 MobileViT 模型的大球盖菇品质分级实验研究 83 算的二次复杂度。本文基于 MobileViT 提出一种用于大球盖菇的快速分级检测轻量级混合模型,通过转置query 和 key 的注意力特征映射来降低 transformer 的计算成本,结合以更细粒度表达多尺度特征的深度可分离卷积表征局部特征,最后将输入特征图在通道维度上进行随机重组
17、,从而增加模型的非线性表示能力,实现轻量、高准确度的 CNN-ViT 混合模型XCA-MobileViT。2.1 XCA-MobileViT 网络结构 XCA-MobileViT 结构如图 2 所示。输入特征经过33 的标准卷积层进入连续堆叠数量为 2 的 MV2 模块后,采用卷积核为(2,2)的卷积层来实现下采样,减少池化层(pooling layer)所需的参数量。下采样过程中存在一个信息损失,而池化层不可学习,用步距为 2 的可学习的卷积层来代替池化层可得到更好的效果。特征图经过第 2 个下采样层后进入改进的MobileViT 模块,其中全局特征表达的交叉斜方差注意力(cross-cov
18、ariance attention,XCA)模块堆叠 2次。重复不同设置的 MV2 模块和改进的 MobileViT模块,特征进入 11 的标准卷积进行升维,依次经过Shuffle Attention(SA)双通道注意力19映射和池化层,最后全连接层(fully connected layers,FC)将特征表示映射到样本的标记空间。图 2 XCA-MobileViT 混合模型架构 2.2 改进的 MobileViT 模块 改进的 MobileViT 模块结构如图 2 所示,以 33深度卷积(depth-wise convolution)替代原有的 33普通标准卷积,对每个通道应用单独的滤波器
19、,减少模型所需的参数数量,加快模型的训练速度。输入特征经过 11 卷积层进行特征升维的同时,增加了模型的非线性。在原有 MobileViT 基础上,为获得具有更灵活和自适应空间感受野的输出特征,参考 Res2Net的架构设计,增加了自适应分支模块,以更细粒度表达多尺度特征,降低参数计算量,增加每个网络层的感受野(receptive fields)范围,增加局部融合。首先将输入特征 HWC 通过直接的通道切分为 s 个子集(图中 s=4),每个子集尺寸均为 HWC/4,每个子集都是将上一个子集的输出特征融合后再经过 33的深度卷积进行特征编码,最后在通道维度上拼接 s个子集的输出特征,得到具有多
20、尺度感受野的输出特征 HWC。切分通道数 s 的值在三次堆叠中是自适应的,s3,4,5。图 3(a)显示了多尺度分支结构的细节,将特征映射分成 s 个子集,每个子集用 Xi表示,每个子集都有一个对应的 33 深度可分离卷积,用 Zi表示,输出为 Yi,特征子集 Xi与 Zi-1的输出相加,然后输入 Zi(),所得的 Yi可以被写成:-1 =1=()=2(+)2 iiiiiiiiiis|XYZXZXY(1)在标准的Transformer模块中,传统自注意力以更高的浮点运算数(floating point operations,FLOPs)和延迟为代价,在全局特征表达中使用key和query之间的
21、交叉斜方差矩阵,以消除传统自注意力在时间和内存方面的二次复杂性。如图3(b)所示,将输入特征HWC尺寸修改为HWC,通过3个线性层得到Q(query)、K(key)和V(value),在计算交叉斜方差注意力之前,对Q、K应用L2范数平滑权重参数,提高模型的稳定性。不同于以往Q、V之间在空间维度计算KT和Q运算得到(HWHW),在通道维度上计算注意力,对Q进行转置得到QT,因此(CHW)(HWC)可得到(CC),经过Softmax函数得到注意力得分矩阵,与匹配对应的V相乘,将其相加得到最终的注 84 实 验 技 术 与 管 理 图 3 自适应分支结构和 XCA 模块 意力图。最后,依次通过线性层
22、、归一化层以及HardSwish函数激活来生成非线性特征。使用上述对Q、K和V的定义,将交叉协方差注意力函数定义为:TT-Attention(,)(,)=Q K VVK Q(2)TT(,)Softmax(/)=K QK Q(3)其中,每个输出token的输入维度是其在V中对应的token输入的dv特征的凸组合;注意力权重是基于交叉斜方差矩阵计算的。2.3 Shuffle Attention 注意力机制能使神经网络准确地关注输入的所有相关元素。计算机视觉研究中广泛使用的注意力机制主要有空间注意和通道注意两种,分别用于捕捉像素级的成对关系和通道依赖。将两者结合在一起会获得更好的性能,但会增加计算开
23、销。采用SA注意力模块,通过Shuffle 单元可有效结合两种类型的注意力机制,同时可有效减少计算开销。SA模块将通道尺寸分解为多个子特征,对每个子特征利用一个“shuffle”单元来描述空间与通道维度的特征依赖关系,再对它们进行并行处理,最后对所有子特征进行聚合。SA原理如图4所示。对给定的输入特征C H WRX,SA在通道维度 将X分为N组1,N=XXX,kC/N H WRX,每个注意力单元NX沿通道维度分成两个分支1,kX 2/2kCN H WRX。在通道注意力分支,首先通过使用全局平均池化(golbal average pooling,GAP)来嵌入全局信息,以生成21 1C/Np R
24、的通道统计,该统计可以通过将Xk1缩小到空间维度HW来计算:gp11111()(,)H WkkijpFi jHW=XX(4)式中,Fgp表示对特征Xk1进行全局平均池化。通道注意力的最终输出为:1c1111()()kkk Fpp=+XXZaX(5)其中,Fc表示将特征进行缩放,12C/N H WRZ和1C/N H WRa是缩放和转换p的参数。图 4 SA 模块结构图 左银华,等:基于改进 MobileViT 模型的大球盖菇品质分级实验研究 85 在 空 间 注 意 力 分 支,使 用 组 归 一 化(group normalization,GN)获得空间统计,采用c()F 增强对2kX的表达,
25、空间注意力通过式(6)获得:22222()(kkkGN=+XZXaX(6)其中Z2和a2是尺寸为2C/N H WR的参数。最后,采用“channel shuffle”算子来实现沿信道维度的跨组信息流,聚合所有子特征。在单个SA模块中,每个分支的通道数为C/2N,总参数量为3C/N(N为32),因此SA是非常轻量级的,通过在池化层之前引入SA模块,在增加较小计算量的条件下进一步提高了特征提取能力。3 实验 3.1 实验环境配置与网络参数设置 实验采用Windows 10平台进行测试及训练,计算机硬件配置包括:中央处理器为Intel(R)Core(TM)i7-9700F CPU3.00 GHz,运
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进 MobileViT 大球盖菇 品质 分级 实验 研究 左银华
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。