基于空洞卷积自注意力机制的煤岩显微组分组识别模型.pdf
《基于空洞卷积自注意力机制的煤岩显微组分组识别模型.pdf》由会员分享,可在线阅读,更多相关《基于空洞卷积自注意力机制的煤岩显微组分组识别模型.pdf(10页珍藏版)》请在咨信网上搜索。
1、第 51 卷 第 2 期2024 年北京化工大学学报(自然科学版)Journal of Beijing University of Chemical Technology(Natural Science)Vol.51,No.22024引用格式:吴明阳,奚峥皓,陈军然,等.基于空洞卷积自注意力机制的煤岩显微组分组识别模型J.北京化工大学学报(自然科学版),2024,51(2):120-129.WU MingYang,XI ZhengHao,CHEN JunRan,et al.A coal maceral group recognition model based on a dilated con
2、volu鄄tional self鄄attention mechanismJ.Journal of Beijing University of Chemical Technology(Natural Science),2024,51(2):120-129.基于空洞卷积自注意力机制的煤岩显微组分组识别模型吴明阳1摇 奚峥皓1*摇 陈军然1摇 徐国忠2(1.上海工程技术大学 电子电气工程学院,上海摇 201620;2.辽宁科技大学 化学工程学院,鞍山摇 114051)摘摇 要:基于深度学习的识别模型是目前解决煤岩显微组分组识别问题的主要手段,但这些模型在计算过程中参数不断堆叠,导致模型的算力需求增加
3、,影响模型的训练效率。针对上述问题,构建了一种基于空洞卷积自注意力(DCSA)机制的改进 Swin鄄Transformer 模型 DA鄄ViT。首先,为了在加强煤岩显微组分组图像的局部特征信息的同时保留其二维空间信息,提出了 DCSA 机制,通过对煤岩显微图像的大尺寸卷积核进行多尺度分解,加强了煤岩显微图像不同区域像素之间的联系,显著降低了图像注意力的参数量,降低率为 81郾 18%。然后,为了加强煤岩显微组分组图像间的形态特征关联性,将 DCSA 和改进的 Swin鄄Transformer 框架相结合,提出了 DA鄄ViT 识别模型。实验验证结果表明,与现有的其他识别模型相比,DA鄄ViT
4、模型在提高预测结果准确率的同时,可显著降低模型的算力需求,其像素准确率(PA)和平均交并比(mIoU)的最大值分别为 92郾 14%和 63郾 18%,模型参数总量(Params)和浮点运算次数(FLOPs)的最小值分别为 4郾 95 伊106和 8郾 99 伊109。关键词:空洞卷积;自注意力机制;煤岩显微组分组;识别模型中图分类号:TQ533郾 6;TP391郾 4摇 摇 DOI:10.13543/j.bhxbzr.2024.02.013收稿日期:2023-07-19基金项目:国家自然科学基金(12104289)第一作者:男,1998 年生,硕士生*通信联系人E鄄mail:zhenghao
5、xi 引摇 言煤炭作为一种重要的化石燃料,在解决能源需求方面发挥着重要作用,广泛应用于发电、炼焦、化工等领域1,为人们的日化用品提供了必要的原材料,在目前和未来相当长的一段时间内依然是能源体系的核心2。为了区分煤炭的优劣并提高其利用效率,可以通过镜质体反射率和煤岩显微组分组的分析对煤的性质和用途进行分级评定3。其中,煤岩显微组分组分析技术是利用偏光显微镜对煤岩样品的形态、结构、反射率、颜色和纹理等特征进行观察,并对不同组分组进行定性和定量的分析方法,该方法为煤炭的燃烧、利用和污染控制等提供了可参考的指标支持,是煤岩质量、煤炭地质研究的重要手段3-5。煤岩显微图像较为复杂,并且不同组分组的显微图
6、像之间有较大的差异性,对显微组分组的识别、分析主要依靠人工完成,结果易受操作人员的经验和主观性影响,并且需要消耗大量的时间。针对上述问题,基于机器学习的图像处理方法被应用于显微组分组的分析,并取得了较好的研究结果6。王培珍等7从煤岩图像中提取灰度共生矩阵等特征构建了初始特征集,然后采用主成分分析法进行降维处理,使用支持向量机(SVM)算法实现了对镜质组的分类,对基质镜质体、均质镜质体和镜屑体的分类准确率可达 100%。Khandelwal 等8设计了一种融合帝国竞争算法和人工神经网络的专家系统(ICA鄄ANN),并利用该系统对印度煤岩的成分进行了估计,与传统的人工神经网络算法相比,ICA鄄AN
7、N 的拟合系数 R2达到 0郾 982。宋孝忠等9设计了一种显微图像自动采集和识别系统,基于K 均值聚类实现了煤岩显微组分组图像的自动分割和识别,该方法测定的镜质组、惰质组、壳质组的极差平均值分别仅为 2郾 3%、2郾 3%、1郾 5%。此外,宋孝忠10针对煤岩显微组分组存在的假边界问题,采用 Prewitt 算子对 10 个不同变质阶段的煤样进行边缘检测,通过剔除假边界提高了识别准确性,剔除假边界后镜质组的平均极差由剔除前的4郾 7%降至 1郾 8%。Onifade 等11采用多输入单输出白盒人工神经网络(MISOWB鄄ANN)、多元线性回归(MLR)和多元非线性回归(MNLR)等方法对来自
8、威特班克(Witbank)煤田的煤岩成分进行识别,并比较了各方法之间的差异及效率,结果表明 MI鄄SOWB鄄ANN 模型在预测煤岩成分和总矿物质含量方面比其他模型更可靠,R2可达 0郾 995。虽然以上研究获得了较好的结果,但是采用机器学习方法进行煤岩显微组分组分析需要大量的经验和相关领域知识,并且模型的泛化能力较差。为了弥补机器学习方法在解决煤岩显微组分组分割和识别问题上的不足,基于深度学习的识别模型逐渐受到人们的关注。Ronneberger 等12利用 U鄄Net 卷积网络,通过 U鄄Net 的 U 型结构和跳跃连接方式,在保证识别准确率的同时降低了训练数据量的需求。Vaswani 等13
9、基于注意力机制提出了一种新型神经网络架构 Transformer,对后续的深度学习模型研究产生了深远影响。Lei 等14在 U鄄Net 的基础上,提出融合注意力门(attention gate)来抑制无关信息,与机器学习方法相比,该方法提高了煤岩显微组分组的识别效果。Fan 等15使用多种变体 U鄄Net对煤岩显微组分组的颗粒形貌、粒度、解离特性和密度分离过程进行了研究,在这些变体模型中,Res鄄Unet 在交并比(IoU)、准确率等指标上的表现最佳,而TransUnet 在不同组分组分割效果上的表现最佳。但是基于 U鄄Net 的优化模型都受到感受野固定的限制,对高分辨率煤岩显微组分组图像的处
10、理能力较弱。Chen 等16将编码器、解码器结构与 Atrous 卷积、深度可分离卷积相结合提出了 DeepLabv3+模型,并证明了该模型对 VOC2012 和 Cityscapes 数据集的有效性。Wang 等17将 DeepLabv3+模型用于煤岩显微组分组的识别,通过空洞卷积扩大了模型在煤岩显微图像上的感受野,组分组的识别准确率相比U鄄Net 模型有了明显改善。但是 DeepLabv3+模型为了捕捉更多的上下文信息,会产生过高的计算复杂度,对于高分辨率煤岩显微图像的处理较为困难。近年来,Dosovitskiy 等18提出了视觉 Trans鄄former(Vision Transform
11、er,ViT)模型,该模型完全基于 Transformer 架构,将图像分割成 16 伊 16 像素的小块,然后利用注意力机制处理图像块,ViT 模型在多个公共数据集上的准确率超过了传统的卷积模型。Liu 等19基于 ViT 设计了 Swin鄄Transformer 模型,并利用其移位窗口实现了对高分辨率图像的处理,在 ImageNet鄄1K 数据集上该模型的准确率可达87郾 3%。胡 晋 玮 等20将 DeepLabv3+和 Swin鄄Transformer 模型相结合,提出了改进的煤岩显微组分组自动化测试模型,与现有的先进算法相比,该模型可提高复杂煤岩显微图像的识别效果。但是由于Swin鄄
12、Transformer 模型中的自注意力机制会将图像转化成一维序列进行处理,处理过程中损失了煤岩显微图像的二维空间特征信息。为此,研究者们提出了用大卷积核的卷积自注意力代替传统自注意力的方法21-22,这种方法可以通过自注意力机制保留煤岩显微组分组全局像素之间的长程依赖关系,同时保留卷积提取得到的煤岩显微图像局部特征信息,但是会带来参数量过多、计算成本较高的问题。针对上述问题,本文提出了一种用于提取煤岩显微组分组特征的空洞卷积自注意力(dilated conv鄄olutional self鄄attention,DCSA)机制,DCSA 融合了卷积提取的显微组分组局部特征信息和自注意力提取的显微
13、组分组图像全局像素之间的长程依赖关系,同时保留了煤岩显微图像通道维度的适应性,避免了大卷积核参数爆炸的问题。然后,以 DCSA 为核心构建了一种轻量化的煤岩显微图像识别模型 Dilated Attention Vision Transformer(DA鄄ViT),并对该模型进行了实验验证,与目前用于煤岩显微组分组识别任务的模型相比,本文提出的模型在提高识别准确率的同时,可大大降低参数量和算力需求。1摇 DA鄄ViT 模型的建立1郾 1摇 空洞卷积目前,深度学习是处理煤岩显微图像识别任务的主流方法13,15-16,这种方法往往利用传统卷积运算将煤岩显微图像的特征信息进行压缩,通过不断地进行下采样
14、,降低对细节信息的依赖,获得更强的感受野,以实现模型对煤岩显微图形更好的理解,提升煤岩显微图像识别的准确率。但是在相邻像素特征的提取过程中,传统的卷积运算会产生很大程度的重叠运算,导致模型运算存在冗余,降低了深度学习的计算效率。121第 2 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 吴明阳等:基于空洞卷积自注意力机制的煤岩显微组分组识别模型为了解决上述问题,Yu 等23提出了在卷积核内部设定扩张率 r 的空洞卷积,图 1 为 r=2 时的空洞卷积示意图。由图 1 可见,空洞卷积可以提取更大范围的特征,这在一定程度上解决了显微图像复杂性较大的问题24。为了提取不同范围的特征信息,往往采用融合
15、不同尺度空洞卷积的方式,即结合不同 r 的空洞卷积。图 1摇 空洞卷积示意图Fig.1摇 Diagram of the dilated convolution图 2摇 注意力和多头注意力机制示意图Fig.2摇 Schematic diagrams of the attention andmulti鄄head attention mechanisms摇1郾 2摇 空洞卷积自注意力机制由于煤岩显微图像中不同组分组的过渡结构受位置、温度、采掘、制作等多方面的影响,组分组间的关联性较低,而卷积运算更专注于局部信息,有限的感受野容易忽略图像中的全局信息。针对上述问题,本文采用图像注意力机制18来获取全局
16、像素点之间的长程依赖关系,以加强煤岩显微图像不同区域像素间的联系。注意力机制通过计算注意力分数并加权将 Q(Query)、K(Key)、V(Value)映射到输出,输出表征了不同部分对当前部分的相对重要性,其示意图见图 2(a),映射公式见式(1)。基于注意力机制的多头注意力机制将图像特征映射到多组Q、K、V 中,通过并行计算多个注意力权重然后再拼接的方式,来捕捉输入中不同方面的信息,其示意图见图 2(b)。Attention(Q,K,V)(=softmaxQKTd)kV(1)式中:dk为输入 Q 和 K 的维度,T 表示转置。传统的图像自注意力机制如图 3 所示,该机制是根据自注意力13来获
17、取长程依赖,但其序列处理忽略了图像的二维信息,也忽略了通道维度的适应性。为此,研究者提出了大卷积核的卷积自注意力21-22,但卷积核的尺寸与识别准确率相关,同时也带来大量的模型参数。图 3摇 传统的自注意力机制示意图Fig.3摇 Schematic diagram of the traditionalself鄄attention mechanism为了在保证识别准确度的同时降低参数量、算力及硬件需求,本文将图像注意力机制与不同尺度的空洞卷积相结合,提出空洞卷积自注意力机制DCSA,其示意图见图4。DCSA 将大卷积核分解为3部分:绿色的短程信息卷积(short鄄range informatio
18、nconvolution,SI鄄Conv)、蓝色的中程空洞卷积(medi鄄um鄄range dilation convolution,MD鄄Conv)和黄色的长程 空 洞 卷 积(long鄄rangedilationconvolution,LD鄄Conv)。其中,SI鄄Conv 示意图如图 5 所示,MD鄄Conv 和 LD鄄Conv 可以通过改变卷积核大小和扩张率 r 得到,其基本结构与 SI鄄Conv 相似。DCSA 在保留自注意力长程依赖性的同时,加强了图像二维信息的获取,从而得到不同范围的长程信息,然后将其融合,计算得到注意力图,通过 DCSA 可以保留多方向的连续空间信息。对于 Kd
19、伊 Kd的空洞卷积,其感受野层面的等效卷积核尺寸为:K忆d=Kd+(Kd-1)伊(r-1)。通过DCSA 分解,可以大幅度降低参数量,同时保留原有尺寸卷积核带来的感受野25,参数量的降低率 籽 可以由式(2)计算得到。221北京化工大学学报(自然科学版)摇 摇 摇 摇 摇 摇摇摇 摇 摇 摇 摇 摇 摇 摇 2024 年图 4摇 DCSA 示意图Fig.4摇 Schematic diagram of DCSA图 5摇 SI鄄Conv 示意图Fig.5摇 Schematic diagram of SI鄄Conv籽=1-移3m=1Km伊 Km伊 CHo伊 Wo伊 C(2)图 6摇 注意力模块示意图
20、Fig.6摇 Schematic diagram of the attention module式中:Km为不同尺度的分割,C 为通道数,Ho、Wo为大卷积核的尺寸。在本文中,虽然长程依赖关系可以提升整体准确率,但是距离中心像素越远的像素之间的关系对准确率的贡献越小26,因此采用一个19 伊 19 伊 C 的大卷积核将其分解为 3 伊 3 伊 C 的SI鄄Conv、5 伊 5 伊 C 的 MD鄄Conv 和 7 伊 7 伊 C 的LD鄄Conv,参数量的降低率 籽 为 81郾 18%。以本文提出的 DCSA 为核心所组成的注意力模块如图 6 所示。注意力模块由 3 个不同的模块层组成:批量归一
21、化层(batch normalization)、Attention 层和前馈网络层(feed鄄forward network,FFN)。其中,Attention 层的核心为 DCSA 模块,它首先提取局部信息,然后通过多尺度空洞卷积(图 4)进行多分支特征提取,最后通过 1 伊1 卷积对不同通道的信息进行融合,从而增强模型的通道适应性,其结果即为计算得到的注意力图。由 DCSA 计算得到的注意力图的 Att 表达式如式(3)所示,根据 Att 与输入加权得到的结果如式(4)所示。Att=Conv(1 伊1移r=1,2,3s=3,5,7Convs 伊 s(Conv5 伊5(Input),r)+C
22、onv5 伊5(Input)(3)Output=Att茚Input(4)式中:Convs 伊 s表示卷积核大小为 s 伊 s 的卷积,r 表示扩张率,茚表示矩阵逐元素乘法运算。1郾 3摇 基于 DCSA 机制的 DA鄄ViT 模型由于煤岩显微图像的分辨率为 2 048 伊 1 536,在同一尺度下进行识别任务不仅无法关注图像整体,而且还提高了模型整体的算力需求。此外,不同煤岩显微图像之间的形态特征关联性较差,单一尺度的网络结构无法同时关注到显微组分组的细节形321第 2 期摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 吴明阳等:基于空洞卷积自注意力机制的煤岩显微组分组识别模型状和整体结构,导致组
23、分组的识别准确率下降。本文在 Swin鄄Transformer19的框架结构中融合 DCSA,提出了多尺度的 DA鄄ViT 模型,如图 7 所示。其中,H 和 W 分别为煤岩显微图像的长度和宽度,C 为通道数,Ln(n=1,2,3,4)为各个 Stage 的 DCSA 模块数量。DA鄄ViT 模型通过 Swin鄄Transformer 的多尺度网络结构关注煤岩显微图像不同层面的特征,并且利用 DCSA 获取这些特征在不同尺度上的依赖信息。图 7摇 DA鄄ViT 结构示意图Fig.7摇 Schematic diagram of the DA鄄ViT structure摇 摇 在编码器(Encod
24、er)部分,本文延用如图 7 所示的 Swin鄄Transformer 的 4 层 金 字 塔 结 构。其 中,Stage1 和 Stage2 提取煤岩显微组分组的边界、纹理、形状等特征,Stage3 和 Stage4 提取煤岩显微组分组的整体结构、语义信息等高级特征。所有 Stage 均通过 DCSA 模块来捕捉煤岩显微图像不同范围像素之间的依赖关系。分辨率在 4 层金字塔结构中逐层递减,分别为 H/4 伊 W/4、H/8 伊 W/8、H/16 伊 W/16、H/32 伊 W/32。在图像分辨率减小的同时,通道数 C有所增加。在解码器(Decoder)部分,本文采用了一个轻量级解码头27,其
25、对于识别任务的特征还原是足够强大的,可有效提高模型的性能和效率16,26,28-29。同时,在解码器中添加跳跃连接,通过融合 Stage2 至Stage4 的特征信息来提高解码效果。因此,本文基于轻量级解码头结合跳跃连接的方式设计了解码器,不同网络规模下 Stage 的通道数 C 和 DCSA 模块数量 Ln的设置如表 1 所示。2摇 实验验证2郾 1摇 数据采集实验所用的煤岩显微组分组样本均为合作单位采集,包含60个不同变质程度的单种煤样本,样本表 1摇 不同规模网络的参数设置Table 1摇 Parameter settings of different scale networks参数数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 空洞 卷积 注意力 机制 显微 组分 识别 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。