分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf

可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf

上传人：自信****多点

文档编号：3132892

上传时间：2024-06-19

格式：PDF

页数：10

大小：1.68MB

《可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf》由会员分享，可在线阅读，更多相关《可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf（10页珍藏版）》请在咨信网上搜索。

1、DOI:10.3785/j.issn.1008-973X.2023.10.002可形变 Transformer 辅助的胸部 X 光影像疾病诊断模型胡锦波1，聂为之1，宋丹1，高卓2，白云鹏3，赵丰3(1.天津大学电气自动化与信息工程学院，天津300072；2.长春职业技术学院信息学院，吉林长春130033；3.天津市胸科医院心血管外科，天津300222)摘要：针对胸部 X 光影像中的灰雾现象、病变区域重叠等问题，提出可形变 Transformer 辅助的胸部 X 光影像疾病诊断模型.将扩展后的 ResNet50 作为特征提取网络，添加压缩型双注意力模块，增强病变区域与非病变区域之间的特征差异，

2、降低冗余信息的干扰，提高图像数据的特征提取效果；通过可形变 Transformer 解码器内部的交叉注意力模块，引入类别表征作为先验知识，引导影像特征进一步融合，提高不同疾病在影像区域重叠情况下的特征区分度；将解码器的输出传入分类器中以获得最终的诊断结果.压缩型双注意力模块和可形变 Transformer 均起到降低模型计算复杂度的作用，引入非对称损失函数可以更好地解决正负样本不均衡.利用所提模型在公开数据集 ChestX-Ray14 和 CheXpert 上进行多组实验，在 2 个数据集上的受试者操作的特征曲线下面积值（AUC）分别达到 0.8398 和 0.9061，表明该模型在胸部 X

3、光影像的疾病诊断方面具有正确性和有效性.关键词：胸部 X 光图像分类；可形变 Transformer；压缩型双注意力；非对称损失函数；先验知识中图分类号：TP391文献标志码：A文章编号：1008973X（2023）10192310Chest X-ray imaging disease diagnosis model assisted bydeformable TransformerHUJin-bo1,NIEWei-zhi1,SONGDan1,GAOZhuo2,BAIYun-peng3,ZHAOFeng3(1.School of Electrical and Information Engin

4、eering,Tianjin University,Tianjin 300072,China;2.School of Information,Changchun Poly-technic,Changchun 130033,China;3.Department of Cardiovascular Surgery,Tianjin Chest Hospital,Tianjin 300222,China)Abstract:AdiseasediagnosismodelforchestX-rayimagesassistedbydeformableTransformerwasproposed,aiminga

5、ttheproblemsofgrayfogphenomenonandoverlappinglesionareasinchestX-rayimages.TheextendedresidualnetworkResNet50wasusedasafeatureextractionnetwork.Acompresseddualattentionmodulewasaddedtoenhancethefeaturedifferencebetweenthelesionareaandthenon-lesionarea,furtherreducedtheinterferenceofredundantinformat

6、ionandimprovedthefeatureextractionofimagedata.Throughthecross-attentionmoduleinsidethedeformableTransformerdecoder,categoryrepresentationswereintroducedastheprioriknowledgetoguidefurther fusion of image features and improve the feature discrimination of different diseases in the case ofoverlappingim

7、ageregions.Outputofthedecoderwaspassedintotheclassifiertoobtainthefinaldiagnosis.BoththecompresseddualattentionmoduleandthedeformableTransformercanreducethecomputationalcomplexityofthemodel.Theasymmetriclossfunctionwasintroducedtosolvetheimbalanceofpositiveandnegativesamples.Theproposedmodelwassubje

8、ctedtomultiplesetsofexperimentsonpublicdatasetsChestX-Ray14andCheXpert.Theareaundercurve(AUC)ontwodatasetsreached0.8398and0.9061respectively,indicatingthecorrectnessandvalidityofthemodelfordiseasediagnosisonchestX-rayimages.Key words:chestX-rayimageclassification;deformabletransformer;compresseddual

9、attention;asymmetriclossfunction;prioriknowledge收稿日期：20220901.网址： X 光片对肺部疾病进行常规检查，这是因为 X 光片获取方式比较简单，普通医院就可以基于常规设备标准获得1.胸部X 光影像中有很多细小且相似的特点，人眼进行观察时，很容易区分不出.在这种情况下，医生可以利用计算机辅助检测（computer-aideddetection,CAD）系统对 X 光影像进行诊断2.随着深度学习技术的发展，人们对使用人工智能改进 CAD 系统产生了极大的关注.医学图像的诊断一般属于多标签分类任务3-6.由于医学影像成像的模糊性、部分病灶区域的

10、不规则性和位置的不确定性，针对医学影像的多标签分类任务需要特别注意以下 2 点：1）如何定位感兴趣区域并从区域中有效提取特征；2）如何处理标签不平衡问题.针对上述问题，提出可形变Transformer 辅助的胸部 X 光影像疾病诊断算法.该算法对 Transformer 模块和双注意力模块进行优化，可以高效地处理高分辨率的医学图像，在不影响诊断正确率的情况下，提升模型的计算效率，使其更有利于开展技术落地和应用场景的示范工作；在 Transformer 部分引入预训练模型的分类表征作为先验知识，指导目标影像表征信息的更新和多类信息的融合；此外，还引入非对称损失函数7，以此来更好地处理正负样本不均

11、衡问题.本研究方法兼顾模型的分类精度和计算复杂度，通过公开数据集 ChestX-14 和 CheXpert 上的多组实验，证明了所提方法的正确性和有效性.工作代码已经公开，代码链接为：https:/ 的相关技术也在很多医疗领域产生重要影响10-12.在 MAI 的研究工作中，学者们在胸部 X 光图片分类问题上取得一系列新的研究进展.在 CheXNet-8 数据集上 Wang 等13测试了 4 种网络算法，在对比 4 种算法分类结果的同时，得出性能最好的网络为 ResNet14，而后又在 ResNet 基础上将损失函数替换为加权损失函数，结果表明加权损失函数对于提升算法的性能有一定的作用.Li

12、等15采用长短期记忆网络（long-shorttermmemorynetwork,LSTM）来研究14 类疾病病理标签的相关性.在 DenseNet16的基础上，添加 LSTM 学习各个疾病病理标签之间的相关信息，并将 DenseNet 网络中稠密块的卷积个数设为 4 个来降低算法复杂度，同时使用 Wang 等13设计的加权损失函数进行实验，最终模型取得较好的效果.Guendel 等17同时使用 2 个数据集进行训练，将 CheXray-14 数据集和 PLCO数据集混合，在 DenseNet 基础上提出 DNetLoc，在实验过程中通过修改不同数据集的添加比例来对网络性能进行对比，最终得到更

13、优的结果.Chen 等18根据人类的学习习惯提出一种新的网络训练方式，将数据集按照学习程度由易到难的顺序排列，并以这样的顺序对网络进行训练，这样训练得到的网络达到了很好的效果.Rajpurkar 等19提出 CheXNet 算法，该算法使用迁移学习加微调的方式进行训练，并修改最后的全连接层来适应分类要求，在这种情况下，对 14 类肺部疾病的诊断取得了更好的结果.目前主流的分类方法大多是对不同的卷积神经网络做出改进，通过提高特征提取能力来提高分类精度.随着 Transformer 在计算机视觉领域的发展，Liu 等20提出 Query2label 模型，该模型先对图片通过一个骨干网络提取特征图，

14、然后将图片特征和标签特征送入 Transformer 解码器，把图片特征作为 Key 和 Value，标签特征作为 Query，利用 Transformer 解码器内部的交叉注意模块，预测相关标签的存在性，在自然图像分类任务上取得了较好的效果.本研究设计一种结合可形变Transformer 与压缩型双注意力模块的多标签胸部疾病分类模型，将 Transformer 应用到医学图像领域，以期获得较好的分类效果.2可形变 Transformer 辅助的胸部X 光影像疾病诊断模型通过学者们的工作发现，适当增大特征图分辨率有利于提高模型的分类性能，但同时会带来高计算复杂度

15、和高内存占用.本研究提出一种基于可形变 Transformer 和压缩型双注意力模块的胸部 X 光图像分类模型，模型框架分为特征提取阶段和类别预测阶段：特征提取阶段采用压缩型双注意力模块，有效去除影像的冗余信息，提升后期信息表征的有效性；类别预测阶段在可形变1924浙江大学学报（工学版）第57卷Transformer 部分，引入预训练模型的先验知识作为引导，指导多类别信息的表征.可形变 Transformer解码器部分的交叉注意力模块可以有效定位不同病灶的区域，进一步对有效信息进行表征.本研究模型可以在得到较好分类精度的同时，有效地降低了模型的计算复杂度.所提模型框架如图 1所示，其中 H、W

16、分别为特征图的高、宽，C 为特征图通道数.输入图像 X非对称损失函数拓展后的ResNet50CHWCHWCHWCHW压缩型位置注意力模块压缩型位置注意力模块分类器可形变Transformer解码器可形变Transformer解码器QueryKey 和 ValueKey 和 Value肺不张 0.97肿块 0.03结节 0.01肺炎 0.02水肿 0.05肺不张肿块结节肺炎水肿图 1 胸部 X 光图像分类模型框架Fig.1FrameworkofchestX-rayimageclassificationmodel在特征提取阶段，首先使用扩展后的 ResNet50获得较高分辨率的初始特征图21，接

17、着通过压缩型双注意力模块加强特征表示；在类别预测阶段，使用标签嵌入作为查询，通过可形变 Transformer解码器内部的交叉注意力模块，自适应地从上游传来的特征图中提取与类别相关的特征，以预测相关标签的存在性.引入预训练模型的分类表征来指导影像数据在不同类别下的表征，最终传入分类器，获得预测结果.此外还引入非对称损失函数以改善数据集中正负样本不均衡的问题.2.1 特征提取网络特征提取层选取的是深度残差网络（residualneuralnetwork,ResNet）.ResNet 基于一种残差学习结构，有效地解决了卷积神经网络因为层次不断加深而引起的网络退化问题.目前，ResNet 主要使用

18、2 种残差单元，结构如图 2 所示.在图 2（a）为 basicblock，由 2 个 33 卷积和一个快捷连接构成，并且卷积层与快捷连接的输出经过元素相加后的特征图作为下一层的输入.ba-sicblock 常被用于浅层网络，如 ResNet18 和 Res-Net34 中均使用 basicblock 作为基本残差单元；在图 2（b）为 bottleneckblock，利用 11 卷积块进行降维，接着使用 33 卷积块进行特征提取，最后利用11 卷积块进行升维.在不影响模型精度的同时，减少计算过程中的参数量，降低计算复杂度，进而缩短整个模型训练所需的时间.bottleneckblock 常被用

19、于深层网络，如 ResNet50、ResNet101 和 Res-Net152 均使用 bottleneckblock 作为基本残差单元.X RH0W03F0RHWd0H=H0/16 W=W0/16d0=2 048出于对模型性能和参数量的考虑，选择扩展后的 ResNet50（dilatedResNet50）进行特征提取.将原始 ResNet50 中最后一个残差单元的下采样删除，并选取可变形卷积作为卷积核.在未引入额外参数的情况下，获取到含有更加丰富信息的特征图.输入图像，经过扩展后的 ResNet50获得特征图，其中，d0为特征图的通道数.特征图的分辨率与之前相比有所提高.2.2 可形变 Tr

20、ansformer 模块标准 Transformer 中使用多头注意力机制，具体计算式为MultiHeadAttention(zq,x)=Mm=1WmkkAm,q,kWmxk.(1)式中：zq为查询特征，x 为输入特征，m 为注意力relurelurelu256-d1*1,641*1,2563*3,6464-drelurelu3*3,643*3,64(a)basic block(b)bottleneck block图 2 ResNet 系列主要使用的 2 种残差结构Fig.2TwomainresidualstructuresusedbyResNetfamily第10期胡锦波,等：可形变 Tra

21、nsformer 辅助的胸部 X 光影像疾病诊断模型J.浙江大学学报：工学版,2023,57(10):19231932.1925WmWm头的索引，为每个注意力头的权重矩阵，k 为经过采样后 Key 的索引，Am,q,k为第 m 个注意力头内的第 k 个采样点的注意力权重，为经过采样后每个注意力头的权重矩阵，xk为经过采样后的输入特征.该式的计算复杂度为 O(NaC2+NbC2+NaNbC)，其中 Na、Nb分别为 Query 和 Key 的对象查询数.原始的 Transformer 解码器的输入包括 2 个部分：一部分来自注意力模块的特征输出，另一部分为通过学习获得的标签嵌入表示的 N 个对象

22、查询，N 为类别的数量.Transformer 解码器内部包含交叉注意力模块和自注意力模块.对交叉注意力模块来说，Query 为对象查询，Key 为注意力模块的输出，因此，Na=N，Nb=HW，则交叉注意力模块的复杂度为 O(HWC2+NHWC)，受到特征图分辨率与通道数的影响.对于自注意力模块来说，Query和 Key 都是标签嵌入表示的 N 个对象查询，因此Na=Nb=N，则自注意模块的复杂度为 O(2NC2+N2C)，受到对象查询的数量以及标签嵌入维度的影响.Transformer 中的注意力模块会查询特征图上的所有位置.当特征图分辨率较高时，会带来较高的计算复杂度，因此提出采用可形变

23、Transformer（deformabletransformer）来解决这一问题.可形变Transformer 中使用可形变注意力模块，如图 3 所示.CHWHead 1Head 1Head 1Head 2Head 2Head 2Head 3Head 3Head 3Head 1 Head 2Head 3Values Wm xLinearLinearLinearSoftmaxLinear采样偏移聚合聚合聚合采样值注意力权值查询特征 zq参考点 pq(pq1x,pq1y)输出聚合图 3 可形变注意力模块Fig.3Deformableattentionmodule该模块只关注查询点附近的一小部分采

24、样点，通过每个 Query 分配固定且较少的 Key 来解决计算复杂度高的问题，具体计算式为DeformAttn(zq,pq,x)=Mm=1WmKk=1Am,q,kWmx(pq+pm,q,k).(2)K HW式中：K 为经过 Key 的总数，且；pq为一个二维参考点；pm,q,k为第 m 个注意力头内的第k 个采样点的偏移量；pm,q,k和 Am,q,k都是由 zq通过全连接层获得.复杂度计算式为O(NaC2+min(HWC2,NaKC2)+5NaKC+3NaCMK).(3)可形变注意力模块只关心参考点周围的一组采样点，而不用考虑特征图空间大小，复杂度不再受上游的输出特征图分辨率的影响.该模块

25、的提出有效解决了特征图高分辨率带来的计算复杂度升高的问题，在保证准确率的情况下，提升了算法的效率.2.3 先验知识 Query 的构建L=l1,l2,li;li=uFl=f1l,f2l,fclfil=li+h;fil Rdh为了更好地提升分类信息的准确性，针对胸部 X 光图像中可能存在的患病区域重叠问题，引入预训练的分类表征作为先验知识来引导多分类特征的学习.利用经典的 ResNet+softmax 学习预训练得到的类别表征，最终可以得到初始的分类表征，其中 u 为类别个数，li的维度为 m 维.此外，添加了具有可学习参数的多层感知器（multilayerperceptron,MLP）模块来优

26、化标签嵌入.为了处理多类别信息融合，通过提出的模块将标签嵌入映射到融合的特征空间，在训练阶段，通过随机初始化操作获得初始标签嵌入 L.高级标签嵌入表示为，其中.和为标签嵌入网络的参数，这些参数将在训练阶段被学习到，Fl作为最终的标签嵌入来指导多类别信息融合.在训练阶段结束之后，所学习到的 Fl可以在下一次训练中作为初始化标签嵌入来引导特征的更新.2.4 压缩型双注意力模块压缩型双注意力模块（compactdualattentionmodule,CDAM）由压缩型位置注意力模块和压缩型通道注意力模块并联组成.压缩型位置注意力模块首先获取所有位置特征的加权和，然后有选择地聚合各个位置的特征；压缩型

27、通道注意力模块首先将所有通道特征之间的相关特征进行整合，之后有选择地强调相互依赖的通道特征.2 个注意力模块采取并联的方式，并将 2 个支路的输出相加，以进一步改善特征表示.通过增大特征图分辨率来获得更加丰富的视觉特征信息，进而提高识别精度，但增大特征图分辨率会带来较高的计算复杂度.因此，使用压缩型双注意力模块来应对这一问题，下面分别对这 2 种注意力模块进行介绍.1926浙江大学学报（工学版）第57卷2.4.1压缩型位置注意力模块在原始的位置注意力模块中，为了获得任意 2 个像素特征之间的关系，需要进行向量的内积运算.当像素特征较多时，会带来巨大计算量和内存消耗，为了缓解这一问题，采用压缩型

28、位置注意力模块（compactpositionattentionmodule,CPAM）.CPAM 通过构建每个像素与一些聚集中心的关系来降低计算量，这些聚集中心由一个多尺度池化层获得，结构如图 4 所示.AFBGDSECHWCHW(HW)MCM重塑+转置重塑转置softmax图 4 压缩型位置注意力模块Fig.4CompactpositionattentionmoduleF RCMB RCHWB RCNN=HWGG RCM将维度为 CHW 的特征图 A 传入到一个由4 个自适应平均池化层和 1 个 11 卷积层组成的多尺度池化层中.通过之后获得 4 个不同尺寸的池化特征图，分别为 11、22

29、、33 和 66（由于空间原因，图中未画出 66 的池化特征图），通道数仍旧为 C.将池化后的特征图维度改为 CL2，为对应池化特征图的尺寸，将这些池化特征图拼接到一起，获得聚集中心特征图，其中 M 为所有池化特征图第二维度的和.将 A 传入一个 11卷积层和一个全连接层，获得特征图，接着改变其形状得到，其中，为通过 11 卷积层改变后的维度，采用降维方式是为了降低计算量.对 F 进行同样的操作获得，之后对 B 的转置和 G 进行矩阵相乘操作，并通过 softmax 层，得到位置注意力权重图的计算式为sj,i=exp(BjGi)Mi=1exp(BjGi).(4)D RCM式中：sj,i为第 i

30、个聚焦中心与第 j 个像素特征之间的关系.将聚集中心特征图 F 传入全连接层获得特征图，得到最终输出特征图 E 的计算式为Ej=Mi=1(sj,iDi)+Bj.(5)2.4.2压缩型通道注意力模块在原始的通道注意力模块中，通过计算各个通道之间的相关性来获得通道注意力权重.当通道数较大时，会带来计算复杂度上的增加，因此引入压缩型通道注意力模块（compactchannelattentionmodule,CCAM）来解决这一问题.CCAM 与 CPAM 类似，通过构建每个通道与通道聚集中心之间的关系来获得通道注意力权重，结构如图 5 所示.AFXECHWCHWKHWKC重塑重塑重塑重塑+转置转置

31、softmax图 5 压缩型通道注意力模块Fig.5CompactchannelattentionmoduleA RCHWF RKHWX RCK对于输入特征图，将其通过一个11 的卷积层，获得特征图.其中，K 为通过 11 卷积层降低后的通道数.F 的每一个通道映射都能看作一个通道聚集中心.之后的操作与 CAM 一样，首先获得通道注意力映射，计算式为xj,i=exp(AjFi)Ki=1exp(AjFi).(6)式中：xj,i为第 i 个通道聚集中心对第 j 个通道的影响.有选择性地将通道聚集中心整合到特征图A 上，得到最后的输出特征图 E，计算式为Ej=Ki=1(xj,iFi)+Aj.(7)2

32、.5 非对称损失函数为了解决数据集中正负样本不均衡的问题，采用非对称损失函数.在焦点损失函数22的基础上，解耦正样本和负样本的指数因子，可以更好地控制正样本和负样本对损失函数的贡献.本研究使用的是简化后的非对称损失函数，可以看作一种非对称聚焦损失函数，即L=1KKk=1(1 pk)+log2pk,yk=1;1KKk=1(pk)log2(1 pk),yk=0.(8)+式中：K 为类别数量，yk为图片的类别，pk为网络预测图片类别正确的概率，为正聚焦参数，为负聚焦参数，通常设置.总损失通过对训练样本所有损失的和取平均得到，在本研究实验中，设置为 0，设置为 2.2.6 本研究模型构建在胸片中，灰雾

33、现象与病变区域重叠等问题，第10期胡锦波,等：可形变 Transformer 辅助的胸部 X 光影像疾病诊断模型J.浙江大学学报：工学版,2023,57(10):19231932.1927使得病灶区域不清晰，导致诊断困难.因此，传统方法在基于胸片进行疾病的多分类任务时，表现有所欠缺.对于此类问题，本研究对模型进行针对性优化.胸片的特征图分辨率越高，分类效果相对来说会更好.在提取特征时，删除 ResNet50 最后一个残差单元的下采样，将可形变卷积作为卷积核，得到分辨率更高的特征图.考虑到病灶区域较小的疾病，采用双注意力机制对特征图进行处理，增强病变区域和非病变区域的特征差异.提高特征图分辨率必

34、然会导致模型计算复杂度提升，因此对双注意力模块进行压缩操作，有选择地聚合位置特征和通道特征，去除特征中的冗余信息，降低模型的计算复杂度.普通 Transformer需要关注整张特征图的内容，在前期提高特征图分辨率的基础上，会带来更高的计算复杂度.本研究提出可形变 Transformer 提取类别相关信息，只须关注病灶周围的内容，提升模型的效率.在可形变 Transformer 模块中引入预训练模型的先验知识，指导多类别信息的表征，有利于提高不同疾病在影像区域重叠情况下的特征区分度.在训练过程中，由于数据集中的部分疾病样本之间数量相差过大，容易导致正负样本不均衡问题.通过解耦正负样本的指数因子，

35、使用非对称损失函数，控制正负样本对损失函数的贡献，弱化正负样本不均衡问题带来的影响.3实验结果与分析3.1 实验数据集采用数据集 ChestX-ray14 和 CheXpert 对模型性能进行评测.ChestX-ray14 是美国国立卫生研究院在 2017 年发布的胸部 X 射线数据集，该数据集中共有 14 种常见的肺部疾病，共计 112120 张胸部 X 光片.这些 X 光片来自 30805 名肺部病变患者，标记了 14 种疾病中的一种或多种.在数据集中，由专业的放射科医生在 984 张胸部 X 光图像中手工标注了患病区域，其中包含 8 种疾病，如图 6 所示.CheXpert 数据集是吴恩

36、达团队于 2019 年公开的一个大型胸部 X 光片数据集23，其中包含 65240位病人的 224316 张胸片.该数据集中每张胸片共标注了 14 个标签，其中 12 个是心脏肥大、肺不张、肺实变等 12 种疾病特征，另外 2 个标签分别为未发现病灶和辅助设备.此外，每种类别有 3 种标记，包括阳性、阴性以及不确定，不确定为医生仅通过 X 光片还判断不出是否患有某种疾病.3.2 评价指标AUC为了准确且客观地评估模型性能，选用受试者操作特征曲线（receiveroperatingcharacteristics,ROC）来反映模型对肺部疾病的分类性能.利用该曲线下的面积值（areaundercu

37、rve,AUC）对模型进行分析，并以此作为比较的指标，AUC 值越大，表示模型的分类性能就越好.后文为平均 AUC.ROC 曲线的横、纵坐标分别为假正例率（falsepos-itiverate,FPR）、真正例率（truepositiverate,TPR）.FPR 为将负样本错判为正例的概率，TPR 为对正样本判别正确的概率.3.3 与现有 SOTA 算法比较AUCall为了验证所提方法的有效性，分别在 ChestX-ray14 数据集和 CheXpert 数据集上与其它现存的先进方法进行性能对比实验.实验结果如表 1、2所示，其中为每种方法在所有疾病上的平均 AUC 值.Deformable

38、-CDAM 为本研究的模型，表中数据加粗为该方法得到的指标经过对比为最佳指标.由表 1 可知，与对比算法相比，本研究算法有明显的性能提升，这主要是由于采用分辨率更高的医学影像信息，得益于压缩型双注意力模块和可形变 Transformer 网络对算法复杂度的降低.Wang 等13将 ImageNet 预训练后的卷积神经网络作为特征提取器，只对过渡层和分类层进行训练，最终取得较好的结果，但其并未对数据的冗余信息进行处理.Ma 等25提出一种多注意力网络，主干网络为 ResNet101，并在主干网络中加入挤压激励模块来构建通道之间的依赖关系，还添加了空间注意力模块来融合整体与局部的信息.(a)肺不张

39、(Atelectasis)(b)心脏肿大(Cardiomegaly)(c)积液(Effusion)(d)渗透(Infiltrate)(e)肿块(Mass)(f)结节(Nodule)(g)肺炎(Pneumonia)(h)气胸(Pneumothorax)图 6 8 种胸部常见疾病病变区域图Fig.6Lesionareamapsof8commonchestdiseases1928浙江大学学报（工学版）第57卷此外为了处理类失衡的问题采用错分样例模块，这些方式使得算法取得较好的分类结果，但是缺乏对先验知识的应用，相对于本研究的算法性能仍有一定的差距.Luo 等27使用多个数据集进行训练，并对不同数据集

40、之间存在的差异进行处理，解决了域和标签差异的问题.与所提算法相比，文献 5 所提方法在部分疾病上的诊断效果较好.由于本研究采用引入先验知识等操作，从整体诊断效果上看，所提算法效果仍然占优.在 CheXpert 数据集上，采用数据集作者提出的 3 种方法，即使用 U-Ignore、U-Zeros 和 U-Ones 以及一些其他 SOTA 算法来进行比较.CheX-pert 作者提出的 3 种方法对不确定性标签数据分别采用 3 种处理方式，即忽略、当作未患病和当作患病，其中 U-Ones 方法获得最高的性能表现.在处理含有不确定性标签的数据时，按照与 U-Ones 方法一样的处理方式.由表 2 可

41、知，在该数据集上，对于肺实变、心脏肿大 2 种疾病的诊断，其他算法也取得较好的效果.这是因为主要改善的是小病灶疾病的分类，而肺实变、心脏肿大的病灶区域较大，相对容易识别，其他算法也可以获得较好的分类结果.从整体上看，本研究模型表 1 ChestX-ray14 数据集上模型对各类疾病分类的性能对比Tab.1ComparisonofmodelperformanceonChestX-ray14datasetforclassificationofvariousdiseases疾病种类AUC/%Wang等13Yao等15CheXNet19Guendel等17Yan等24Ma等25DuaLAnet26Lu

42、o等27DAMDeformab-CDAM-D肺不张0.70030.7330.77950.7670.79240.7770.7830.78910.80360.820 1心脏肿大0.81000.8560.88160.8830.88140.8940.8840.90690.88470.911 5积液0.75850.8060.82680.8280.84150.8290.8320.84180.87980.890 2渗透0.66140.6730.68940.7090.70950.6960.7080.718 40.70410.7144肿块0.69330.7180.83070.8210.84700.8380.83

43、70.83760.82840.864 9肺结节0.66870.7770.78140.7580.810 50.7710.8000.79850.73260.7725肺炎0.65800.6890.73540.7310.73790.7220.7350.74190.74540.762 1气胸0.79930.8050.85130.8460.87590.8620.8660.906 30.88460.9033肺实变0.70320.7110.75420.7450.75980.7500.7460.76810.79660.810 0水肿0.80520.8060.84960.8350.84780.8460.8410.

44、86100.88390.895 8肺气肿0.83300.8420.92490.8950.942 20.9080.9370.93960.92050.9142纤维变性0.78590.7430.82190.8180.83260.8270.8200.838 10.80060.8082胸膜增厚0.68350.7240.79250.7610.80830.7790.7960.80360.78420.814 6疝气0.87170.7750.93230.8960.93410.9340.8950.937 10.86210.8757AUCall0.74510.7610.81800.8070.83020.8170.8

45、200.83490.82210.839 8表 2 CheXpert 数据集上模型对各类疾病分类的性能对比Tab.2ComparisonofmodelperformanceonCheXpertdatasetforclassificationofvariousdiseases疾病种类AUC/%U-IgnoreU-ZerosU-OnesGuan等28Pham等29Irvin等30Deformab-CDAM-D肺不张0.8180.8110.8580.8470.82500.85800.863 5心脏肿大0.8280.8400.8320.8680.85500.83200.8655肺实变0.9380.932

46、0.8990.9230.937 00.89900.9079水肿0.9340.9290.9410.9240.93000.94100.942 9胸膜增厚0.9280.9310.9340.9260.92300.93400.951 1AUCall0.88920.88860.89280.8980.89400.89300.906 1第10期胡锦波,等：可形变 Transformer 辅助的胸部 X 光影像疾病诊断模型J.浙江大学学报：工学版,2023,57(10):19231932.1929AUC的达到 90.61%，相比其他方法均有所提高，进一步证明了本研究模型的有效性和鲁棒性.3.4 特征图分辨率对模

47、型性能的影响通过设置对比实验，分别在数据集 ChestX-ray14和 CheXperts 上对比特征图分辨率对模型性能的影响，实验结果如表 3 所示.“Deformab-CDAM-D”为使用高分辨率的特征图.由表 3 可知，在 2 个数据集上，与使用低分辨率特征图的模型相比，使用较高分辨率特征图的模型，在指标上分别提高1.65%和 1.42%，提升比较明显.这得益于提高特征图分辨率后，特征图中包含更多的特征信息，使得模型的分类性能有所提高.表 3 特征图分辨率对模型性能的影响Tab.3Effectoffeaturemapresolutiononmodelperformance模型AUC/%C

48、hestX-ray14CheXpertDeformab-CDAM0.82330.8919Deformab-CDAM-D0.839 80.906 13.5 先验知识 Query 的构建对模型性能的影响针对病灶区域重叠的问题，利用预训练的分类表征作为先验知识.在数据集 ChestX-ray14 和CheXpert 数据集上，基于本研究模型分别设置了是否构建先验知识 Query 的对比实验，实验结果如表4所示.“null”为未进行先验知识的构建，“Query”为进行了先验知识的构建，“Query+MLP”为在进行先验知识构建的同时，添加了 MLP 模块.表 4 先验知识对模型性能的影响Tab.4Ef

49、fectofpriorknowledgeonmodelperformance模型AUC/%ChestX-ray14CheXpertnullQuery0.83420.83840.89930.9026Query+MLP0.839 80.906 1AUC由 2 个数据集上的实验结果可知，相较于未构建先验知识的模型，构建先验知识的模型的分别提高了 0.56%和 0.68%，具有可学习参数的 MLP 模块也对模型性能提升有所帮助.结果表明，引入先验知识对多类别的表征起到指导作用，使模型分类的准确性得到相应的提高.3.6 消融实验为了验证可形变 Transformer 和压缩型双注意力模块对于模型性能的影

50、响，分别在 ChestX-ray14 数据集和 CheXpert 数据集上进行消融实验，共进行 4 组实验：第 1 组的模型结合原始 Trans-former 和压缩型双注意力模块；第 2 组的模型结合可形变 Transformer 和原始双注意力模块；第 3 组的模型结合可形变 Transformer 和压缩型双注意力模块，前 3 组实验均采用预训练的 labelembed-ding 信息来引导学习影像特征；第 4 组实验与第 3 组实验不同之处在于，采用的是随机生成的 labelem-bedding 信息来学习影像特征.实验结果如表 5 所示.表 5 不同模块对模型分类效果的影响Tab.5

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 形变 Transformer 辅助胸部光影疾病诊断模型

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。