可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf
《可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf》由会员分享,可在线阅读,更多相关《可形变Transformer辅助的胸部X光影像疾病诊断模型.pdf(10页珍藏版)》请在咨信网上搜索。
1、DOI:10.3785/j.issn.1008-973X.2023.10.002可形变 Transformer 辅助的胸部 X 光影像疾病诊断模型胡锦波1,聂为之1,宋丹1,高卓2,白云鹏3,赵丰3(1.天津大学电气自动化与信息工程学院,天津300072;2.长春职业技术学院信息学院,吉林长春130033;3.天津市胸科医院心血管外科,天津300222)摘要:针对胸部 X 光影像中的灰雾现象、病变区域重叠等问题,提出可形变 Transformer 辅助的胸部 X 光影像疾病诊断模型.将扩展后的 ResNet50 作为特征提取网络,添加压缩型双注意力模块,增强病变区域与非病变区域之间的特征差异,
2、降低冗余信息的干扰,提高图像数据的特征提取效果;通过可形变 Transformer 解码器内部的交叉注意力模块,引入类别表征作为先验知识,引导影像特征进一步融合,提高不同疾病在影像区域重叠情况下的特征区分度;将解码器的输出传入分类器中以获得最终的诊断结果.压缩型双注意力模块和可形变 Transformer 均起到降低模型计算复杂度的作用,引入非对称损失函数可以更好地解决正负样本不均衡.利用所提模型在公开数据集 ChestX-Ray14 和 CheXpert 上进行多组实验,在 2 个数据集上的受试者操作的特征曲线下面积值(AUC)分别达到 0.8398 和 0.9061,表明该模型在胸部 X
3、光影像的疾病诊断方面具有正确性和有效性.关键词:胸部 X 光图像分类;可形变 Transformer;压缩型双注意力;非对称损失函数;先验知识中图分类号:TP391文献标志码:A文章编号:1008973X(2023)10192310Chest X-ray imaging disease diagnosis model assisted bydeformable TransformerHUJin-bo1,NIEWei-zhi1,SONGDan1,GAOZhuo2,BAIYun-peng3,ZHAOFeng3(1.School of Electrical and Information Engin
4、eering,Tianjin University,Tianjin 300072,China;2.School of Information,Changchun Poly-technic,Changchun 130033,China;3.Department of Cardiovascular Surgery,Tianjin Chest Hospital,Tianjin 300222,China)Abstract:AdiseasediagnosismodelforchestX-rayimagesassistedbydeformableTransformerwasproposed,aiminga
5、ttheproblemsofgrayfogphenomenonandoverlappinglesionareasinchestX-rayimages.TheextendedresidualnetworkResNet50wasusedasafeatureextractionnetwork.Acompresseddualattentionmodulewasaddedtoenhancethefeaturedifferencebetweenthelesionareaandthenon-lesionarea,furtherreducedtheinterferenceofredundantinformat
6、ionandimprovedthefeatureextractionofimagedata.Throughthecross-attentionmoduleinsidethedeformableTransformerdecoder,categoryrepresentationswereintroducedastheprioriknowledgetoguidefurther fusion of image features and improve the feature discrimination of different diseases in the case ofoverlappingim
7、ageregions.Outputofthedecoderwaspassedintotheclassifiertoobtainthefinaldiagnosis.BoththecompresseddualattentionmoduleandthedeformableTransformercanreducethecomputationalcomplexityofthemodel.Theasymmetriclossfunctionwasintroducedtosolvetheimbalanceofpositiveandnegativesamples.Theproposedmodelwassubje
8、ctedtomultiplesetsofexperimentsonpublicdatasetsChestX-Ray14andCheXpert.Theareaundercurve(AUC)ontwodatasetsreached0.8398and0.9061respectively,indicatingthecorrectnessandvalidityofthemodelfordiseasediagnosisonchestX-rayimages.Key words:chestX-rayimageclassification;deformabletransformer;compresseddual
9、attention;asymmetriclossfunction;prioriknowledge收稿日期:20220901.网址: X 光片对肺部疾病进行常规检查,这是因为 X 光片获取方式比较简单,普通医院就可以基于常规设备标准获得1.胸部X 光影像中有很多细小且相似的特点,人眼进行观察时,很容易区分不出.在这种情况下,医生可以利用计算机辅助检测(computer-aideddetection,CAD)系统对 X 光影像进行诊断2.随着深度学习技术的发展,人们对使用人工智能改进 CAD 系统产生了极大的关注.医学图像的诊断一般属于多标签分类任务3-6.由于医学影像成像的模糊性、部分病灶区域的
10、不规则性和位置的不确定性,针对医学影像的多标签分类任务需要特别注意以下 2 点:1)如何定位感兴趣区域并从区域中有效提取特征;2)如何处理标签不平衡问题.针对上述问题,提出可形变Transformer 辅助的胸部 X 光影像疾病诊断算法.该算法对 Transformer 模块和双注意力模块进行优化,可以高效地处理高分辨率的医学图像,在不影响诊断正确率的情况下,提升模型的计算效率,使其更有利于开展技术落地和应用场景的示范工作;在 Transformer 部分引入预训练模型的分类表征作为先验知识,指导目标影像表征信息的更新和多类信息的融合;此外,还引入非对称损失函数7,以此来更好地处理正负样本不均
11、衡问题.本研究方法兼顾模型的分类精度和计算复杂度,通过公开数据集 ChestX-14 和 CheXpert 上的多组实验,证明了所提方法的正确性和有效性.工作代码已经公开,代码链接为:https:/ 的相关技术也在很多医疗领域产生重要影响10-12.在 MAI 的研究工作中,学者们在胸部 X 光图片分类问题上取得一系列新的研究进展.在 CheXNet-8 数据集上 Wang 等13测试了 4 种网络算法,在对比 4 种算法分类结果的同时,得出性能最好的网络为 ResNet14,而后又在 ResNet 基础上将损失函数替换为加权损失函数,结果表明加权损失函数对于提升算法的性能有一定的作用.Li
12、等15采用长短期记忆网络(long-shorttermmemorynetwork,LSTM)来研究14 类疾病病理标签的相关性.在 DenseNet16的基础上,添加 LSTM 学习各个疾病病理标签之间的相关信息,并将 DenseNet 网络中稠密块的卷积个数设为 4 个来降低算法复杂度,同时使用 Wang 等13设计的加权损失函数进行实验,最终模型取得较好的效果.Guendel 等17同时使用 2 个数据集进行训练,将 CheXray-14 数据集和 PLCO数据集混合,在 DenseNet 基础上提出 DNetLoc,在实验过程中通过修改不同数据集的添加比例来对网络性能进行对比,最终得到更
13、优的结果.Chen 等18根据人类的学习习惯提出一种新的网络训练方式,将数据集按照学习程度由易到难的顺序排列,并以这样的顺序对网络进行训练,这样训练得到的网络达到了很好的效果.Rajpurkar 等19提出 CheXNet 算法,该算法使用迁移学习加微调的方式进行训练,并修改最后的全连接层来适应分类要求,在这种情况下,对 14 类肺部疾病的诊断取得了更好的结果.目前主流的分类方法大多是对不同的卷积神经网络做出改进,通过提高特征提取能力来提高分类精度.随着 Transformer 在计算机视觉领域的发展,Liu 等20提出 Query2label 模型,该模型先对图片通过一个骨干网络提取特征图,
14、然后将图片特征和标签特征送入 Transformer 解码器,把图片特征作为 Key 和 Value,标签特征作为 Query,利用 Transformer 解码器内部的交叉注意模块,预测相关标签的存在性,在自然图像分类任务上取得了 较 好 的 效 果.本 研 究 设 计 一 种 结 合 可 形 变Transformer 与压缩型双注意力模块的多标签胸部疾病分类模型,将 Transformer 应用到医学图像领域,以期获得较好的分类效果.2可形变 Transformer 辅助的胸部X 光影像疾病诊断模型通过学者们的工作发现,适当增大特征图分辨率有利于提高模型的分类性能,但同时会带来高计算复杂度
15、和高内存占用.本研究提出一种基于可形变 Transformer 和压缩型双注意力模块的胸部 X 光图像分类模型,模型框架分为特征提取阶段和类别预测阶段:特征提取阶段采用压缩型双注意力模块,有效去除影像的冗余信息,提升后期信息表征的有效性;类别预测阶段在可形变1924浙江大学学报(工学版)第57卷Transformer 部分,引入预训练模型的先验知识作为引导,指导多类别信息的表征.可形变 Transformer解码器部分的交叉注意力模块可以有效定位不同病灶的区域,进一步对有效信息进行表征.本研究模型可以在得到较好分类精度的同时,有效地降低了模型的计算复杂度.所提模型框架如图 1所示,其中 H、W
16、 分别为特征图的高、宽,C 为特征图通道数.输入图像 X非对称损失函数拓展后的ResNet50CHWCHWCHWCHW压缩型位置注意力模块压缩型位置注意力模块分类器可形变Transformer解码器可形变Transformer解码器QueryKey 和 ValueKey 和 Value肺不张 0.97肿块 0.03结节 0.01肺炎 0.02水肿 0.05肺不张肿块结节肺炎水肿图 1 胸部 X 光图像分类模型框架Fig.1FrameworkofchestX-rayimageclassificationmodel在特征提取阶段,首先使用扩展后的 ResNet50获得较高分辨率的初始特征图21,接
17、着通过压缩型双注意力模块加强特征表示;在类别预测阶段,使用标签嵌入作为查询,通过可形变 Transformer解码器内部的交叉注意力模块,自适应地从上游传来的特征图中提取与类别相关的特征,以预测相关标签的存在性.引入预训练模型的分类表征来指导影像数据在不同类别下的表征,最终传入分类器,获得预测结果.此外还引入非对称损失函数以改善数据集中正负样本不均衡的问题.2.1 特征提取网络特征提取层选取的是深度残差网络(residualneuralnetwork,ResNet).ResNet 基于一种残差学习结构,有效地解决了卷积神经网络因为层次不断加深而引起的网络退化问题.目前,ResNet 主要使用
18、2 种残差单元,结构如图 2 所示.在图 2(a)为 basicblock,由 2 个 33 卷积和一个快捷连接构成,并且卷积层与快捷连接的输出经过元素相加后的特征图作为下一层的输入.ba-sicblock 常被用于浅层网络,如 ResNet18 和 Res-Net34 中均使用 basicblock 作为基本残差单元;在图 2(b)为 bottleneckblock,利用 11 卷积块进行降维,接着使用 33 卷积块进行特征提取,最后利用11 卷积块进行升维.在不影响模型精度的同时,减少计算过程中的参数量,降低计算复杂度,进而缩短整个模型训练所需的时间.bottleneckblock 常被用
19、于深层网络,如 ResNet50、ResNet101 和 Res-Net152 均使用 bottleneckblock 作为基本残差单元.X RH0W03F0RHWd0H=H0/16 W=W0/16d0=2 048出于对模型性能和参数量的考虑,选择扩展后的 ResNet50(dilatedResNet50)进行特征提取.将原始 ResNet50 中最后一个残差单元的下采样删除,并选取可变形卷积作为卷积核.在未引入额外参数的情况下,获取到含有更加丰富信息的特征图.输入图像,经过扩展后的 ResNet50获得特征图,其中,d0为特征图的通道数.特征图的分辨率与之前相比有所提高.2.2 可形变 Tr
20、ansformer 模块标准 Transformer 中使用多头注意力机制,具体计算式为MultiHeadAttention(zq,x)=Mm=1WmkkAm,q,kWmxk.(1)式中:zq为查询特征,x 为输入特征,m 为注意力relurelurelu256-d1*1,641*1,2563*3,6464-drelurelu3*3,643*3,64(a)basic block(b)bottleneck block图 2 ResNet 系列主要使用的 2 种残差结构Fig.2TwomainresidualstructuresusedbyResNetfamily第10期胡锦波,等:可形变 Tra
21、nsformer 辅助的胸部 X 光影像疾病诊断模型J.浙江大学学报:工学版,2023,57(10):19231932.1925WmWm头的索引,为每个注意力头的权重矩阵,k 为经过采样后 Key 的索引,Am,q,k为第 m 个注意力头内的第 k 个采样点的注意力权重,为经过采样后每个注意力头的权重矩阵,xk为经过采样后的输入特征.该式的计算复杂度为 O(NaC2+NbC2+NaNbC),其中 Na、Nb分别为 Query 和 Key 的对象查询数.原始的 Transformer 解码器的输入包括 2 个部分:一部分来自注意力模块的特征输出,另一部分为通过学习获得的标签嵌入表示的 N 个对象
22、查询,N 为类别的数量.Transformer 解码器内部包含交叉注意力模块和自注意力模块.对交叉注意力模块来说,Query 为对象查询,Key 为注意力模块的输出,因此,Na=N,Nb=HW,则交叉注意力模块的复杂度为 O(HWC2+NHWC),受到特征图分辨率与通道数的影响.对于自注意力模块来说,Query和 Key 都是标签嵌入表示的 N 个对象查询,因此Na=Nb=N,则自注意模块的复杂度为 O(2NC2+N2C),受到对象查询的数量以及标签嵌入维度的影响.Transformer 中的注意力模块会查询特征图上的所有位置.当特征图分辨率较高时,会带来较高的计算复杂度,因此提出采用可形变
23、Transformer(deformabletransformer)来解决这一问题.可形变Transformer 中使用可形变注意力模块,如图 3 所示.CHWHead 1Head 1Head 1Head 2Head 2Head 2Head 3Head 3Head 3Head 1 Head 2Head 3Values Wm xLinearLinearLinearSoftmaxLinear采样偏移聚合聚合聚合采样值注意力权值查询特征 zq参考点 pq(pq1x,pq1y)输出聚合图 3 可形变注意力模块Fig.3Deformableattentionmodule该模块只关注查询点附近的一小部分采
24、样点,通过每个 Query 分配固定且较少的 Key 来解决计算复杂度高的问题,具体计算式为DeformAttn(zq,pq,x)=Mm=1WmKk=1Am,q,kWmx(pq+pm,q,k).(2)K HW式中:K 为经过 Key 的总数,且;pq为一个二维参考点;pm,q,k为第 m 个注意力头内的第k 个采样点的偏移量;pm,q,k和 Am,q,k都是由 zq通过全连接层获得.复杂度计算式为O(NaC2+min(HWC2,NaKC2)+5NaKC+3NaCMK).(3)可形变注意力模块只关心参考点周围的一组采样点,而不用考虑特征图空间大小,复杂度不再受上游的输出特征图分辨率的影响.该模块
25、的提出有效解决了特征图高分辨率带来的计算复杂度升高的问题,在保证准确率的情况下,提升了算法的效率.2.3 先验知识 Query 的构建L=l1,l2,li;li=uFl=f1l,f2l,fclfil=li+h;fil Rdh为了更好地提升分类信息的准确性,针对胸部 X 光图像中可能存在的患病区域重叠问题,引入预训练的分类表征作为先验知识来引导多分类特征的学习.利用经典的 ResNet+softmax 学习预训练得到的类别表征,最终可以得到初始的分类表征,其中 u 为类别个数,li的维度为 m 维.此外,添加了具有可学习参数的多层感知器(multilayerperceptron,MLP)模块来优
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 形变 Transformer 辅助 胸部 光影 疾病诊断 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。