基于多标签分类的T2DM证候预测模型研究.pdf
《基于多标签分类的T2DM证候预测模型研究.pdf》由会员分享,可在线阅读,更多相关《基于多标签分类的T2DM证候预测模型研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、2023 第二十五卷 第三期 Vol.25 No.3 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 基于多标签分类的T2DM证候预测模型研究胡绿慧1,李梓菡2,温川飙1,廖辛2(1.成都中医药大学智能医学学院 成都 611137;2.成都中医药大学附属医院 成都 610072)摘要:目的探究T2DM的中医证侯特征、T2DM发生发展不同病程阶段的证侯分布特征、优化T2DM中医证候诊断模型,为T2DM证候诊断标准的研究提供依据与指导。方法基于国家科技重大专项
2、中医证候生物学技术平台,以大量临床证候数据为研究对象,清洗出1255条有价值的数据。基于条件概率公式对缺失的数据进行数据补全,运用多标签分类学习算法,构建了卷积神经网络模型,对输入为T2DM人性别、年龄、病程、症状等多个属性,预测T2DM证候特征。结果应用传统机器学习算法在未进行数据补全之前,能够达到最高60.82%的准确率。利用全连接神经网络与卷积神经网络抽取数据的高维特征能够较好地提升准确率达64.65%。基于条件概率公式对缺失的数据进行补全,较大程度地提升了传统机器学习算法和神经网络算法的准确率,分别达到72.75%和75.47%。并通过多种传统机器学习算法计算出的不同输入属性对预测值的
3、贡献比例进行统计,得出年龄属性对证候预测结果的贡献最大,达到22.65%,其次是病程。结论基于条件概率的数据补全和CNN的多标签分类学习模型用于T2DM证候诊断研究是可行的和有效的,模型具有较强的泛化力,稍作修改就可用于其它疾病的临床数据分析,为中医智能化提供新的思路。关键词:T2DM 中医证候 多标签分类 CNNdoi:10.11842/wst.20220827004 中图分类号:R-058 文献标识码:A2 型糖尿病(Diabetes mellitus type 2,T2DM)是一种影响全球人类的代谢疾病,根据国际糖尿病联合会的报告,2021年全球20-79岁人群的糖尿病患病率估计为10.
4、5%,到2045年将上升至12.2%1。中医药治疗在综合管理T2DM临床症状、辅助平稳降糖、延缓糖尿病并发症等方面具有独特优势2。T2DM慢性疾病病程中的证候演进受多种危险因素影响,在不同人群、不同病程阶段的疾病转归极为复杂。仝小林等3认为T2DM中医证候三期辩证演进具有“郁-热-虚-损”基本证候演进规律,其中各期又具有“因、位、性、势”多维复杂证素特质。多种中医药治疗被认为具有改善T2DM代谢紊乱的内环境土壤,并且肯定其在综合管理T2DM临床症状、辅助平稳降糖,延缓糖尿病并发症方面具有独特优势4-5。但目前最大的难题仍然是如何进一步准确把握临床证候特点。随着计算机领域大数据和人工智能技术在各
5、行各业的应用,中医药现代化、国际化得到飞速发展。对于T2DM证候的研究,许多学者引入了机器学习算法。李建生等6使用动态科荷伦网络建立2型糖尿病证候诊断标准模型;文玉敏等7使用关系网络模型、聚类分析等探究糖尿病肾病的方药组成及证候特点;郭奕瑞等8应用 ANN 和logistic回归建立2型糖尿病预测模型;巩璇等9应用聚类分析算法研究T2DM证候规律;叶桦等10采用人工神经网络算法对糖尿病合并冠心病舌脉象证型进行预测研究。但传统对证候的预测主要基于单标签分类算法居多,而中医证候临床表现复杂多样,主次证 收稿日期:2022-08-27 修回日期:2022-12-16 国家自然科学基金委员会面上项目(
6、82174236):基于数据湖技术的疾病主客观征象及生物信息 分层特征关联网络 的发现及算法研究以糖尿病为例,负责人:温川飙;四川省科学技术厅国(境)外高端人才引进项目(SYZ202102):基于人工智能技术的中医治未病思想探究糖尿病早期诊断方法研究,负责人:胡绿慧;四川中医药文化协同发展研究中心一般项目(2021XT21):基于在线教学平台的中小学生中医药文化科普新模式研究,负责人:胡绿慧。通讯作者:廖辛,中级软件工程师,主要研究方向:中医药信息学。936 Modernization of Traditional Chinese Medicine and Materia Medica-Wor
7、ld Science and Technology 世界科学技术-中医药现代化中医药数据研究兼杂。要准确把握证候特点,需要引入更有效的机器学习算法来构建预测模型。多标签分类方法主要分为传统机器学习方法和基于深度学习的方法11。传统机器学习方法主要包括问题转换和算法适应方法。这种方法虽然直观高效,但对标签之间的相关性很难捕获,使得模型性能很难达到最优。随着深度学习的发展,一些神经网络模型也被运用到了多标签文本分类 中,如 基 于 CNN 结 构、基 于 RNN 结 构 和 基 于Transformer结构的多标签文本分类方法,相比于传统机器学习方法能有效、自动进行特征提取,还能捕获标签之间的高阶
8、相关性。因此,本文将基于深度学习的多标签文本分类方法应用于 T2DM 证候预测研究中,根据中医临床数据的特点,分析比较了多种传统机器学习模型与卷积神经网络学习模型的效果,并结合临床验证模型的有效性,以及各特征变量对证候预测的贡献率进行研究。1 数据初始化 本文中T2DM病患所属的证候不是唯一的,即病患可能有1-2种证候,所以本文中的T2DM病患证候预测属于多标签分类问题。研究所需数据来自于国家科技重大专项中医证候生物学技术平台,以大量临床证候数据为研究对象,清洗出1255条有价值的数据组成数据集。根据患者的性别、年龄、病程、症状、证候等属性,通过建立多标签分类模型来预测患者最可能的糖尿病证候,
9、以辅助医生临床决策。其中,预测的证候最多取两个值,即患者最多可能患有两种糖尿病证候。本文在T2DM证候数据采集的基础上先对数据进行预处理,用向量(x1,x2,x3,x14)表示患者的性别、年龄、病程、口干口渴、多饮、多尿、乏力、头晕、下肢麻木刺痛、眠差多梦、视物模糊、纳可、大便干结、胸闷气紧14种属性值。其中,病程之后的属性表示病患是否出现该症状。本实验的原始数据中,样本存在字符串类型的属性,无法用深度学习进行建模,并且属性数据间的数量级相差较大,因此需要对数据进行重新编码,除性别、年龄和病程之外的属性用数字0表示未出现该症状,数字1表示出现该症状:性别属性:用0代表女性,1代表男性,用x1表
10、示。年龄属性:原数据是表示真实年龄的数据,与用0或1表示的其他属性数据的量级差距较大,因此这里做最大最小归一化,使数据在分布0,1之间,用x2表示。病程属性:原数据以年为单位,表示病人得病时长,为适应前两个属性的数量级,需要做最大最小归一化,使数据分布0,1之间,用x3表示。证候属性:对数据进行统计得到6种证候,按序对每个证候编码,如表1所示。2 数据分析 数据集在性别、年龄、病程等多个主要属性上具有很好的统计意义。在性别上的统计分布显示男性患者比女性多,如表2所示。在年龄上的统计分布显示在40-80岁的年龄阶段发病较多,如表3所示。在病程上的统计分布显示 5-20年病程的患者较多,如表4所示
11、。数据集中口干口渴、下肢麻木刺痛、眠差多梦、大便干结是4个主要症状,因为空值较少,具有一定代表性,所以我们选取这些症状进行统计分析,排除数据补全后可能带来的影响,如表5所示。实例中,数据编码后得到如表6形式的数据。表1证候编号对照表n(%)证候编号123456证候类别气阴两虚湿热内蕴湿瘀互结痰瘀互结瘀血阻络气阴两虚夹瘀数量320(25.53%)266(21.19%)199(15.86%)180(14.37%)165(13.14%)125(9.91%)符号c1c2c3c4c5c6表2数据集在性别上的统计分布证候气阴两虚湿热内蕴湿瘀互结痰瘀互结瘀血阻络气阴两虚夹瘀男53.88%63.16%60.9
12、4%68.97%81.13%52.50%女46.12%36.84%39.06%31.03%18.87%47.50%表3数据集在年龄上的统计分布年龄气阴两虚湿热内蕴湿瘀互结痰瘀互结瘀血阻络气阴两虚夹瘀(0,200.97%0.58%0.00%0.00%0.00%0.00%(20,408.74%7.02%11.72%6.90%6.60%5.00%(40,6050.97%47.95%42.97%46.55%61.32%38.75%(60,8036.41%39.77%36.72%42.24%30.19%48.75%(80,max2.91%4.68%8.59%4.31%1.89%7.50%937 Mode
13、rnization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 2023 第二十五卷 第三期 Vol.25 No.3 基于传统的全连接深度学习并不能有效地学习不同病症特征的相关性,本文的一个主要出发点就是构造不同病症相关性的矩阵。不同于传统的直接使用全连接的深度学习方法,本文先使用向量外积操作将向量转化为矩阵,矩阵中的元素为向量元素彼此间的乘积,从而获取数据各属性间的潜在联系,且能提升数据维度。然后在此基础上类比于图像处理,引入CNN用于处理这样的矩阵信息,能有效地获取局部的特征
14、相关性用于进一步提升网络的表征和学习能力。具体来讲,假设原始样本x=(x1,x2,x3,x14)为1 14的向量,其中x1,x2,x3,x14分别表示样本的性别、年龄及病程等14个属性,则新数据xnew由式(1)给出:xnew=xTx(1)其中,xT为原始样本x的转置,即14 1的向量,因此新数据xnew为14 14的矩阵。用model代表我们建立的模型,最后根据我们的模型和输入的特征值,我们得出患者最可能的糖尿病类别c c1,c2,c3,c4,c5,c6。此过程由式(2)表达:c=model(xnew)(2)3 贝叶斯数据补全 贝叶斯理论是一种广泛应用的统计推断方法,其特点是用概率来表示所有
15、形式的不确定性。随机变量的概率分布表示了贝叶斯学习的结果,并且可以解释成对各种可能性的信任度12。贝叶斯理论可用来预测缺失数据值的概率分布,并根据不同的策略来补全缺失数据。随着计算机技术的发展,贝叶斯理论在各个领域得到了快速的应用和发展,诸如:医疗诊断、社会科学等12-13,并被广泛用于分类分析、数据挖掘等,有效修正变量之间相互依赖关系和不确定性知识的表示和推理。针对本文中清洗出的临床证候数据,由于早期记录的数据项不全面和患者信息填写不完整等原因,大多数据项都存在数据缺失的问题,数据的缺失将会影响模型的训练,进而影响模型预测的准确率。本文基于条件概率公式对缺失的数据进行补全,当症状数据缺失过多
16、时会降低模型预测的准确率,通过实验,当症状数据缺失率超过60%时将该症状剔除可以达到最优的预测效果。本文中只选取缺失率60%的症状进行数据补全,缺失率60%的症状,例如,四肢不温、足烂、心慌、脉弦滑、皮肤瘙痒等将不参加模型的训练和预测。通过筛选得到14个缺失率小于等于60%的症状:性别、年龄、病程、口干口渴、多饮、多尿、乏力、头晕、下肢麻木刺痛、眠差多梦、视物模糊、纳可、大便干结、胸闷气紧。本文中基于条件概率公式对数据进行补全,补全公式为:P(xi|x1,x2,xk,y)=P(x1,x2,x3,xk,xi,y)P(x1,x2,xk,y)其中xi表示需要补全的症状i,x1,x2,xk表示非空的k
17、个症状。根据公式依次对每一位患者缺失的症状数据进行补全。首先选出与患有属于同一证候的且未缺失的症状数据项完全相同的所有患者。再根据这些患者中患有缺失症状的患者和不患该症状的患者数量的比例计算出补全公式的结果,从而补全患者缺失的症状数据。当患者出现该症状的比例0.5时将数据补全为 1(表示患有该症状),否则补全为 0。例如,当前患者属于“气阴亏虚”证候,且“乏力”症状数据缺失。经过计算数据集中有20位患者也属于“气阴亏虚”证候,且其余未缺失症状和当前患者相同。其中,有18位患者患有“乏力”症状,2位患者没有出现表4数据集在病程上的统计分布证候气阴两虚湿热内蕴湿瘀互结痰瘀互结瘀血阻络气阴两虚夹瘀(
18、0,127.67%23.98%15.63%22.41%18.87%8.75%(1,518.45%18.13%19.53%15.52%22.64%13.75%(5,1024.76%27.49%34.38%31.90%32.08%32.50%(10,2024.27%26.90%28.13%28.45%22.64%37.50%(20,max4.85%3.51%2.34%1.72%3.77%7.50%表5数据集在主要症状上的统计分布证候气阴两虚湿热内蕴湿瘀互结痰瘀互结瘀血阻络气阴两虚夹瘀口干口渴84.95%87.72%85.16%87.93%79.25%82.50%下肢麻木刺痛77.18%89.47%
19、91.41%91.38%87.74%92.50%眠差多梦30.58%34.50%35.16%31.90%31.13%32.50%大便干结16.99%16.96%16.41%16.38%20.75%20.00%表6数据格式表序号123性别100年龄0.6538460.1923080.74359病程0.075630.0420170.159664口干口渴011证候编号253938 Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology 世界科学技术-中医药现代化中医药数
20、据研究“乏力”症状,则P=18/200.5,所以可以认为当前患者患有“乏力”症状,将其缺失的数据补全为1。当数据量足够大时,基本上总能找到符合上述要求的患者,代入补全公式计算出结果。若符合要求的患者数为零,则去掉一个未缺失的症状数据项,即将补全公式中的k减一,再寻找是否有相同症状的患者,若仍未找到则再次去掉一个未缺失的症状数据项,依次类推,直到数据得到补全。4 卷积神经网络模型 卷 积 神 经 网 络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法14-16不同于传统的处理此问题的深度学习方法(简单利用全
21、连接神经网络来进行数据分类)17-20,使用外积的方式将低维数据拓展为相对大的特征图,再使用卷积神经网络抽取高维特征,达到更好的分类效果。4.1卷积神经网络用于本文的两个主要步骤(1)提取数据的深度特征。将输入数据进行一系列的卷积、池化处理,从而得到数据深层的抽象的特征图。(2)由上述得到的特征图作为输入,通过一定深度的全连接网络和有效的分类器层,网络最终输出该样本的分类(预测)结果。4.2网络结构CNN通过卷积及池化操作,自身挖掘数据潜在的关联和特征,此黑盒过程模拟了生物视觉机制,能够有效抓捕数据的特点。全连接层及分类器层是机器学习领域用于分类任务较有效的方式,两者结合能高效地完成分类任务。
22、因此针对T2DM数据特点,结合CNN思想,搭建包含3个卷积层、2个池化层、1个全连接层和 1 个 sigmoid 分类层的卷积神经网络模型,如图1所示。因此,网络的输入数据为xnew,整个网络的前向传播过程可由式(3)确定:(y1,y2,y3,y4,y5,y6)=FC(Max_pooling2(conv3(conv2(Max_pooling1(conv1(xnew)(3)最终网络的输出向量(y1,y2,y3,y4,y5,y6),向量中每个数据yi代表该样本属于类别i的概率值。因此,样本的预测结果c c1,c2,c3,c4,c5,c6:c=(round(y1),round(y2),round(y
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 标签 分类 T2DM 预测 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。