基于图节点动静态特征的健康事件预测模型.pdf
《基于图节点动静态特征的健康事件预测模型.pdf》由会员分享,可在线阅读,更多相关《基于图节点动静态特征的健康事件预测模型.pdf(6页珍藏版)》请在咨信网上搜索。
1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第10期总第338期文章编号:1006-2475(2023)10-0039-06收稿日期:2022-11-16;修回日期:2022-12-30作者简介:陈俊义(1998),男,广东惠州人,硕士研究生,研究方向:数据挖掘,E-mail:。0引言电子病历(EHR)是一种多变量时间序列数据,记录患者在医院的就诊数据,例如确诊疾病、各项抽检指标等1。研究人员根据EHR提供的宝贵数据对健康事件进行预测。对健康事件的准确预测有利于医生对患者进行预防性健康监测和实施个性化护理计划,降低医疗成本。近年来,由于卷积神经网络具有超强的特征表征学习
2、能力,许多利用EHR数据的深度学习模型被提出,以解决健康事件预测。现有工作大多采用时间任务模型。例如Bai等人2通过RNN模型挖掘EHR数据的时间特征。然而,时间序列模型将确诊疾病视为彼此独立,并没有考虑疾病之间的相互关系。患者一次就诊会产生一组生命体征数据和一组确诊疾病。因此,确诊疾病之间存在某种静态关系确诊疾病共享这组体征数据。如图1所示,患者的临床健康处在变化的过程,不同时间就诊所确诊的疾病组合不同。图中橘色节点表示当前就诊的确诊疾病,白色节点表示当前就诊未确诊的疾病。在每次就诊时,都需要挖掘疾病之间的动态关系、学习疾病的动态表征,以更好地挖掘确基于图节点动静态特征的健康事件预测模型陈俊
3、义(南京航空航天大学计算机科学与技术学院,江苏 南京 211106)摘要:随着电子病历(EHR)的广泛应用,基于深度学习的临床健康事件预测引起了众多研究者的关注。现有工作主要集中在挖掘患者的高阶时间特征,未能有效地学习疾病之间的隐关系。针对疾病表征学习的问题,本文提出一种新的疾病表示模型(Health Event Prediction Model Based on Dynamic and Static Features of Graph Nodes,DuDas)。该模型最终挖掘出的疾病隐表征包含静态和动态信息,最终实现对临床任务的预测。首先根据疾病共现频率构建疾病关系图,并通过one-hot编
4、码模块为每个疾病节点分配一个初始隐表征。然后根据静态挖掘模块挖掘疾病的静态表征,并与相应的初始隐表征融合为初始动态隐表征。根据图卷积模块挖掘疾病之间的动态关系,学习疾病节点的最终动态隐表征。由于患者的就诊记录具有时间性,本文使用门控循环单元来挖掘历史诊断信息与当前诊断信息之间的关系。为了验证本文提出的方法的有效性,在2个真实数据集上进行实验。实验结果表明,本文提出的模型在预测健康事件任务上达到了更高水平。关键词:疾病表征;动态表征;静态表征;图神经网络;特征融合中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.10.006Health Ev
5、ent Prediction Model Based on Dynamic and Static Features of Graph NodesCHEN Jun-yi(College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)Abstract:With the wide application of electronic healthcare records(EHRs),the prediction of clinical
6、health events based ondeep learning has attracted the attention of many researchers.The existing work mainly focuses on mining the higher-order temporal characteristics of patients,and fails to effectively learn the hidden relationship between diseases.Aiming at the problem ofdisease representation
7、learning,this paper proposes a novel disease representation model(Health Event Prediction Model Basedon Dynamic and Static Features of Graph Nodes,DuDas),through which the final hidden representation of disease mined by themodel contains static and dynamic information,and finally realizes the predic
8、tion of clinical tasks.Firstly,the disease graph isconstructed according to the disease co-occurrence frequency,and the initial hidden representation is assigned to each diseasenode by the one-hot coding module.Then,the static representation of the disease is excavated according to the static mining
9、module,and it is fused with the corresponding initial hidden representation as the initial dynamic hidden representation.The dynamic relationship between diseases is mined according to the graph convolution module to learn the final dynamic hidden representation of disease nodes.Due to the temporal
10、nature of patient visits,this article uses gated circulation units to mine the relationship between historical diagnostic information and current diagnostic information.In order to verify the effectiveness of theproposed method,we perform experimental verification on two real datasets.Experimental r
11、esults show that the proposed modelin this paper reaches the higher level in the task of predicting health events.Key words:disease representation;dynamic representation;static representation;graph neural network;feature fusion计算机与现代化2023年第10期诊疾病对当前就诊患者的影响。图1不同就诊记录中的确诊疾病组示意图近期,出现了少量从疾病关系进行构图建模的工作。例如
12、,Lu等人3构建疾病关系图,并通过图神经网络动态挖掘疾病在特征空间中的表示。然而,Lu并未考虑疾病之间的静态关系,因此需要使用多个关系图才能更好地挖掘疾病的隐表征,导致模型参数量过大、训练时间过长、预测性能较差。为了减少模型学习中使用关系图的数量,以降低模型的复杂度,本文提出一种融合疾病动态和静态信息的表征方法。首先,构建全局疾病节点图,然后设计一种动静态特征融合机制,挖掘疾病节点的隐表征,最后使用门控循环单元(GRU)挖掘历史诊断信息与当前诊断信息的关系。本文的主要工作归纳为2点:1)提出一种基于临床生命体征数据的疾病静态特征挖掘方法,并提出了一种基于one-hot的疾病编码方式。2)提出一
13、种有效的动静态特征融合机制,并通过实验对比各基线模型,验证本文模型的有效性。1相关工作1.1临床健康预测临床健康预测是指根据患者以往的就诊信息,例如就诊时间、疾病确诊情况、人口统计学信息等对患者未来的健康状况进行预测,例如ICU转移预测、ICU死亡风险预测、患者身体状况恶化预测等。现有的健康表征方法包括传统方法和深度学习方法。在过去几年中,EHR的临床数据量呈爆炸式增长,各种深度学习模型4-11被提出用于健康事件的预测。例如CCARNN12考虑时间的变化,并使用RNN基于挖掘的ECG特征来检测心力衰竭。然而,这些工作没有利用EHR数据中的疾病共现信息,因此无法挖掘疾病的隐特征,进而实现临床疾病
14、预测。1.2疾病关系图结构图结构存在于各种各样的现实世界场景中,分析这些图结构可以深入了解如何很好地利用隐藏在图结构中的隐信息13-15。近年的研究成果显示出图结构对EHR数据建模也具备有效性。例如,Shang 等人16提出一种新模型,它结合了图神经网络和BERT17的强大功能,用于医疗代码表示和药物推荐。尽管这些方法利用了 EHR 数据的各种图形结构,但它们并未对疾病本身进行建模。少量工作通过构建疾病之间的图关系,挖掘疾病之间的影响关系,进而学习疾病的隐表征。例如Lu等人3提出的Chet模型利用疾病的共现信息构建了1个全局疾病图和2个确诊疾病子图,通过图卷积网络动态地学习疾病节点的隐表征。然
15、而,Chet模型需要构建的子图过多,且未挖掘疾病的静态特征,不能很好地表征疾病,导致模型的预测性能较差。1.3时间关系挖掘在医疗保健领域,挖掘时间的依赖关系非常重要18-19。许多研究人员设计了不同的模型来挖掘可能的时间模式。基于RNN的模型在对复杂的EHR数据建模及预测方面,尤其在对慢性病相关任务的预测非常强大。然而,当时间序列跨度较长时,RNN模型会出现梯度爆炸和梯度消失等问题。为了解决这个问题,后续研究人员使用长短期记忆(LSTM)模型或门控卷积模型(GRU)替代RNN模型。2问题描述重症监护医疗信息MIMIC-是一个大型单中心数据库,包含生命体征数据、疾病诊断代码、住院时间和存活状态等
16、信息。本文模型使用到的符号如表1所示。表1本文模型使用的符号符号p Pv Vd=d1,dnrvp 0,1nRp=r1,r2,rvbvtp RfBvp=bv1p,bvTpOp=B1p,BTpE=Rp|p P H=Op|p P adicvdidhvdi注释患者,P是MIMIC-数据库的所有患者集合诊断,V代表患者p的所有就诊集合第v次就诊的诊断代码集合,n为诊断码数量,di表示诊断代码患者p在第v次就诊的疾病诊断结果,n为诊断码数量,若某疾病确诊,则其值为1,否则为0患者p的所有疾病诊断结果数据集患者p第v次就诊中,第t时刻的生命体征检测信息,f为体征特征的维数患者p在第v次就诊的T次体征监测信息
17、集合患者p的所有就诊体征信息数据集所有患者的就诊数据集EHR所有患者的体征信息数据集疾病di的静态表征疾病di的初始隐特征疾病di的动态隐表征本文的预测任务可以表示为:给定某患者的疾病诊断结果数据集Rp及就诊体征信息数据集Qp,预测在第 v+1 次就诊中,患者是否患有心力衰竭 yv+10,1。确诊疾病未确诊疾病record 1record 2record n402023年第10期3动静态特征融合(DuDas)模型在本章中,将阐述本文提出的DuDas模型的详细技术。如图2所示,DuDas模型由5个部分组成:静态挖掘模块、one-hot编码模块、特征融合模块、图卷积模块和GRU模块。图2DuDas
18、模型框架图3.1疾病节点的静态表征患者每次就诊会确诊出一组疾病,同时患者会在间隔均匀的多个时间步长上接受对生命体征信息的监测。即患者单次就诊记录包含多个临床体征信息序列和一组确诊疾病。由于二者存在一对多或多对多的映射关系,为了挖掘二者的内在关联性,本文给出一种随机抽样取均值的方法来更好地实现疾病与生命体征信息二者的一一映射。具体方式如下:在所有患者的体征信息数据集H中,随机选取条K与确诊疾病di相对应的生命体征时序数据:Hs=bjkl|l P,j V,k T,bjkl 0f(1)然后根据此数据集合取平均值:adi=1KHs(2)生命体征监测信息反映了患者的临床健康状况,定义上述方式挖掘的隐特征
19、adi为疾病节点的静态表征。那么,所有疾病的静态表征为As=adi|di d。3.2构造全局疾病图构造一个无向图来表示疾病之间的共现关系。图节点是疾病,图边权重是2种疾病的共现频率。统计数据集E的Rp中疾病节点di与dj的共现次数,然后据此计算共现频率。由于疾病的共现关系可能是偶然的,使用阈值来过滤掉偶然发生的共现疾病对。对于疾病节点di,其相邻节点的集合为:i=dj|wijj=1nwij (3)其中,wij表示疾病节点di与dj的共现频数。则其相邻节点共现的总频数为:wi=dj iwij(4)使用邻接矩阵MRnn表示疾病图的连接关系:Mij=0,(i=j)or(wijwi)wijwi,oth
20、erwise(5)3.3图卷积层图卷积网络(GCN)20用于节点分类21-22和网络嵌入23-24等任务中挖掘拓扑图结构节点的特征。它基于拉普拉斯矩阵图的分解实现频域滤波:g*G(X)=g(L)X=Ug()UTX(6)其中,=diag(1,N)RN N,L=UUT是图拉普拉斯矩阵,U是G的傅里叶基,X是输入信号。因此原始的GCN依赖于拉普拉斯矩阵L的分解。通过如下方式,可实现快速GCN:g*G(X)=g(L)X m=0M-1mCm(L)X(7)其中,m是模型参数,m=0,M-1是切比雪夫多项式Cm(L)的顺序。Cm(L)取值如下:Cm(L)=2LCm-1(L)-Cm-2(L),C1(L)=L,
21、C0(L)=IN(8)为了方便计算,令L=2maxL-IN。当M=2,max 2时:g*G(X)(IN+D-12AD-12)X(9)其中,A是无向图的邻接矩阵,D是可训练权重矩阵参数。令A表示带自环的归一化邻接矩阵,Z 表示输出,则图卷积层被定义为:Z=AX(10)患者的临床健康是动态变化的,针对患者的每次就诊数据,需要动态地挖掘疾病之间的隐关系。在这个步骤通过GCN动态自适应学习的隐表征,定义为疾病节点的动态表征。本文使用one-hot向量来表示疾病节点,以区分不同的疾病。但是one-hot表征的缺点是明显的稀疏性,容易导致维度灾难。为了解决这个问题,需要将one-hot向量映射到低维向量空
22、间。one-hot本身不包含节点隐特征信息,模型通过学习一个向量查找表,压缩one-hot向量,使该向量富含高阶隐信息。如图3所示,疾病节点di的one-hot表征为ei,本模型需要学习的查找表为M Rf n,则第 v 次就诊时,疾病的初始隐特征为cvdi Rf 1,其中n为疾病节点的个数,f为隐向量的维度。如上所述,疾病具有静态和动态表示。对于患者的第v次就诊记录,同时考虑疾病节点的静态和动态表示,并学习一个可以更好表示节点的动态隐向量dhvdi Rf。受残差结构设计的启发,将adi与cvdi融合为第v次就诊时疾病节点的初始动态隐表征dhv0di=adi+cvdi。GRU模块图卷积模块特征融
23、合模块静态挖掘模块one-hot编码模块EHR数据集timevisit 1visit 2visit 3visit tytvaluevaluevaluefeaturefeaturefeaturerandtKrandt2randt1001-00.150.42 0.91010-0000-1001-00.810.66 0.320.570.23 0.930.440.18 0.69f1f2f3f4f5f6fNf1f2f3f4f5f6fNf1f2f3f4f5f6fN陈俊义:基于图节点动静态特征的健康事件预测模型41计算机与现代化2023年第10期图3查找表压缩one-hot向量示意图本文构建一个图卷积模块来
24、挖掘疾病节点之间的动态相关性。图卷积操作可以聚合每个节点与其邻居节点的特征。图卷积操作的输入是疾病节点的初始动态隐表征。通过图卷积操作后,疾病节点di的最终动态隐表征为:dhvldi=GCN(dhvl-1di)=(Mdhvl-1diW+b)(11)令l1=n,l2=f,则查找表M Rl1 l2,b Rf是偏差参数。于是在第v次就诊记录中,经过图卷积层的操作,所有疾病节点的最终动态隐表征为:DHv=dhvd1,dhvdn Rf n(12)3.4门控循环单元挖掘时间依赖医生在看诊时,不仅关注当前就诊记录,还会回顾患者以前的病史记录。因此在医疗健康预测任务中,挖掘就诊序列之间的时间依赖十分必要。本模
25、型使用GRU学习时间动态的长短依赖。使用GRU进行挖掘前后疾病的表征分别称为动态隐表征DHv Rf n与最终隐表征Hv Rf n。初始时,令第 0次就诊的疾病隐表征为H0=0。由于Hv包含第v次就诊中所有疾病节点的隐表征信息,本文使用最大池化层来计算第v次就诊的表示向量Vv=max_pooling(Hv)Rf 1。然后,使用局部注意力来计算每个患者的隐表征F:=softmax(V1,VvW)Rf 1(13)F=V1,VvT Rf 1(14)最后使用带sigmoid激活函数的全连接层作为分类器对F进行分类,以用于特定任务的最终预测。4实验设计4.1任务使用本文提出的模型解决心力衰竭预测任务,并用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 节点 静态 特征 健康 事件 预测 模型
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。