基于血细胞分析数据的老年脑梗死疾病风险预测模型研究.pdf
《基于血细胞分析数据的老年脑梗死疾病风险预测模型研究.pdf》由会员分享,可在线阅读,更多相关《基于血细胞分析数据的老年脑梗死疾病风险预测模型研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、DATA ANALYSIS AND UTILIZATION 数据分析利用819CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT北京中医药大学附属护国寺中医医院检验科,北京市,100035作者简介:周燕红(1975),女,本科,主管检验师;研究方向:医学检验;E-mail:通信作者:郝若飞(1982),男,本科,主任,副主任技师;研究方向:医学检验;E-mail:通信作者doi:10.3969/j.issn.1672-5166.2023.05.024基于血细胞分析数据的老年脑梗死疾病风险预测模型研究周燕红 郝若飞文章编号:1672-5166
2、(2023)05-819-07中图分类号:R-34;R319文献标志码:A摘要目的 探索应用神经网络技术,基于血细胞分析数据,建立老年脑梗死(CI)疾病预测模型。方法 收集2021年1月至12月北京中医药大学附属护国寺中医医院540例老年CI患者数据、9 994例健康体检者数据。基于神经网络技术,将性别、年龄和血细胞分析结果作为特征构建疾病预测模型,并优化模型特征参数。结果 构建了老年CI预测模型。采用24个特征、7个特征和5个特征建立的预测模型,受试者工作特征曲线下面积分别为0.957、0.959和0.917,测试集准确度分别为0.890、0.895和0.855。结论 本研究建立的老年CI预
3、测模型均能够很好区分CI患者和健康人,能有效缩短老年CI患者的诊断时间窗,将具有较好的应用 前景。关键词脑梗死 机器学习 神经网络 血细胞分析A Study on the Risk Prediction Model of Cerebral Infarction in the Elderly Based on Full Blood Count DataZHOU Yanhong,HAO RuofeiDepartment of Clinical Laboratory,Huguosi Hospital of Traditional Chinese Medicine Affiliated to Beij
4、ing University of Chinese Medicine,Beijing 100035,ChinaAbstractObjective To explore the application of neural networks technology and full blood count data to establish the prediction model of cerebral infarction(CI)disease in the elderly.Methods From January to December 2021,540 elderly patients wi
5、th cerebral infarction and 9,994 healthy subjects were collected from Huguosi Traditional Chinese Medicine Affiliated to Beijing University of Chinese Medicine.Based on neural networks technology,gender,age and full blood count data were used as features to construct a prediction model,and the model
6、 feature parameters were optimized.Results An elderly CI prediction model was developed.The prediction models area under the ROC curve(AUC)for 24 features,7 features,and 5 features was 0.957,0.959,and 0.917,respectively;and the test set accuracy was 0.890,0.895,and 0.855,respectively.Conclusion The
7、prediction models established in this study can well distinguish CI patients from healthy people,and can effectively shorten the diagnostic time window of CI patients in the elderly,which will Chinese Journal of Health Informatics and Management,October 2023,Vol.20,No.5 中国卫生信息管理杂志2023年10月第20卷第5期820中
8、国卫生信息管理CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENThave a wide application prospect.Keywordscerebral infarction;machine learning;neural networks;full blood count0 引言脑梗死(cerebral infarction,CI)又称缺血性脑卒中,由多种原因引起,可使脑组织形成不可逆转性损害,致残率和致死率高,严重威胁患者生命安全,降低患者生活质量。该病多发于中老年人,一旦发生急性脑梗死(acute cerebral infa
9、rction,ACI),若未得到及时救治,可危及生命。目前,ACI 已成为我国老年群体主要的致残、致死性疾病1-3。尽早发现、及时救治,提升我国脑卒中患者的康复率,降低致残率,减少疾病带来的次生伤害,成为重点关注的问题。目前,临床上对ACI 主要通过询问病史、观察症状,并结合影像学结果进行诊断4,但对于临床症状不典型的 ACI 患者存在漏诊风险。因此,寻找简便、有效的疾病预测方法,尽早识别,及时采取干预措施对患者的治疗和预后具有重要的临床实际意义。目前,机器学习技术已成为精准医学强有力的助手。其中的神经网络算法可以对目标函数进行有效模拟,进而创建计算机学习识别高维数据的模式。国内外多项研究5-
10、8将神经网络算法运用到疾病预测领域,均取得了较好的成效。本研究拟采用患者基础信息及血细胞分析结果,基于机器学习的神经网络算法建立老年患者脑梗死预测模型,助力临床早期及时地进行 ACI 诊断和治疗,降低患者风险,改善预后。1 材料和方法1.1 研究资料数据来源于北京中医药大学附属护国寺中医医院电子病历系统数据库。选取年龄 60 岁的老年人作为研究对象,以数据库中的出院诊断信息和疾病和有关健康问题的国际统计分类第十版(ICD-10)作为数据采集依据。纳入标准:(1)脑梗死患者选取出院诊断为 CI 和 ACI 的患者,且确定为 ICD-10 的疾病类型。并且,符合中华医学会中国急性缺血性脑卒中诊治指
11、南(2018)诊断标 准3,具有急性起病、局灶性或全面性神经功能缺损的临床特征,持续 24h 以上,排除非血管性病因,经头颅CT 或核磁共振检查排除脑出血;患者为首次发作。(2)健康人选取出院诊断为健康体检者,无 CI 病史且检验结果无异常。采集性别(sex)、年龄(age)及检验科血细胞分析 22 项结果,作为模型的 24 个特征。其中,血细胞分析 22 项为红细胞计数(RBC)、血红蛋白(HGB)、红细胞比积(HCT)、红细胞平均体积(MCV)、红细胞血红蛋白含量(MCH)、红细胞血红蛋白浓度(MCHC)、红细胞分布宽度变异系数(R-CV)、白细胞计数(WBC)、中性粒细胞相对值(NEUT
12、%)、中性粒细胞绝对值(NEUT#)、淋巴细胞相对值(LYMPH%)、淋 巴 细 胞 绝 对 值(LYMPH#)、单 核 细 胞 相 对 值(MONO%)、单核细胞绝对值(MONO#)、嗜碱粒细胞相对值(BASO%)、嗜碱粒细胞绝对值(BASO#)、嗜酸粒细胞相对值(EO%)、嗜酸粒细胞绝对值(EO#)、血小板计数(PLT)、血小板分布宽度(PDW)、血小板体积(MPV)和血小板压积(PCT)。数据均已脱敏,去除患者隐私信息,本研究不涉及伦理问题。1.2 数据处理1.2.1 数据质量控制检查是否存在数据不符合要求或不可用的情况,包括异常值、数据缺失、含有特殊符号等。剔除不一致和重复的数据。对于
13、缺失率 5%的参数,采用拉格朗日插值法进行补充。1.2.2 数据处理首先,对特征数据集进行归一化处理,形成机器学习结构数据;其次,采用零均值方法将数据进行标准正态转换;再次,将研究数据划分为训练集、验证集和测Chinese Journal of Health Informatics and Management,October 2023,Vol.20,No.5 中国卫生信息管理杂志2023年10月第20卷第5期DATA ANALYSIS AND UTILIZATION 数据分析利用821试集;最后,采用 SMOTE 方法9进行数据平衡,依据样本距离进行数据模拟,实现脑梗死患者与健康人数据量对等
14、。1.3 模型构建及优化通过分层随机抽样,将研究数据划分为训练集、验证集和测试集,并保证数据集采样的同分布。其中,训练集和验证集人数比例为 9 1,训练集用于模型建立,验证集用于评估和调整模型,并确定超参数以获得最佳效果模型。测试集为独立选出的 100 个脑梗死患者数据和100 个健康人数据,不参与模型建立,用于测试模型准确性,并确认模型的预测效果。为实现监督学习分类的临床预期,采用神经网络分类器进行模型训练和验证。同时,进行模型优化,包括:神经网络层数、每层神经元数量及隐藏层激活函数。神经网络算法原理见图 1。图 1 神经网络算法原理1.4 特征分析及筛选1.4.1 特征分析比较模型构建参数
15、的数据分布情况(包括CI患者数据和健康人数据),并分析各参数对预测模型的贡献。1.4.2 特征筛选采用患者性别、年龄及血细胞分析 22 项结果,共 24 个特征构建预测模型,绘制 Shapley 附加解释器(Shapley additive explanations,SHAP)图展示各特征对于预测的贡献度。而后,采用递归特征消除交叉验证(recursive feature elimination cross validation,RFECV)方法10筛选特征。最后,通过计算各个特征之间的 Pearson 相关系数,删除共线性大于 0.9 和 0.8 的特征。1.5 统计方法采用 python3
16、.7 进行模型构建及验证。使用受试者工作特征曲线(receiver operating characteristic,ROC)评估模型预测能力,并分析曲线下面积(area under the curve,AUC)11、召回率(Recall)、F1 分数(F1-score)、误报率、阳性预测值和阴性预测值等指标,评估模型性能。正态分布的参数采用t检验进行比较,并以均值 标准差表示;非正态分布参数采用非参数检验(Mann-Whitney U检验)进行比较。双侧 P 0.05 为差异具有统计学意义。2 结果2.1 数据提取及特征筛选2.1.1 数据提取 本研究收集了北京中医药大学附属护国寺中医医院自
17、 2021 年 1 月1 日至 12 月 30 日确诊为 CI、年龄 60 岁的 553 例老年患者的数据,以及该医院同时期 10 534 例老年人的健康体检数据。通过数据过滤、剔除流程,最终纳入 540 例老年 CI 患者数据、9 994 例健康人数据。两组患者性别存在统计学差异(2=69.9,P0.001),CI 男 性(66.3%)占比大于健康人(47.8%);脑梗死患者与健康人的平均年龄无明显差异(2=2.514,P=0.082)。2.1.2 特征筛选利用 RFECV 方法计算每个特征的重要性,再根据共线性剔除 0.9 以上和 0.8 以上的特征,分别剩余 7 个特征和 5 个特征。2
18、.2 预测模型诊断效能在区分老年人中的 CI 患者和健康人时,观察模型神经网络标签的预测结果。模型训练的步长为 1 024,epochs 为 5。采用 24 个特征(年龄、性别和血细胞分析 22 项)的模Chinese Journal of Health Informatics and Management,October 2023,Vol.20,No.5 中国卫生信息管理杂志2023年10月第20卷第5期822中国卫生信息管理CHINESE JOURNAL OF HEALTH INFORMATICS AND MANAGEMENT型训练集和测试集准确度分别为 0.985 和 0.890,训练集
19、和测试集损失函数的损失值(Train Loss 和 Test Loss)分别为 0.039 和 1.674,AUC 可达 0.957,见图 2;采用 7 个特征(年龄、性别、PDW、MPV、MCHC、LYMPH%和 HCT)的模型训练集和测试集准确度分别为 0.972 和 0.895,训练集和测试集损失函数的损失值(Train Loss 和 Test Loss)分别为 0.069 和 0.987,AUC 可达 0.959,见图 3;采用 5 个特征(年龄、性别、PDW、MPV 和 MCHC)的模型训练集和测试集准确度分别为 0.908 和 0.855,训练集和测试集损失函数的损失值(Train
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 血细胞 分析 数据 老年 脑梗死 疾病 风险 预测 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。