基于机器学习的血脂新特征构建及其在冠状动脉粥样硬化中的应用.pdf
《基于机器学习的血脂新特征构建及其在冠状动脉粥样硬化中的应用.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的血脂新特征构建及其在冠状动脉粥样硬化中的应用.pdf(6页珍藏版)》请在咨信网上搜索。
1、临床信息学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan.2024据中国心血管健康与疾病报告 2021显示,2019 年我国农村、城市心血管病分别占死因的46.74%和 44.26%。每 5 例死亡中就有 2 例死于心血管病。推算心血管病现患人数 3.3 亿,其中冠心病1139 万。减少心血管疾病的发病率及死亡率重在预防,预防的关键在于找到合适的干预靶点。既往研究显示,血脂代谢异常及脂质沉积为冠状动脉粥样硬化的启动因素。改善血脂代谢异常为预防动脉粥样作者简介:左雨露(1987.11-),男,湖南湘潭人,
2、本科,主治医师,主要从事心血管内科疾病的临床工作基于机器学习的血脂新特征构建及其在冠状动脉粥样硬化中的应用左雨露袁吴 宇袁杨锦鹏袁赵梦梦渊惠州市中大惠亚医院心血管内科袁广东 惠州516081冤摘要院目的运用机器学习模型分析血脂谱袁构建血脂新特征袁找到可以整合血脂谱的方法遥方法筛选我院2021年6月-2022年6月收治的冠状动脉粥样硬化患者68例袁收集患者血脂谱中载脂蛋白B渊ApoB冤尧非高密度脂蛋白胆固醇渊N-HDL-C冤尧低密度脂蛋白胆固醇渊LDL-C冤尧高密度脂蛋白胆固醇渊HDL-C冤尧总胆固醇渊TC冤尧甘油三酯渊TG冤尧脂蛋白渊a冤Lp渊a冤数据袁查看患者冠脉造影结果袁采用改良的Gens
3、ini积分计算患者Gensini积分遥根据血脂谱中各成分的关系袁构建可解释的新特征-胆固醇指数遥将患者随机分为训练集尧测试集渊3:1冤袁运用随机森林模型袁通过观察曲线下面积渊AUC冤尧f1值尧精准度尧召回率尧准确率来验证构建的胆固醇指数对严重冠状动脉粥样硬化的预测价值遥结果共收集68例冠状动脉粥样硬化患者袁其中男48例袁女20例袁平均年龄渊57.96依11.33冤岁遥训练集和测试集的年龄尧TC尧ApoB尧N-HDL-C尧LDL-C尧HDL-C尧TG尧Lp渊a冤及胆固醇指数比较袁差异无统计学意义渊 跃0.05冤遥采用原始血脂谱袁应用随机森林模型预测严重冠状动脉粥样硬化的AUC为0.64渊95%院
4、0.410.80冤遥纳入构建的新特征胆固醇指数=ApoB伊(LDL-C+0.1伊(N-HDL-C-LDL-C)姨/HDL-C可很大程度的提高随机森林模型的预测效果袁其AUC为0.84渊95%院0.570.93冤袁且其f1值尧精准度尧召回率尧准确率都有不同程度的提升袁分别为0.83尧1.00尧0.71尧0.88遥结论胆固醇指数可有效的整合胆固醇数据袁提升随机森林模型对严重冠状动脉粥样硬化的预测效果遥关键词院机器学习曰随机森林模型曰血脂曰冠状动脉粥样硬化中图分类号院R541.4文献标识码院ADOI院10.3969/j.issn.1006-1959.2024.01.005文章编号院1006-1959
5、渊2024冤01-0029-06Construction of New Blood Lipid Features Based on Machine Learningand its Application in Coronary AtherosclerosisZUO Yu-lu,WU Yu,YANG Jin-peng,ZHAO Meng-meng(Department of Cardiovascular Internal Medicine,Huiya Hospital of the First Affiliated Hospital,Sun Yat-sen University,Huizhou5
6、16081,Guangdong,China)Abstract:Objective To analyze lipid profile and find a method that can integrate lipid profileusing machine learning.MethodsA total of 68patients with coronary atherosclerosis admitted to our hospital from June 2021 to June 2022 were screened.Apolipoprotein B(ApoB),non-high-den
7、sity lipoprotein cholesterol(N-HDL-C),low-density lipoprotein cholesterol(LDL-C),high-density lipoprotein cholesterol(HDL-C),totalcholesterol(TC),triglyceride(TG),lipoprotein(a)Lp(a)data in the blood lipid profile of the patients were collected.The results of coronary angiographywere reviewed,and th
8、e Gensini score of the patients was calculated by modified Gensini score.According to the relationship between the componentsin the blood lipid spectrum,an interpretable new feature-cholesterol index was constructed.The patients were randomly divided into training set andtest set(3:1).The random for
9、est model was used to verify the predictive value of the constructed cholesterol index for severe coronary atherosclerosisby observing the area under the curve(AUC),f1 value,accuracy,recall rate and accuracy rate.ResultsA total of 68 patients with coronaryatherosclerosis were collected,including 48
10、males and 20 females,with an average age of(57.96依11.33)years.There was no significant difference inage,TC,ApoB,N-HDL-C,LDL-C,HDL-C,TG,Lp(a)and cholesterol index between the training set and the test set(0.05).Using the originallipid profile,the AUC of the random forest model for predicting severe c
11、oronary atherosclerosis was 0.64(95%:0.41-0.80).The prediction effect ofthe random forest model was greatly improved using new feature cholesterol index=ApoB伊(LDL-C+0.1伊(N-HDL-C-LDL-C)姨/HDL-C,and itsAUC value was 0.84(95%:0.57-0.93),and f1 value,accuracy,recall rate,and accuracy are improved to vary
12、ing degrees,which were 0.83,1.00,0.71,and 0.88,respectively.Conclusion Cholesterol index can effectively integrate cholesterol data and improve the prediction effect of random forestmodel on the severity of coronary atherosclerosis.Key words:Machine learning;Random forest model;Lipids;Coronary ather
13、osclerosis29临床信息学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan.2024硬化的重要措施。目前临床常检验的血脂指标有总胆固醇(TC)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、载脂蛋白 B(ApoB)、甘油三酯(TG)、脂蛋白 aLp(a)等。LDL-C 为转运至血管壁的胆固醇,是脂质谱中致动脉粥样硬化的主要因素,而 HDL-C 为逆向转运的胆固醇,对心血管起保护作用,非高密度脂蛋白胆固醇(N-HDL-C)为TC-HDL-C,常作为控制心血管风险的备选干预靶点。
14、ApoB 是乳糜微粒(CM)、极低密度脂蛋白(VLDL)、LDL、Lp(a)的载脂蛋白之一,每一个 CM、VLDL、LDL、Lp(a)颗粒中均含有 1 分子 Apo B。血液 ApoB 含量代表着所有致动脉粥样硬化颗粒含量。目前使用的血脂数据种类繁多,给临床工作带来诸多不便。本研究运用特征工程的思想,构建可解释的胆固醇指数,以全面的反映胆固醇对冠状动脉粥样硬化的影响,并探讨运用这一整合了所有血脂数据的单一指标来预测严重冠状动脉粥样硬化的合理性,现报道如下。1资料与方法1.1 一般资料 收集 2021 年 6 月-2022 年 6 月惠州市中大惠亚医院收治的 68 例 2882 岁冠状动脉粥样硬
15、化患者,排除既往行 PCI、CABG 及外周动脉支架植入术患者,排除既往曾长期应用他汀类药物患者,排除肝功能损害、胆汁淤积、慢性肾脏病 CKD3期以上、甲状腺功能异常等疾病患者,排除合并严重全身性疾病患者,排除终末期疾病患者。收集患者血脂 谱中 ApoB、N-HDL-C、LDL-C、HDL-C、TC、TG、Lp(a)数据。查看患者冠脉造影结果,采用改良的 Gensini 积分1方法由 2 人共同计算患者 Gensini积分。1.2 方法 通过随机森林模型分析患者血脂谱对冠状动脉粥样硬化严重程度的预测价值。构建胆固醇指数,再次通过随机森林模型,分析加入胆固醇指数后血脂谱对严重冠状动脉粥样硬化的预
16、测价值。1.3 观察指标 运用随机森林模型绘制 ROC 曲线及计算 AUC 面积、f1 值、精准度、召回率、准确率,分析血脂谱对冠状动脉粥样硬化严重程度的预测价值。血脂谱为采集空腹静脉血,应用雅培 16000 生化分析仪运用直接法检测所得。冠状动脉 Gensini 积分为分析患者冠脉造影结果,采用改良的 Gensini 积分方法计算。1.4 统计学方法 采用 Python 3.10、sklearn 工具包、SPSS 20.0 软件进行数据分析。计量资料以(依)表示;运用随机森林模型,绘制 ROC 曲线,计算 AUC、f1 值、精准度、召回率、准确率,分析血脂谱对严重冠状动脉粥样硬化的预测价值。
17、约0.05 表示差异有统计学意义。2结果2.1 一般资料 68 例患者中男 48 例,女 20 例,平均年龄为(57.96依11.33)岁,TC 均值(4.94依1.11)mmol/L,LDL-C 均值(2.77依0.87)mmol/L,HDL-C 均 值(1.07依0.27)mmol/L,N-HDL-C 均值(3.88依1.03)mmol/L,ApoB 均 值(0.96 依0.21)mg/L,TG 均 值(1.76 依0.87)mmol/L,Lp(a)均值(294.40依272.94)mg/L,Gensini 积分均值(23.47依26.38)分。采用 Python split函数将病例随机
18、分为训练集和测试集,75%为训练集,共 51 例,25%为测试集,共 17 例。训练集和测试集的年龄、性别、严重冠状动脉粥样例数、TG、Lp(a)、TC、LDL-C、HDL-C、N-HDL-C、ApoB、胆固醇指数比较,差异无统计学意义(跃0.05),见表 1。项目年龄(岁)性别(男/女)严重/不严重TG(mmol/L)Lp(a)(mg/L)TC(mmol/L)LDL-C(mmol/L)HDL-C(mmol/L)N-HDL-C(mmol/L)ApoB(mg/L)胆固醇指数训练集(=51)58.39依11.5439/1220/311.72依0.84306.48依302.004.89依1.202.
19、75依0.911.06依0.303.84依3.990.94依0.231.63依0.52测试集(=17)56.65依10.939/87/101.88依0.98258.17依158.335.09依0.772.84依0.751.09依0.203.99依0.700.99依0.131.59依0.36统计值=-0.5502=3.4002=0.020=0.620=-0.630=0.770=0.360=0.470=0.680=0.940=-0.3200.5900.0700.8900.5400.5300.4500.7200.6400.5000.3500.750表1训练集和测试集一般资料比较渊 依 袁 冤30临床
20、信息学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan.20242.2 原始血脂谱对严重冠状动脉粥样硬化的预测价值 运用随机森林模型,绘制 ROC 曲线,计算 AUC面积,将 Gensini 积分超过均值 23.50 定义为严重冠状动脉病变。根据原始血脂谱数据,随机森林模型预测严重冠状动脉粥样硬化病变的 AUC 为0.64(95%:0.410.80),见图 1。2.3 构建新特征-胆固醇指数特征工程为机器学习的数据预处理过程,构建新特征为特征工程的重要内容。此研究新构建的特征胆固醇指数可表 示 为ApoB
21、伊(LDL-C+a伊(N-HDL-C-LDL-C)姨/HDL-C。其解释为:胆固醇的致动脉粥样硬化作用为含 ApoB 脂蛋白颗粒数与可致动脉粥样硬化胆固醇总量的共同作用,用(ApoB伊(LDL-C+a伊(N-HDL-C-LDL-C)表示,而且与 HDL-C 呈负相关,用(ApoB伊(LDL-C+a伊(N-HDL-C-LDL-C)/HDL-C 表示,为消除单位,分子取平方根。故最终公式为ApoB伊(LDL-C+a伊(N-HDL-C-LDL-C)姨/HDL-C。其中 a伊(N-HDL-C-LDL-C)表示 N-HDL-C 中除LDL-C 外可致冠状动脉动脉粥样硬化的胆固醇总量。N-HDL-C 中除
22、低密度脂蛋白胆固醇外,还包括CM 残余物、中间密度脂蛋白(IDL)等所含胆固醇,上述颗粒只有直径小于 70 nm 才有致动脉粥样硬化作用,所以 N-HDL-C-LDL-C 的系数 a 应小于 1。通过分析 a 取小于 1 的不同值时,随机森林模型预测严重冠状动脉粥样硬化的 AUC,发现当 a=0.1时,AUC 达到最大值,见图 2,故取系数 a=0.1,胆固醇指数=ApoB伊(LDL-C+0.1伊(N-HDL-C-LDL-C)姨/HDL-C。可以看出,不论系数 a 取小于 1 的何值,新特征都可提升随机森林模型的预测价值。ROC 曲线显示,纳入新特征胆固醇指 数ApoB伊(LDL-C+0.1伊
23、(N-HDL-C-LDL-C)姨/HDL-C,随机森林模型预测严重冠状动脉粥样硬化的 AUC为 0.84(95%:0.570.93),与原始血脂谱相比有很大提升(0.840.64),从特征重要性分析中得知,新构建的胆固醇指数为最重要的分类特征,其 Gini系数达到 0.40,见图 3。而且模型的 f1 值、精准度、召回率、准确率都有不同程度的提升,见表 2。图1原始血脂谱ROC曲线及特征重要性注:AUC 曲线下面积图2 a取不同值时的AUC面积31临床信息学第 37 卷第 1 期医学信息Vol.37 No.12024 年 1 月Journal of Medical InformationJan
24、.20243讨论血脂异常是动脉粥样硬化性疾病发生的启动因素。血脂是血浆中的胆固醇、甘油三酯和类脂等的总称,血脂与特殊的蛋白质即载脂蛋白结合形成脂蛋白溶于血液,被运输至组织进行代谢。目前临床常 用 血 脂 指 标 有 TC、N-HDL-C、LDL-C、ApoB、HDL-C、TG、Lp(a)等。目前不同血脂指南中涉及的血脂指标种类繁多,2020 年中国心血管病一级预防指南中推荐 LDL-C 作为评估 ASCVD 风险的指标和治疗靶点,同时也建议将 N-HDL-C、TC、HDL-C等控制到目标值2。中国血脂管理指南(2023 年)的推荐靶目标与之类似3。而国外指南如 2019ESC/EAS 血脂指南
25、、2021ESC 心血管病预防临床实践指南、2021 美国脂质协会关于血脂测量在心血管疾病中运用指南不仅将 LDL-C 作为血脂控制的首选靶目标,对 TC、HDL-C、N-HDL-C、ApoB、TG 都有相应的诊治意见提出4-6。多样的血脂指标给临床工作带来不便,本研究致力于将指南推荐的各种血脂指标整合为单一指标。脂蛋白依密度增加为序可分为CM(80100 nm)、VLDL(3080 nm)、IDL(2540 nm)、LDL(2025 nm)和 HDL(813 nm)4。在血液中,CM残余物和 IDL(也称为 VLDL 残余物)由 CM 和VLDL 水解转化而来。绝大部分 CM 残余物和少部分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 血脂 特征 构建 及其 冠状 动脉粥样硬化 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。