基于SMOTE的神经外科患者输血机器学习预测模型建立.pdf
《基于SMOTE的神经外科患者输血机器学习预测模型建立.pdf》由会员分享,可在线阅读,更多相关《基于SMOTE的神经外科患者输血机器学习预测模型建立.pdf(4页珍藏版)》请在咨信网上搜索。
1、医药前沿 2024年3月 第14卷第7期 综合医学 143基于 SMOTE 的神经外科患者输血机器学习预测模型建立刘 威1,熊 伟2,刘 强2(通信作者)(1 南昌大学第一附属医院输血科 江西 南昌 330006)(2 南昌大学第一附属医院信息处 江西 南昌 330006)【摘要】目的:采用过采样-机器学习算法的神经外科患者输血预测模型建立,指导临床用血决策。方法:选取2015 年 1 月2018 年 12 月南昌大学第一附属医院收治的 9 006 例神经外科手术患者为研究对象。通过缺失值、异常值处理及特征筛选共纳入 27 个特征,采用合成少数过采样算法(SMOTE)包括 Borderline
2、-SMOTE、SVM-SMOTE 对逻辑回归、随机森林、XGboost 和 LightGBM 模型 4 种机器学习算法的优化升级,以探索最佳神经外科患者输血预测模型。结果:未使用过采样方法前的 4 种模型预测结果显示 lightGBM 模型效果最佳,随机森林模型效果最差,F1-score 值仅为0.659 2。采用2种过采样方法对4种模型进行3种比例的过采样比较,结果显示过采样后4种模型观测均有明显提升。在模拟比例相同模型中 Borderline-SMOTE 对逻辑回归、XGBoost 模型提升最大;SVM-SMOTE 对随机森林、lightGBM提升最大;过采样后仍是 lightGBM 模型
3、效果最佳,F1-score 值可达到 0.924 8。结论:过采样算法可有效提升现有不平衡数据的机器学习模型预测效果,SVM-SMOTE 和 lightGBM 的模型在神经外科手术患者临床用血中的预测效果较好。【关键词】临床输血;预测模型;过采样;机器学习算法【中图分类号】R826.2【文献标识码】A【文章编号】2095-1752(2024)07-0143-04血液输注是保障创伤性失血性休克或术中大量失血患者救治成功率的重要辅助手段1。研究显示,神经外科患者术前贫血率可高达 20%,且贫血术前患者术中输血率与输血量均明显高于未贫血患者2。但有研究显示红细胞输注与输血相关并发症与不良预后相关,如
4、免疫抑制、术后感染与肾损伤3-5,输血的收益与风险关系尚不明确。因此,准确评估与预测神经外科患者术中输血风险,做出最佳输血治疗决策对患者临床救治意义重大。随着互联网+、大数据、云计算等新兴信息技术的飞速发展,基于大数据的数据分析挖掘、机器学习和人工智能技术在医疗领域中有着极大的应用前景6-7。数据是是机器学习和人工智能的基础,但由于医疗行业的特殊性,医疗数据不平衡的问题变得尤为突出。若不对医疗数据中类别分布的不平衡问题进行处理,将会使得多数类淹没少数类,得不到好的分类效果或预测模型效果不佳8-9。因此,本研究将通过不同过采样技术处理不平衡数据,再使用逻辑回归、随机森林、XGboost 和Lig
5、htGBM 模型对数据集南昌大学第一附属医院神经外科患者术中用血病例资料进行挖掘分析,探讨过采样处理的不同分类模型下的分类结果,建立患者术中用血随机森林预测模型,以期为手术患者临床输血治疗决策提供建议和指导。1 资料与方法1.1 一般资料利用手术麻醉管理系统和临床用血管理与评价信息系统检索南昌大学第一附属医院 2015 年 1 月2018 年12 月的所有神经外科手术成年患者的资料。患者所有临床资料均来源于医院病案系统、医院信息系统、临床检验信息系统和临床用血管理与评价信息系统数据库。选取的临床资料包括患者年龄,性别,体重,检验指标,手术等级,手术次数,麻醉方式,术前是否输血,术中输血量。纳入
6、标准:(1)接受神经外科手术患者;(2)无传染病。排除标准:(1)年龄 18 岁;(2)病例资料存在缺失的患者。1.2 特征处理与选择1.2.1 缺失值与异常值处理 为了保证数据的完成性与可靠性,选取了缺失值占比小于等于 10%的特征,其他缺失特征根据数据特征使用中位数、平均数和多重回归插补等方法填充。使用3与人工判断原则处理异常值,在数据基本符合正态分布的基础上认为特征值在(3)之外的数据为极端值,将识别出的极端值进行删除或以缺失值模式填充。其中 为该特征的均值,为该特征的标准差。1.2.2 纳入数据概况 经数据提取并行转列处理后共纳入 9 006 条患者数据,数据以患者住院 ID 作为唯一
7、标识。将初步处理后的数据通过患者ID连接患者输血数据、患者手术情况以及患者基本信息数据,形成一个包含检查-输血-手术-患者基本信息的完整数据集,见表 1。1.2.3 不平衡数据规模设置 采用神经外科不平衡数据集,根据是否输血的类型分布,在实验中模拟出不同比例的不平衡数据集,见表 2。基金项目:江西省重点研发计划项目(20192ACB50014);江西省卫生健康委员会科技计划项目(202130327)。144 医药前沿 2024年3月 第14卷第7期 综合医学表 1 患者指标维度框架一级指标二级指标指标说明患者个体因素患者 ID 性别年龄手术次数患者是否术前输血患者是否术中输血已知输血影响因素红
8、细胞计数(red blood cell count,RBC)血常规血红蛋白(hemoglobin,HB)血小板计数(platelet count,PLT)红细胞压积(hematocrit,HCT)凝血酶原时间(prothrombin time,PT)凝血功能活化部分凝血活酶时间(activated partial thromboplastin time,APTT)国际标准化比例(international normalized ratio,INR)纤维蛋白原(fibrinogen,FIB)D-二聚体手术因素手术名称失血量手术等级是否全麻是否局麻是否复合麻醉其他指标 谷氨酰转移酶肝功能丙氨酸氨基
9、转移酶丙肝核心抗原传染病指标乙肝 e 抗体等表 2 两种样本数量比例比例规模未输血样本数量输血样本数量原数据比例6 9232 083少数类样本 26 9234 166少数类样本 36 9236 249比例相同6 9236 9231.3 过采样算法合成少数过采样技术(synthetic minority over-sampling technique,SMOTE)的主要思想便是在原有少数类数据的基础上对其进行复制,或通过某种手段合成新的数据来达到扩充少数类数据的目的从而平衡整个数据集。本研究采用的过采样算法包括 Borderline-SMOTE、SVM-SMOTE。1.4 统计学方法采用 Pyt
10、hon 语言统计软件进行对数据进行处理。符合正态分布的计量资料用均数 标准差(x s)表示,组间比较采用 t 检验;不符合正态分布的计量资料用中位数和四分间距M(IQR)表示,两组间比较采用Mann-Whitney U 检验。计数资料采用频数表示,组间比较采用2检验,当理论频数小于 5,改用 Fisher 确切概率法;等级资料比较采用秩和检验。在模型构建中以7 3 的比例将数据集分为训练集与测试集,采用逻辑回归、随机森林、XGBoost、lightGBM 等 4 种模型作为建模算法,然后选择 Borderline-SMOTE、SVM-SMOTE两种方法对数据进行过采样,并采用受试者工作特征(r
11、eceiver operating characteristic,ROC)曲线、ROC 曲线下面积(area under curve,AUC)、F1-score 值、召回(Recall)率和精确率对模型进行预测准确度分析。P0.05为差异有统计学意义。2 结果2.1 输血组与未输血组患者的基本资料比较根据输血组与未输血组患者的基本资料比较结果,筛选出两组比较存在差异的特征共 27 个,见表 3。表 3 输血组与未输血组患者的基本资料比较指标训练集(n=6 304)测试集(n=2 702)未输血组(n=4 878)输血组(n=1 426)U/2P未输血组(n=2 045)输血组(n=657)U/
12、2P年龄M(IQR),岁52.8(13.5)55.1(13.1)5.70 0.0153.3(13.5)54.7(13.2)2.260.02红细胞M(IQR),1012/L4.1(0.7)4.0(0.8)3.87 0.014.0(0.7)4.0(0.8)1.550.12血小板M(IQR),109/L221.5(79.5)201.3(75.0)12.21 0.01221.7(75.3)204.0(77.1)7.94 0.01血红蛋白M(IQR),g/L130.2(18.6)128.5(20.9)3.22 0.01130.5(19.0)129.1(21.0)1.590.11红细胞比积M(IQR)0.
13、4(0.1)0.4(0.1)3.77 0.010.4(0.1)0.4(0.1)1.910.056白细胞M(IQR),109/L7.9(4.4)10.3(6.1)13.73 0.017.9(4.4)10.4(5.7)11.65 0.01淋巴细胞M(IQR),109/L1.5(0.7)1.3(0.7)8.40 0.011.5(0.7)1.3(0.7)5.03 0.01单核细胞M(IQR),109/L0.5(0.3)0.5(0.3)6.06 0.010.5(0.3)0.5(0.3)4.91 0.01嗜中性粒细胞M(IQR),109/L5.9(4.4)8.5(5.9)17.68 0.016.0(4.4
14、)8.5(5.7)11.99 0.01凝血酶原时间M(IQR),s11.0(1.1)11.2(2.0)8.12 0.0110.9(1.0)11.2(2.5)4.26 0.01国际标准化比率M(IQR)1.0(0.1)1.0(0.1)4.54 0.011.0(0.1)1.0(0.2)2.68 0.01总胆红素M(IQR),mol/L10.2(5.7)11.9(7.3)9.47 0.0110.1(5.7)11.5(6.5)5.22 0.01直接胆红素M(IQR),mol/L2.9(2.0)3.6(3.1)9.48 0.012.9(1.9)3.4(2.5)6.25 0.01天门冬氨酸氨基转移酶M(I
15、QR),U/L26.2(33.1)29.5(23.0)3.45 0.0126.9(22.3)29.9(22.2)3.05 0.01肌酸激酶M(IQR),U/L151.2(527.6)227.7(752.5)4.34 0.01160.5(644.5)218.2(464.4)2.120.034医药前沿 2024年3月 第14卷第7期 综合医学 145表 3(续)指标训练集(n=6 304)测试集(n=2 702)未输血组(n=4 878)输血组(n=1 426)U/2P未输血组(n=2 045)输血组(n=657)U/2P肌酸激酶MB同功酶 M(IQR),U/L18.3(10.4)22.6(22.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 SMOTE 神经外科 患者 输血 机器 学习 预测 模型 建立
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。