Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用.docx
《Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用.docx》由会员分享,可在线阅读,更多相关《Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用.docx(15页珍藏版)》请在咨信网上搜索。
1、 Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用 荣小辉摘 要:当前机器学习应用渐趋成熟,如何结合算法优势与医学研究特点是有效应用的关键。统计方法一直在预测精度与可解释性上做平衡,而医学问题多数情况下对可解释性具有较高的要求。Lasso回归模型通过将某些不相关变量的回归系数压缩到零的方法,可以有效的筛选出与研究结果相关的变量。通过缩小变量范围,增加模型的可解释性,尤其有利于医学问题的简化和医疗工作者的人工应用。本文将简要介绍Lasso回归模型的原理,并应用于糖尿病进展的多元变量筛选。在取得相近预测精度的前提下,将自变量由10个简化到4个,极大的提高了模型的简洁性与实用度。关键
2、词:Lasso回归;变量选择;数据挖掘;糖尿病:O212.1 :A :1671-2064(2017)24-0026-041 背景作为多变量回归问题的经典方法,最小二乘法一直得到广泛的应用。醫学问题往往都是涉及很多变量的复杂问题。哪个变量与研究结果紧密相关,哪个变量对研究结果其实毫无影响,了解其中含义在研究中具有关键的指引作用。最小二乘法可以得到哪些变量具有显著性的数据,但对那些不具有显著性的变量,无法判断是否应该从模型中删除哪个变量。由于有变量的共线性等问题,直接删除某些不显著变量,再建立最小二乘法多元回归模型会有很大的风险丢失重要变量,而且预测的精度也无法得到保证。Lasso回归模型通过将回
3、归系数压缩到零,实现了变量的有效选择1。最小二乘法采用最小化RSS的方法,来求得变量回归系数。而Lasso回归在最小二乘法RSS的基础上增加了一个惩罚项,是各回归系数的绝对值之和乘以参数lambda。通过最小化RSS与惩罚项的和来求得变量回归系数。当参数lambda为0时,Lasso回归与最小二乘法没有区别。当参数lambda逐渐增加,模型开始将回归系数向0压缩,当参数lambda足够大时,所有变量的系数将都被压缩到0。随着参数lambda的变化,各变量的回归系数也会跟着改变。所以选择一个合适的参数lambda对Lasso回归模型至关重要,如何选择参数lambda又要在预测精度与可解释性上做平
4、衡2。在预测精度可接受的范围内,选择一个比较大的参数lambda,将会得到一个尽可能精简的变量与模型。医学问题经常是复杂的多变量问题,在某些问题中往往有非常多的变量,这些变量之间的关系多样,有很大可能存在共线性或其他相互影响关系。在医学实践中取得大量样本数的机会通常会比较少,如果样本量不能远远大于变量数,而且多数变量与结果没有什么关系的情况下,最小二乘法多元回归将不能得到较好的预测结果。当样本量小于变量数时,甚至无法使用最小二乘法建立模型。在大数据时代,医学问题的变量数急剧增加。例如,新的全基因组扫描等方法可以轻松产生上万个变量,而医学研究的样本很难有快速的增长,这将导致样本量小于变量数的情况
5、。在这些情况下,Lasso回归模型可能既提高预测的精度,又通过变量筛选来简化模型。糖尿病的进展,可能会带来很多的并发症,这些并发症对患者的健康有重大影响。如果准确的预测出患者病情进展,提前采取多种措施,从诊断开始就对患者诊疗进行干预,可以取得很好的效果。2 资料与方法本文采用www4.stat.ncsu.edu下载的糖尿病数据集,有442个样本,11个变量,其中10个自变量,(AGE年龄BMI 身体质量指数BP收缩压与舒张压的均值SEX,1为女,2为男,LTG、TC、LDL、HDL、TCH、GLU是六个血生化指标)一个因变量Y。10个自变量是糖尿病确诊时的数据,因变量Y是一年后医生对患者糖尿病
6、严重程度的评分,分数越高病情越严重。通过对该数据集建立模型,可以根据糖尿病确诊时的数据,预测一年后患者的病情严重程度。本文使用R语言既相关的分析包glmnet,在最小二乘法回归模型十折交叉验证中使用了分析包dplyr3。数据集变量情况描述表1所示。2.1 Lasso回归(1)参数lambda取最佳预测准确时的值,Lasso模型和预测精度。使用glmnet()函数建立lasso模型,必须用一个x矩阵和一个y向量。Diabetes是该糖尿病数据集在R中的数据框名称。如图1所示,各个变量系数随参数lambda增大逐渐被压缩到0(L1 Norm随参数lambda减小而增大),意味着该变量被模型排除。x
7、 - model.matrix(Y.,diabetes),-1y - diabetes$Ylibrary(glmnet)grid - 10seq(10,-2,length=100)set.seed(1)train - sample(1:nrow(x), nrow(x)*9/10)test - (-train)y.test - ytestlasso.mod -glmnet(xtrain,ytrain,alpha=1, lambda=grid)plot(lasso.mod)set.seed(123)cv.out - cv.glmnet(xtrain,ytrain,alpha=1)plot(cv.o
8、ut)bestlam - cv.out$lambda.minlasso.pred - predict(lasso.mod, s=bestlam, newx=xtest,)a- lasso.predb- as.vector(a)mean(b-y.test)2)endprint1 2311.945out - glmnet(x,y,alpha=1,lambda=grid)lasso.coef lasso.coef(Intercept) AGE SEX2 BMI BP-270.9677843 0.0000000 -21.0338187 5.6668803 1.0703732TC LDL HDL TCH
9、 LTG-0.2402796 0.0000000 -0.6251458 3.0270844 47.9925758GLU0.2594034 result_10bestL mean(result_10bestL)1 2995.348 bestlam1 0.3956936首先根据10折交叉验证的方法,选出当交叉验证的均方误差最小时,参数lambda的取值为0.3956936,并用该参数建立lasso模型如上,AGE和LDL的系数被压缩到了0。取9成数据训练,1成数据测试,10次随机测试的均方误差的均值是2995.348。如图2所示,均方误差随lambda增大而增大,会有一个lambda最佳取值使得均
10、方误差最小。(2)参数lambda取10时的Lasso模型和预测精度。set.seed(1)train - sample(1:nrow(x), nrow(x)*9/10)test - (-train)y.test - ytestlasso.mod -glmnet(xtrain,ytrain,alpha=1, lambda=grid)plot(lasso.mod)bestlam - 10lasso.pred - predict(lasso.mod, s=bestlam, newx=xtest,)a- lasso.predb- as.vector(a)mean(b-y.test)2)out - g
11、lmnet(x,y,alpha=1,lambda=grid)lasso.coef mean(b-y.test)2)1 2629.674 lasso.coef(Intercept) AGE SEX2 BMI BP-191.8334615 0.0000000 0.0000000 5.1204788 0.4923885TC LDL HDL TCH LTG0.0000000 0.0000000 -0.2391955 0.0000000 37.5352114GLU0.0000000result_10 mean(result_10)1 3117.94取参数lambda的值为10,并用该参数建立lasso模
12、型如上,只有4個变量的系数没有被压缩到0。取9成数据训练,1成数据测试,10次随机测试的均方误差的均值是3117.94。所得的回归模型是:Y=-191+5.12BMI+0.49BP-0.24HDL+37.54LTG该模型比最佳的参数lambda取值时的模型简单的多了,而且预测的结果也相差不多,在可接受范围内。(3)参数lambda取100时的Lasso模型和预测精度。set.seed(1)train - sample(1:nrow(x), nrow(x)*9/10)test - (-train)y.test - ytestlasso.mod -glmnet(xtrain,ytrain,alph
13、a=1, lambda=grid)plot(lasso.mod)bestlam - 100lasso.pred - predict(lasso.mod, s=bestlam, newx=xtest,)a- lasso.predb- as.vector(a)mean(b-y.test)2)out - glmnet(x,y,alpha=1,lambda=grid)lasso.coef mean(b-y.test)2)1 4915.202 lasso.coef(Intercept) AGE SEX2 BMI BP152.1335 0.0000 0.0000 0.0000 0.0000TC LDL H
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Lasso 回归 模型 变量 选择 功能 及其 糖尿病 发展 预测 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。