Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用.docx

上传人：精***

文档编号：3850514

上传时间：2024-07-22

格式：DOCX

页数：15

大小：37.45KB

《Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用.docx》由会员分享，可在线阅读，更多相关《Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用.docx（15页珍藏版）》请在咨信网上搜索。

1、 Lasso回归模型的变量选择功能及其在糖尿病发展预测模型中的应用荣小辉摘要：当前机器学习应用渐趋成熟，如何结合算法优势与医学研究特点是有效应用的关键。统计方法一直在预测精度与可解释性上做平衡，而医学问题多数情况下对可解释性具有较高的要求。Lasso回归模型通过将某些不相关变量的回归系数压缩到零的方法，可以有效的筛选出与研究结果相关的变量。通过缩小变量范围，增加模型的可解释性，尤其有利于医学问题的简化和医疗工作者的人工应用。本文将简要介绍Lasso回归模型的原理，并应用于糖尿病进展的多元变量筛选。在取得相近预测精度的前提下，将自变量由10个简化到4个，极大的提高了模型的简洁性与实用度。关键

2、词：Lasso回归；变量选择；数据挖掘；糖尿病：O212.1 ：A ：1671-2064（2017）24-0026-041 背景作为多变量回归问题的经典方法，最小二乘法一直得到广泛的应用。醫学问题往往都是涉及很多变量的复杂问题。哪个变量与研究结果紧密相关，哪个变量对研究结果其实毫无影响，了解其中含义在研究中具有关键的指引作用。最小二乘法可以得到哪些变量具有显著性的数据，但对那些不具有显著性的变量，无法判断是否应该从模型中删除哪个变量。由于有变量的共线性等问题，直接删除某些不显著变量，再建立最小二乘法多元回归模型会有很大的风险丢失重要变量，而且预测的精度也无法得到保证。Lasso回归模型通过将回

3、归系数压缩到零，实现了变量的有效选择1。最小二乘法采用最小化RSS的方法，来求得变量回归系数。而Lasso回归在最小二乘法RSS的基础上增加了一个惩罚项，是各回归系数的绝对值之和乘以参数lambda。通过最小化RSS与惩罚项的和来求得变量回归系数。当参数lambda为0时，Lasso回归与最小二乘法没有区别。当参数lambda逐渐增加，模型开始将回归系数向0压缩，当参数lambda足够大时，所有变量的系数将都被压缩到0。随着参数lambda的变化，各变量的回归系数也会跟着改变。所以选择一个合适的参数lambda对Lasso回归模型至关重要，如何选择参数lambda又要在预测精度与可解释性上做平

4、衡2。在预测精度可接受的范围内，选择一个比较大的参数lambda，将会得到一个尽可能精简的变量与模型。医学问题经常是复杂的多变量问题，在某些问题中往往有非常多的变量，这些变量之间的关系多样，有很大可能存在共线性或其他相互影响关系。在医学实践中取得大量样本数的机会通常会比较少，如果样本量不能远远大于变量数，而且多数变量与结果没有什么关系的情况下，最小二乘法多元回归将不能得到较好的预测结果。当样本量小于变量数时，甚至无法使用最小二乘法建立模型。在大数据时代，医学问题的变量数急剧增加。例如，新的全基因组扫描等方法可以轻松产生上万个变量，而医学研究的样本很难有快速的增长，这将导致样本量小于变量数的情况

5、。在这些情况下，Lasso回归模型可能既提高预测的精度，又通过变量筛选来简化模型。糖尿病的进展，可能会带来很多的并发症，这些并发症对患者的健康有重大影响。如果准确的预测出患者病情进展，提前采取多种措施，从诊断开始就对患者诊疗进行干预，可以取得很好的效果。2 资料与方法本文采用www4.stat.ncsu.edu下载的糖尿病数据集，有442个样本，11个变量，其中10个自变量，（AGE年龄BMI 身体质量指数BP收缩压与舒张压的均值SEX，1为女，2为男，LTG、TC、LDL、HDL、TCH、GLU是六个血生化指标）一个因变量Y。10个自变量是糖尿病确诊时的数据，因变量Y是一年后医生对患者糖尿病

6、严重程度的评分，分数越高病情越严重。通过对该数据集建立模型，可以根据糖尿病确诊时的数据，预测一年后患者的病情严重程度。本文使用R语言既相关的分析包glmnet，在最小二乘法回归模型十折交叉验证中使用了分析包dplyr3。数据集变量情况描述表1所示。2.1 Lasso回归（1）参数lambda取最佳预测准确时的值，Lasso模型和预测精度。使用glmnet（）函数建立lasso模型，必须用一个x矩阵和一个y向量。Diabetes是该糖尿病数据集在R中的数据框名称。如图1所示，各个变量系数随参数lambda增大逐渐被压缩到0（L1 Norm随参数lambda减小而增大），意味着该变量被模型排除。x

7、 - model.matrix（Y.，diabetes），-1y - diabetes$Ylibrary（glmnet）grid - 10seq（10，-2，length=100）set.seed（1）train - sample（1：nrow（x）， nrow（x）*9/10）test - （-train）y.test - ytestlasso.mod -glmnet（xtrain，ytrain，alpha=1， lambda=grid）plot（lasso.mod）set.seed（123）cv.out - cv.glmnet（xtrain，ytrain，alpha=1）plot（cv.o

8、ut）bestlam - cv.out$lambda.minlasso.pred - predict（lasso.mod， s=bestlam， newx=xtest，）a- lasso.predb- as.vector（a）mean（b-y.test）2）endprint1 2311.945out - glmnet（x，y，alpha=1，lambda=grid）lasso.coef lasso.coef（Intercept） AGE SEX2 BMI BP-270.9677843 0.0000000 -21.0338187 5.6668803 1.0703732TC LDL HDL TCH

9、 LTG-0.2402796 0.0000000 -0.6251458 3.0270844 47.9925758GLU0.2594034 result_10bestL mean（result_10bestL）1 2995.348 bestlam1 0.3956936首先根据10折交叉验证的方法，选出当交叉验证的均方误差最小时，参数lambda的取值为0.3956936，并用该参数建立lasso模型如上，AGE和LDL的系数被压缩到了0。取9成数据训练，1成数据测试，10次随机测试的均方误差的均值是2995.348。如图2所示，均方误差随lambda增大而增大，会有一个lambda最佳取值使得均

10、方误差最小。（2）参数lambda取10时的Lasso模型和预测精度。set.seed（1）train - sample（1：nrow（x）， nrow（x）*9/10）test - （-train）y.test - ytestlasso.mod -glmnet（xtrain，ytrain，alpha=1， lambda=grid）plot（lasso.mod）bestlam - 10lasso.pred - predict（lasso.mod， s=bestlam， newx=xtest，）a- lasso.predb- as.vector（a）mean（b-y.test）2）out - g

11、lmnet（x，y，alpha=1，lambda=grid）lasso.coef mean（b-y.test）2）1 2629.674 lasso.coef（Intercept） AGE SEX2 BMI BP-191.8334615 0.0000000 0.0000000 5.1204788 0.4923885TC LDL HDL TCH LTG0.0000000 0.0000000 -0.2391955 0.0000000 37.5352114GLU0.0000000result_10 mean（result_10）1 3117.94取参数lambda的值为10，并用该参数建立lasso模

12、型如上，只有4個变量的系数没有被压缩到0。取9成数据训练，1成数据测试，10次随机测试的均方误差的均值是3117.94。所得的回归模型是：Y=-191+5.12BMI+0.49BP-0.24HDL+37.54LTG该模型比最佳的参数lambda取值时的模型简单的多了，而且预测的结果也相差不多，在可接受范围内。（3）参数lambda取100时的Lasso模型和预测精度。set.seed（1）train - sample（1：nrow（x）， nrow（x）*9/10）test - （-train）y.test - ytestlasso.mod -glmnet（xtrain，ytrain，alph

13、a=1， lambda=grid）plot（lasso.mod）bestlam - 100lasso.pred - predict（lasso.mod， s=bestlam， newx=xtest，）a- lasso.predb- as.vector（a）mean（b-y.test）2）out - glmnet（x，y，alpha=1，lambda=grid）lasso.coef mean（b-y.test）2）1 4915.202 lasso.coef（Intercept） AGE SEX2 BMI BP152.1335 0.0000 0.0000 0.0000 0.0000TC LDL H

14、DL TCH LTG0.0000 0.0000 0.0000 0.0000 0.0000GLU0.0000参数lambda的取值为100时，所有系数都被压缩到0，这个不是好选择。2.2 最小二乘法回归模型 diabetes_lm summary（diabetes_lm）Call：lm（formula = Y .， data = diabetes）Residuals：Min 1Q Median 3Q Max-155.827 -38.536 -0.228 37.806 151.353Coefficients：Estimate Std. Error t value Pr（|t|）（Intercept

15、） -357.42679 67.05807 -5.330 1.59e-07 *AGE -0.03636 0.21704 -0.168 0.867031SEX2 -22.85965 5.83582 -3.917 0.000104*BMI 5.60296 0.71711 7.813 4.30e-14*BP 1.11681 0.22524 4.958 1.02e-06 *TC -1.09000 0.57333 -1.901 0.057948 .LDL 0.74645 0.53083 1.406 0.160390HDL 0.37200 0.78246 0.475 0.634723TCH 6.53383

16、 5.95864 1.097 0.273459LTG 68.48312 15.66972 4.370 1.56e-05*GLU 0.28012 0.27331 1.025 0.305990-Signif. codes： 0 * 0.001 * 0.01 * 0.05 . 0.1 1Residual standard error： 54.15 on 431 degrees of freedomMultiple R-squared： 0.5177，Adjusted R-squared： 0.5066F-statistic： 46.27 on 10 and 431 DF， p-value： 2.2e

17、-16最小二乘法回归模型十折交叉驗证：library（dplyr）data- diabetesk=10set.seed（123）data$id- sample（1：k， nrow（data）， replace=TRUE）list- 1：kprediction- data.frame（）testsetCopy- data.frame（）progress.bar- create_progress_bar（text）progress.bar$init（k）for （i in 1：k） trainingset- subset（data， id %in% list-i）testset- subset（d

18、ata， id %in% c（i）trainingset - trainingsetc（-12） # delete idtestset - testsetc（-12） # delete idmymodel- lm（Y.，data= trainingset）temp1 - predict（mymodel， newdata = testset）prediction- rbind（prediction， as.data.frame （temp1）testsetCopy- rbind（testsetCopy， as.data.frame（testset，11）progress.bar$step（）Re

19、sult_lm- mean（testsetCopy-prediction）2）data Result_lm1 2979.1493 结果3.1 Lasso回归模型（1）首先根据10折交叉验证的方法，选出当交叉验证的均方误差最小时，参数lambda的取值为0.3956936，并用该参数建立lasso模型如上，AGE和LDL的系数被压缩到了0。取9成数据训练，1成数据测试，10次随机测试的均方误差的均值是2995.348。endprint（2）取參数lambda的值为10，并用该参数建立lasso模型如上，只有4个变量的系数没有被压缩到0。取9成数据训练，1成数据测试，10次随机测试的均方误差的均值

20、是3117.94。所得的回归模型是：Y=-191+5.12BMI+0.49BP-0.24HDL+37.54LTG该模型比最佳的参数lambda取值时的模型简单的多了，而且预测的结果也相差不多，在可接受范围内。（3）参数lambda的取值为100时，所有系数都被压缩到0，这个不是好选择。3.2 最小二乘法回归模型（1）10折交叉验证预测的均方误差是2979.149；（2）有4个变量有显著性，BMI、BP、LTG、SEX2，整个模型也有显著性。4 讨论（1）取参数lambda值为10的lasso模型，具有较好的预测结果，同时10个变量简化到了4个变量，这对医疗工作者有很大的意义。因为在医疗过程中，

21、很多变量不容易能都收集到，而且变量多的时候，人脑很难记住这些关系并实际应用。这种方法对模型中有更多变量的情况，作用更大。Y=-191+5.12BMI+0.49BP-0.24HDL+37.54LTG。（2）lambda值从最佳的0.3956936，10，100的过程中，预测误差越来越大，回归系数压缩成0的变量也越来越多。在lasso模型的应用中，lambda值的选择是至关重要的。通常可以从交叉验证的均方误差最小的lambda值开始，逐渐取较大的lambda值，直到预测误差不能接受或变量已经筛选到满意的程度。（3）最佳lambda值的lasso模型，与最小二乘法回归模型预测误差几乎相同。但lass

22、o模型的优势在于有两个变量的系数压缩到0，模型更简单。在本文中的数据集预测中，lasso模型没有显著的提高预测误差。但在具有某些特征的数据集中，比如样本数不是远远大于变量数等情况下，lasso模型会有更好的预测表现。（4）取参数lambda值为10的lasso模型，所得的方程中4个变量中有3个在最小二乘法回归模型具有显著性，可见这两种方法得到的结果有较强的相互支持关系。（5）变量SEX在最小二乘法回归模型中具有显著性，但没有出现在取参数lambda值为10的lasso模型中。原因可能是变量SEX为类别变量，显著性的含义只是在这个类别中自己比较时才有，即其他条件相同时，不同变量SEX之间有显著区

23、别。最小二乘法回归模型无法把类别变量与其他变量直接比较，lasso模型剔除了变量SEX，表明变量SEX并没有显示出比其他变量更大的作用。实际上在另一种机器学习方法随机森林模型中，变量SEX在提高数据分类的纯洁度上重要性排在最后，没有重要意义。参考文献1詹姆斯（James，G.）等，著.王星等，译.统计学习导论-基于R应用M.北京：机械工业出版社，2015.2周志华，著.机器学习M.北京：清华大学出版社，2016.3麦特洛夫（Matloff，N.）等著.陈堰平，等译.R语言编程艺术M.北京：机械工业出版社，2013.Variable Selection Function of Lasso Reg

24、ression Model and its Application in Prediction Model of Diabetes DevelopmentAbstract：As machine learning is becoming more and more popular， it is very important to combine the advantage of algorithms and the specificity of medical questions. While statistic is always balance between prediction accu

25、racy and interpretability， medical questions have higher requirement on interpretability in many cases. The Lasso regression model can effectively screen variables related to the results by compressing the regression coefficients of these unrelated variables into zero. By reducing the number of vari

26、ables and increasing the interpretability， the Lasso regression model is especially helpful for the simplification of medical problems and the artificial application of medical experts. This article briefly introduces the principles of Lasso regression model and applies it to multivariate screening of diabetes progression. Under obtaining the near prediction accuracy conditions， the independent variables are reduced from 10 to 4， which greatly improves the simplicity and practicability of the model.Key words：Lasso regression；Variable selection；Data mining；Diabetesendprint -全文完-

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Lasso 回归模型变量选择功能及其糖尿病发展预测中的应用

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【精***】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。