高维线性回归模型稳健变量选择方法综述.pdf
《高维线性回归模型稳健变量选择方法综述.pdf》由会员分享,可在线阅读,更多相关《高维线性回归模型稳健变量选择方法综述.pdf(25页珍藏版)》请在咨信网上搜索。
1、应用概率统计第 40 卷第 1 期2024 年 2 月Chinese Journal of Applied Probability and StatisticsFeb.,2024,Vol.40,No.1,pp.157-181doi:10.3969/j.issn.1001-4268.2024.01.010综述报告高维线性回归模型稳健变量选择方法综述邹航姜云卢(暨南大学经济学院,广州,510632)摘要:随着大数据时代的到来,在经济学、金融学和生物医学等众多研究领域中频繁收集到高维数据.高维数据的特征之一是变量维数 p 随着样本量 n 的增加而变大且通常会超过样本量,同时,异常值也容易出现在高维数
2、据中.因此,如何克服异常值给高维统计推断带来的影响,从而得到更精确的模型,是目前统计学研究的热点问题之一.本文是对高维线性模型下的稳健变量选择方法进行综述.具体地,首先介绍评估稳健性的三个指标:影响函数、崩溃点和最大偏差.其次着重介绍了稳健变量选择方法,包括响应变量含有异常值,响应变量和协变量都含有异常值,高崩溃点且高效的变量选择方法.紧接着介绍相关算法,通过模拟和实例比较不同变量选择方法.最后,简要探讨了高维稳健有效变量选择方法存在的问题及未来的可能发展方向.关键词:高维线性回归模型;稳健性;变量选择;有效性中图分类号:O212.7英文引用格式:ZOU H,JIANG Y L.Overvie
3、w of robust variable selection methods for high-dimensional linear regression modelJ.Chinese J Appl Probab Statist,2024,40(1):157181.(inChinese)1引言随着科学技术的高速发展,在许多研究领域中,测量和收集到高维数据越来越来普遍,如化学计量学中的光谱数据,生物信息学中的遗传数据和金融投资学中的投资组合数据等.高维数据的本质特征是模型中未知参数的个数 p 远远大于样本量 n.Fan 和 Lv1指出:这类高维数据的存在使得评估模型优劣的三个重要准则统计准确性、
4、模型解释力和计算稳定性均难以满足.当解释变量的个数随着样本容量的增加而增加时,传统的统计方法将不再适用,这就迫切要求统计学家改进传统的统计方法或提出新的统计方法来应对高维数据带来的挑战.国家自然科学基金项目(批准号:12171203)、广东省自然科学基金项目(批准号:2022A1515010045)和中央高校基本科研业务费专项资金项目(批准号:23JNQMX21)资助.通讯作者,E-mail:.本文 2022 年 3 月 30 日收到,2022 年 8 月 7 日收到修改稿.158应用概率统计第 40 卷为了更好地处理高维数据,统计学家们通常会对变量做出稀疏性假设.如何利用稀疏性假设从高维解释
5、变量中选择出与响应变量存在明显关系的真实协变量,从而减少待估参数的个数,即变量选择,是进行高维统计推断的研究热点问题之一.变量选择方法普遍分为两种:最优子集选择法和惩罚正则化方法.最优子集选择法主要包括 Cp准则2、AIC 准则3、BIC 准则4、最优子集回归5等等.这些方法虽然容易理解,但存在一些缺点:例如离散选择过程的不稳定性,计算成本随着变量个数的增加而不可度量,估计的大样本性质难以研究等.基于上述问题,学者们提出了惩罚正则的方法,包括岭回归6、LASSO7、SCAD8、自适应 LASSO9、弹性网10、自适应弹性网11、MCP12、截断 L1函数13、LEP14等等.这些方法大多数可以
6、同时实现参数估计和变量选择,且在一定的条件下具有Oracle 性质,因此被广泛研究.然而,上述方法都是基于平方误差损失函数或者似然函数,容易受到数据中的异常值影响,因此并不稳健.Zhou 等15指出:在高维数据中,异常数据出现的机率越来越大.同时,Hampel 等16指出,一个数据集中一般会包含 1%10%的异常点,在一些如网络数据等更复杂的数据中可能会包含更多.当高维数据中存在异常值时,继续使用传统的变量选择方法将会得到错误的结论.因此,如何应对异常值对估计量造成的不利影响,从而提高模型的预测准确度,是亟待解决的问题.稳健统计方法是一种不需要筛选出数据中的异常值,也能获得合理模型的统计方法.
7、稳健性这一概念最早由 Box17提出.自从 Tukey18发表了他的工作以来,稳健统计越来越受到许多统计学家的重视.Huber19提出了一类位置参数的稳健估计极大似然型估计,并解决了相应的渐近极小极大问题,进一步推动了稳健统计的发展.Hampel20,21在他的博士论文中给出了稳健性的严格定义,并提出了刻画稳健性的两个重要概念:影响函数和崩溃点.目前,稳健统计在线性回归模型中已经有大量研究成果,包括但不限于 M 估计22、分位数回归估计23、R 估计24、LMS 估计25、LTS 估计26、S 估计27、WLS估计27、MM 估计28、估计29、REWLS 估计30、Huber-ESL 估计3
8、1等.这些稳健方法可以很好的处理噪声数据,因此陆续有学者开始将稳健方法用于处理高维数据下线性回归模型的变量选择问题.为了便于讨论和理解,我们先对线性模型进行简单阐述.考虑样本量为 n 的随机观测(y1,x1),(y2,x2),(yn,xn),假设它们来自如下的线性回归模型:yi=xi+i,i=1,2,n,其中 xi=(xi1,xi2,xip)是 p 维协变量,=(1,2,p)是未知参数向量,i是随机误差项,E(i)=0,且误差项与协变量是相互独立的.在经典线性模型中,通常假定误差项服从正态分布.Fan 和 Li8提出了惩罚稳健回归估计的一般形式:bn=argminni=1(yi xi)+npj
9、=1pnj(|j|),(1)第 1 期邹航,姜云卢:高维线性回归模型稳健变量选择方法综述159其中,()表示损失函数,pnj(|j|)是关于 j的惩罚函数,协调参数 nj越大,对回归系数的压缩程度就越大,如果某个变量的回归系数被压缩到 0,则该变量未被选入模型中.Fan和 Li32指出,在平方损失函数下,选用的惩罚函数需要使得惩罚最小二乘估计满足稀疏性、无偏性和连续性,从而达到变量选择的目的.Lv 和 Fan33提出了一系列满足这三条性质的惩罚函数.令 A=j:j=0,进一步假定|A|=s p,b=(b1,b2,bp)表示由变量选择过程得到的估计系数.在一定条件下,文献 8,34 研究了变量选
10、择过程的Oracle 性质:(a)变量选择的相合性:PcA=A 1,(b)渐近正态性:n(bA A)N(0,A),其中cA=j:bj=0,A是真实模型下的协方差矩阵.变量选择的相合性表明真实模型被选出的概率随着样本量趋向于无穷时趋向于 1,渐近正态性表明估计出来的非零参数部分具有渐近正态性,且协方差矩阵与真实模型下的协方差矩阵相同.Oracle 性质是变量选择理论研究的主要内容.自从文献 8 提出了惩罚稳健回归估计的一般准则并研究了变量选择的 Oracle 性质后,后续的大多数稳健变量选择方法都沿用了这种形式,它们的区别在于不同损失函数与惩罚函数的选择.比如,Wang 等35提出了 LAD-L
11、ASSO 方法,其中损失函数和惩罚函数分别为(t)=|t|,pnj(|j|)=nj|j|.为了使得 LAD-LASSO 在杠杆点存在的情况下更稳健,Arslan36提出了加权 LAD-LASSO 估计.Wang 和 Li37研究了加权 Wilcoxon 类型损失函数的稳健变量选择方法.当损失函数是(t)=t I(t n 的情况下,关于高维线性回归模型的稳健且高效变量选择方法可以查阅文献 39,4951 等.160应用概率统计第 40 卷通过总结上述文献,本文主要从以下几个方面阐述高维线性回归模型稳健变量选择方法的相关工作.文章第 2 部分主要介绍评价稳健性的三个指标.紧接着,文章展开讨论响应变
12、量含有异常值、响应变量和协变量都含有异常值、高崩溃点且高效的稳健变量选择方法,对应第 3 到第 5 部分.第 6 部分介绍惩罚变量选择模型的相关算法,第 7 部分,通过模拟和实证数据,比较不同的变量选择方法.文章的最后部分,我们进行总结和展望.2稳健性评价指标为了从理论上研究模型估计的稳健性,我们首先考虑估计的稳健性度量.目前,已经有不少学者研究了评估稳健性的三个指标:影响函数(influence function,IF)、有限样本崩溃点(the finite sample breakdown point)和最大偏差(maximum bias).Hampel20,21最先给出了稳健性的严格定义
13、,并提出了刻画稳健性的两个重要概念:影响函数和崩溃点.随后,Huber52以及 Li 和 Zhang53研究了一维位置参数稳健估计的稳健性质.Zuo 等54研究了多维位置参数稳健估计的稳健性质,Zuo 和 Cui55研究了稳健散度估计的有限样本崩溃点.在经典的线性回归模型中,也有不少学者从理论上研究了参数估计的稳健性质.更多讨论,可以参考文献 28,30,31,45,56.下面,我们对稳健性的三个评价指标进行介绍.2.1影响函数考虑一个随机变量 X 具有概率分布 P,其中 P P=P:Rd,其分布函数为 F.在很多情况下,参数 常看作分布函数的一个泛函,即 =T(F),例如:均值、方差以及中位
14、数等等.当真实分布稍偏离假设分布 F 时,往往通过度量给定分布 F 关于 T()的效果来测量泛函 T(F)的稳健性.Hampel20探讨了这类问题并引进了影响函数的概念.令 z表示在固定点 z Rd,d 1 的单点概率分布.给定在 Rd上的一个分布 F,对其进行单点污染,污染比例为 (0,1),得到 F 和 z的混合分布,记为 F=(1 )F+z.对于一个统计函数 T:F T(F)Rd,在给定点 z Rd处的影响函数定义为IFz;T,F=lim0+T(1 )F+z)T(F).从上式我们看到,影响函数测量了对分布 F 在点 z 处造成无穷小污染时对统计函数 T(F)的一种相对效果,它度量了 T(
15、)的局部稳健性;同时,影响函数的形式同导数相同,表示统计函数 T(F)的变化率.因此,影响函数越大,当分布函数 F 变为 F时,T(F)的变化也越大.所以,我们希望得到一个有界的影响函数.例如,对一元变量均值(F)与中位数 M(F),通过直接计算,我们得到它们的影响函数分别为IFz;(F),F=z (F),IFz;M(F),F=sign(z M(F)2f(M(F),第 1 期邹航,姜云卢:高维线性回归模型稳健变量选择方法综述161其中 sign()是符号函数.从上式我们可以看出,中位数的影响函数是有界的,而均值是无界的,所以中位数是一个稳健的估计.从这里可以看到,影响函数能度量一个估计稳健与否
16、,是一个定性的指标.2.2有限样本崩溃点影响函数从无穷小概念出发,描述单个观测点对估计量的影响,刻画的是统计函数T()的局部稳健性,然而崩溃点衡量的是统计函数 T(F)的全局稳健性,是一个定量的指标.文献 20 最早从渐近角度研究了 T(F)的崩溃点.随后,Donoho 和 Huber57给出了两种有限样本崩溃点概念:有限增加样本崩溃点和有限取代样本崩溃点.接下来,我们首先介绍有限增加样本崩溃点的定义.令 Dn=X1,X2,Xn 是样本量为 n 的一组随机样本,T(Dn)表示基于样本 Dn的一个估计.把 m 个污染样本eDm=Xn+1,Xn+2,Xn+m加到 Dn,得到新的污染样本为 DneD
17、m,其中污染样本的比例为 m/(n+m),则对估计T(Dn)的有限增加样本崩溃点定义为BP(T;Dn)=minmn+m:supeDmT(Dn)T(DneDm)=,(2)其中 表示欧拉范数.对于有限取代样本崩溃点,我们用 m 个污染样本eDm去替代样本 Dn的任意 m 个值,得到新的污染样本为bDn,其中污染样本的比例为 m/n,则对估计 T(Dn)的有限取代样本崩溃点定义为BP(T;Dn/eDm)=minmn:supbDn/DnT(Dn)T(bDn)=.(3)从式(2)和(3)我们可以看到,有限样本崩溃点测量了使得估计变得无穷大之前受污染样本的最小比例.很明显,有限样本的崩溃点越大,所得到的估
18、计克服离群点的能力就越强,也就是说,所得到的估计就越稳健.在一般情况下,上述两个定义都可以使用.但是,Huber52指出,在考虑无结构的问题时,如:位置或尺度参数估计,有限增加样本崩溃点更容易处理.由式(2)可知,有限增加样本崩溃点的取值在 0 与 1 之间.对于一个常数统计量,有限增加样本崩溃点的取值为 1.对于一元随机样本的样本均值,其有限增加样本崩溃点的取值为 1/(n+1),而对样本中位数而言,其值为(n+1)/2,其中 x 表示不大于 x 的最大整数.所以,样本中位数相对于样本均值更稳健.2.3最大偏差在影响函数的定义中,仅仅考虑了单点污染的情况.而在实际情况中,假定分布的偏差可能是
19、由任意分布的污染造成的.接下来,我们将介绍一类更为广泛的全局稳健性的一种162应用概率统计第 40 卷度量工具,即最大偏差.令 G 是污染分布,对一个固定的 0,(1 )F+G 是一个被污染的分布,则统计函数 T(F)的最大偏差定义为B(;T,F)=supGT(1 )F+G)T(F).B(;T,F)测量了最坏情况偏差.对很小的,如果 T(F)有一个适当的最大偏差曲线,则它被认为是稳健的.由于在很多情况下,B(;T,F)很难得到其具体形式,因此,在考虑估计的稳健性时,我们一般用影响函数与有限样本崩溃点度量其稳健性.在后面的讨论中,如果某个估计的的崩溃点达到 1/2,则称它具有高崩溃点,且具有理论
20、上的稳健性质.3响应变量含有异常值的稳健变量选择方法为了在包含异常值的数据中选出对响应变量有贡献的解释变量,Fan 和 Li8提出了稳健变量选择方法的一般框架.经典线性模型中,通常假设误差服从正态分布,这在实际应用中往往很难满足.当误差服从厚尾分布或者样本中包含异常点时,基于最小二乘损失函数或者似然函数的变量选择方法是不稳健的.在这一部分,我们讨论响应变量含有异常值时的稳健变量选择方法.3.1惩罚最小绝对离差估计惩罚最小二乘估计在数据中含有异常值时往往是失效的,为了解决这一问题,Wang等35将惩罚最小二乘中的平方损失函数替换成最小绝对离差(least absolute deviation,L
21、AD)损失函数,提出了 LAD-LASSO 估计,具体形式如下:argminni=1|yi xi|+npj=1j|j|.(4)协调参数 j可以通过 BIC 准则选择.为了求解上述估计,通过增加样本的方法,对原始数据(yi,xi),1 6 i 6 n 简单变换为(yi,xi),1 6 i 6 n+p:(yi,xi)=(yi,xi),1 6 i 6 n;(0,njej),1 6 j 6 p,n+1 6 i 6 n+p,其中 ej是第 j 个元素为 1,其它元素为 0 的 p 维向量.因此式(4)可以转化为argminn+pi=1|yi xi|.这样求解 LAD-LASSO 就转换成了求解传统的 L
22、AD 估计.LAD-LASSO 方法对正负残差施加相同的权重,可以在重尾误差情况下实现稳健变量选择,并且具有 Oracle 性质.另外,第 1 期邹航,姜云卢:高维线性回归模型稳健变量选择方法综述163Gao 和 Huang58研究了在高维稀疏模型下 LAD-LASSO 估计的相合性和变量选择的相合性,Wang59提出的 L1惩罚 LAD 估计(LPLAD)在高维情况下对厚尾误差是有效的.当误差项服从正态分布且数据中不包含异常值时,LAD-LASSO 估计相对于最小二乘损失下的 LASSO 估计效率更低.为了解决这一问题,Lambert-Lacroix 和 Zwald60将惩罚 LAD 损失扩
23、展到惩罚 Huber 函数,当残差较大时,Huber 损失函数等价于 LAD 损失函数;相反,则等价于最小二乘损失函数.与 LAD 损失函数相比,Huber-LASSO 估计保留了稳健性的同时,提高了估计的效率.3.2惩罚分位数估计考虑检验损失函数(u)=u(1(u c,c 0 时,惩罚 M 估计成为惩罚 Huber 估计;当(u)=u+(1)(u)+,0 0,未知参数bj可以用不加惩罚项的加权 LAD估计量替代.借鉴文献 35,在一定条件下,加权 LAD-LASSO 方法也被证明具有n 相合性、稀疏性和 Oracle 性质,具体参看文献 36.166应用概率统计第 40 卷4.2稳健惩罚秩估
24、计为了使得估计量不受响应变量中的异常点和杠杆点的影响,Wang 和 Li37提出了如下的加权 Wilcoxon 型 SCAD(weighted Wilcoxon-type SCAD,WW-SCAD)方法来实现稳健估计和稳健变量选择:argminn1ijbij|ei ej|+npj=1p(|j|),其中 bij是对称的正权重,ei=yixi 是残差,p()是 SCAD 惩罚函数,调整参数 通过BIC 准则获得.当权重 bij是常数时,最小化 n2ijbij|ei ej|等价于最小化 Wilcoxon型散度函数:12ni=1R(yi xi)n+112(yi xi),其中 R(yi xi)表示 yi
25、 xi 的秩.为了求解 WW-SCAD 估计,受 LAD-LASSO 思想启发,首先对原始数据做如下变换:(yi,xi)=(bij(yj yi),bij(xj xi),1 6 i 6 n;(0,p(|0j|)j),1 6 j 6 p,n+1 6 i 6 n(n 1)/2+p,i j.这里,p()是惩罚函数 SCAD 的一阶导数,0j是不加惩罚项的加权 Wilcoxon 估计,j表示第 j 个元素为 1,其余元素为 0 的 p 维向量.在对数据简单变换以后,求解 WW-SCAD估计就转化成在新观测样本下求解 LAD 估计:argminn(n1)/2+pi=1|yi xi|.关于 WW-SCAD
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 模型 稳健 变量 选择 方法 综述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。