函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf
《函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf》由会员分享,可在线阅读,更多相关《函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用.pdf(23页珍藏版)》请在咨信网上搜索。
1、应用概率统计第 40 卷第 1 期2024 年 2 月Chinese Journal of Applied Probability and StatisticsFeb.,2024,Vol.40,No.1,pp.75-97doi:10.3969/j.issn.1001-4268.2024.01.005函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用陈正宇(厦门大学经济学院,厦门,361005)王心怡(厦门大学王亚南经济研究院,厦门,361005)冯峥晖(哈尔滨工业大学(深圳)理学院,深圳,518055)摘要:本文主要研究因变量为标量,自变量为函数型变量的函数型可加模型的估计和变量选
2、择问题.为了估计模型并简化模型结构,本文提出三种估计函数型可加模型的方法,不仅可以对可加成分未知函数形式进行估计,还可以对可加成分进行选择,提高模型解释能力.基于 2018 年 82 个经济体的截面数据,实证研究部分将对数起点人口占比曲线视为代表人口年龄结构的函数型自变量,建立起非寿险需求估计模型,并得到如下结论:第一,衰退型人口结构对非寿险需求存在推动作用;第二,即将退休人口密度的增加对非寿险需求存在推动作用.关键词:函数型数据分析;人口年龄结构;变量选择中图分类号:O212.1英文引用格式:CHEN Z Y,WANG X Y,FENG Z H.Variable selection for
3、functional additivemodels and an application to the population age structure dataJ.Chinese J Appl Probab Statist,2024,40(1):7597.(in Chinese)1引言可加模型是一种被广泛应用的非参数模型,相比于线性模型,可加模型具有更灵活的模型形式,而相比其它非参数模型,可加模型可解释性较强.经典的可加模型如下所示:Y=Pi=1g(Xi)+,其中 Y 是标量因变量,XiPi=1是 P 个标量自变量,g()是未知函数.Friedman 和 Stuet-zle1提出了最为经典的
4、可加模型向后拟合算法(Backfitting),之后由 Breiman 和 Fried-man2与 Hastie 和 Tibshirani3扩展到广义可加模型的估计中.如今大部分文献研究的可加模型针对的自变量均为标量自变量,较少涉及到函数型自变量.国家自然科学基金项目(批准号:11871409)资助.通讯作者,E-mail:.本文 2021 年 7 月 28 日收到,2022 年 7 月 13 日收到修改稿.76应用概率统计第 40 卷本文主要研究因变量是标量,自变量是函数型变量的函数型可加模型.研究该模型的启发主要来自于对世界银行的公开人口年龄结构数据的分析,该数据包含 82 个经济体04
5、岁、59 岁、80 岁以上各年龄段人口占总人口的比例数据.给定时间和地区,人口年龄分布曲线上一点表示该地区该时点某年龄人口占总人口的比例4,我们将人口年龄结构数据转化为人口年龄分布曲线(如下图 1 中所示,图中每一条曲线是一个样本),分析其与非寿险需求的关系.012340255075100AgePercentage(%)图 12018 年 82 个经济体的人口年龄分布曲线和对数起点人口占比函数由于消费能力和消费结构的不同,不同年龄阶段的消费者将会在保险需求上体现出差异性.有许多文献认为人口因素对保险业的发展有重要影响59,随着保险业在经济中发挥越来越重要的作用,研究人口年龄结构对保险需求的影响
6、,对保险业发展和经济稳定有着越来越重要的实际意义.以往分析人口年龄结构数据及其与保险需求之间关系的文献59,通常是使用少儿抚养比、老年抚养比(少儿抚养比即为青少年人口与劳动人口之比,老年抚养比为老年人口与劳动人口之比)或者年龄均值作为代表人口年龄结构数据的标量变量,考虑的年龄分布信息有限;在分析其与保险需求之间的关系时,也仅仅使用了简单的线性模型,存在一定的局限性.所以,相较以往文献,本文使用函数型可加模型描述人口年龄结构与非寿险需求之间关系的优势如下:第一,使用对数风险变换后的人口年龄分布曲线,即对数起点人口占比曲线,作为代表人口年龄结构的自变量,可以更全面地分析各年龄段人口比例与响应变量的
7、关系;第二,使用非参数函数模型建立起人口年龄结构与保险需求的关系,可以更灵活地描述两者间的复杂关系;第三,方法上,本文提出函数型可加模型的三种估计方法,均在模型估计过程中引入惩罚项,对主成分进行的变量选择.不同函数型主成分代表曲线的不同特征,然而并不是所有的特征都对响应变量有显著影响,所以本文通过变量选择留下对响应变量影响较大的主成分,使模型估计结果有更强的解释能力.在函数型模型中,函数型线性模型是最为广泛使用的模型,但在实际应用中,简单的线性模型并不能很好地描述变量之间复杂的关系.目前有许多文献将非参数回归模型扩展到第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据
8、上的应用77函数型回归模型的领域中.M uller 和 Yao10提出了函数型可加模型(functional additivemodel,FAM),他们对函数型自变量对应的函数型主成分得分建立可加模型,但是他们并没有考虑对重要的主成分进行选择,其估计模型结构相对冗繁.基于此,Zhu 等11提出了可再生核 Hilbert 空间框架下运用 COSSO 惩罚函数进行可加成分选择的函数型可加模型的成分选择和估计方法(component selection and estimation for functional additive model,CSEFAM).Sang 等12认为 CSEFAM 的不足
9、之处有二:一是变量选择的一致性没有保证,二是计算复杂,故提出了函数型稀疏可加模型的成分选择和平滑算法(component selectionand smoothing in a sparse function additive model,CSSFAM).CSSFAM 的估计方法是结合自适应 Group LASSO 方法和惩罚样条法的三步骤估计法,估计步骤较为繁琐.针对以上方法模型结构冗繁和估计过程步骤复杂等问题,本文使用 3 次 B 样条对函数型可加模型的可加成分进行近似,并且在模型估计过程中引入惩罚项,将对响应变量影响不显著的成分排除在模型外,达到了估计模型和简化模型的目的.为探究不同可加
10、成分函数形式下,FAM 估计方法的适用性,本文考虑了函数型可加模型的三种估计方法:第一种方法,在模型估计过程中引入 Meier 等13提出的稀疏平滑惩罚函数(sparsity-smoothness penalty,SSP),我们称该方法为函数型可加模型的稀疏 平滑估计方法(the sparsity-smoothness estimation for functional additive model,SSEFAM);第二种方法,基于第一种方法,对不同可加成分赋予自适应的权重,本文称该方法为函数型可加模型的自适应稀疏平滑估计方法(the adaptive sparsity-smoothness
11、estimation forfunctional additive model,Ada-SSEFAM);第三种方法,在估计过程中引入 Huang 等14提出的 Group Bridge 惩罚函数,该方法被称为函数型可加模型的 Group Bridge 估计方法(the group bridge estimation for functional additive model,GBEFAM).与现有的函数型可加模型估计方法相比,本文提出的 SSEFAM 方法通过引入对可加成分函数平滑程度的惩罚,实现对模型的估计和选择;Ada-SSEFAM 进一步改进了选择效果;GBEFAM 方法则结合了函数型主
12、成分分析和 Group Bridge 技术的优点,在参数估计的同时,不仅可以进行可加成分的选择,还可以对组内基函数进行选择.2函数型可加模型介绍记Yi,Xi(t)Ni=1为Y,X(t)的N 个独立同分布(independent identically distributed,IID)样本.其中 Y 是标量随机变量,X(t)是函数型随机变量.记 Xi(t)对应的函数型主成分得分为 ik,k=1,2,.不失一般性,本文对函数型主成分得分进行一一映射的单调变换():R 0,1,从而得到标准化的函数型主成分得分 ik,k=1,2,.基于标准化的函数型主成分得分,本文研究如下的函数型可加模型:Yi=b0
13、+k=1fk(ik)+i,78应用概率统计第 40 卷其中每个可加成分均是一个标准化函数型主成分得分的未知平滑函数.fk()是贡献率排序第 k 位的标准化函数型主成分得分对应的可加成分,b0是模型的截距项,i 是相互独立且均值为 0,方差为 2的随机误差,i和 ik相互独立.为了模型的可识别性,本文假设Efk(ik)=0,k=1,2,.接下来简要介绍函数型随机变量的理论性质以及截断的函数型可加模型.2.1函数型随机变量和函数型主成分得分函数型随机变量 X(t)是平滑且二次可积的随机函数,均值函数为 EX(t)=(t),协方差函数为 Cov(X(t),X(s)=G(s,t).均值函数和协方差函数
14、均是平滑的函数.根据Mercer 定理15,协方差函数可以被表示成:G(s,t)=kkk(t)k(s),t,s T,其中 k,k=1,2,是一系列非负常数且满足 1 2 0,kk 0 控制惩罚项的惩罚程度,其中参数 2的引入使 SSEFAM 方法更为灵活.对可加成分的估计,首先使用 3 次 B 样条基函数对可加成分进行近似:fk(bik)Mm=1kmBm(bik),k=1,2,K,其中,M 是 3 次 B 样条基函数的个数.记 k=(k1,k2,kM)T是第 k 个可加成分的基函数系数向量,SSP 惩罚函数可被表示成:J(fk)=11NTkBTkBkk+2Tkkk=1kAkk,其中Bk=B1(
15、b1k)BM(b1k).B1(bNk)BM(bNk),k=B1()B1()dB1()BM()d.BM()B1()dBM()BM()d,Ak=1NBTkBk+2k.因此目标函数(5)可以表示成形如式(7)的形式:Lssp()=1NeY B2+1Kk=1TkAkk,(7)第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用81其中,eY=(eY1,eY2,eYN)T是 N 1 的列向量,B=(B1,B2,BK)是 N MK 的矩阵,=(T1,T1,TK)T是 MK 1 的列向量.将 Ak矩阵进行 Cholesky 矩阵分解,即Ak=RTkRk,其中 Rk是 M M
16、矩阵,使ek=Rkk,eBk=BkR1k,目标函数(7)又可以写成:Lssp()=1NeY eBe2+1Kk=1ek,(8)当 2给定时,目标函数(8)即为 Group LASSO 问题18,可通过组坐标下降算法进行求解.通过调优参数 1,可使某些可加成分的对应系数向量被压缩至 0,实现对可加成分的选择.通常使用 CV 准则实现对调优参数(1,2)的选择.记求解最小化问题(8)的估计结果为 bekKk=1,据此可得到最小化问题(8)的估计参数向量 bk=RkbekKk=1,最终得到 SSEFAM 方法的估计可加成分结果 bfk=BkbkKk=1.3.3自适应稀疏平滑估计方法(Ada-SSEFA
17、M)SSEFAM 的估计问题,即如式(5)所示的最小化问题,对每个可加成分的惩罚程度相同,故该问题的解可能并不是最优的可加成分选择结果.基于 Zou19提出的自适应LASSO 方法思想,本文进一步提出第二种估计 FAM 的方法Ada-SSEFAM,它通过最小化如式(9)所示的目标函数得到参数的估计:Lada-ssp(f1,f2,fK)=1NNi=1eYiKk=1fk(bik)2+Kk=1wkJ(fk),(9)其中,wk为每个可加成分的权重,代表对每个可加成分不同的惩罚程度.特别的,式(5)是式(9)当 w1=w2=wK=1 时的特例.若 SSEFAM 估计量已初步获得,即每个估计可加成分 bf
18、1(),bf2(),bfK()均已知,那么权重可通过 wk=1/bfk12计算得到,其中bfk12=Ni=1bfk(bik)2.通常使用 CV 准则实现对调优参数的选择.3.4Group Bridge 估计方法(GBEFAM)本文提出第三种估计FAM 的方法GBEFAM 先对可加成分进行B 样条基函数近似,再利用Group Bridge组变量选择方法14进行可加成分的估计和选择.模型(4)可写成:eYi=Kk=1Mm=1kmBm(bik)+Ki,本文选择 Group Bridge,是因为该方法不仅可以对可加成分进行选择,还可以在逼近可加成分的该组基函数内部进行选择.该种特性,使得当逼近可加成分
19、使用的基函数个数过多时,GBEFAM 可以进行对重要基函数的选择,将不重要的基函数剔除,防止过拟合.GBEFAM 的估计通过最小化下述式(10)得到的:Lgb()=1NeY B22+NKk=1ckk1,(10)82应用概率统计第 40 卷其中,k1=(|k1|+|k2|+|kM|),N是调优参数,0 1 和 ck均为常数.Huang 等14令 ck k10,k0是 k的 L0范数,代表了 k的维度.本文对每一个可加成分均都用相同个数的基函数近似,即 c1=c2=cK=M1.当 0 0),用于整组系数的压缩,实现对可加函数的选择.式(11)的求解可以通过如下的迭代算法进行:步骤 0 初始化:s=
20、0,计算系数向量 =(1,2,K)T的初始值(0)=(0)1,(0)2,(0)K)T,一般可选择最小二乘估计量或者岭回归估计量;步骤 1 s s+1,更新(s)k=ck(1 )/(n)(s1)k,k=1,2,K;步骤 2 更新(s)=argminN1eY B22+Kk=1(s)k)11/c1/kk1;步骤 3 重复步骤1和步骤2直至收敛条件(s)(s1)12/(1+(s)12)5105满足.在迭代算法中,步骤 1 是一个 LASSO 求解问题,可以通过最小角回归(least angelregression,LAR)算法20进行求解.GBEFAM 的目标函数中只有一个调优参数 N,可通过 5 折
21、 CV 交叉验证准则决定.3.5理论性质对本文所研究的函数型可加模型(2)使用 3.2 节提出的 SSEFAM 方法得到的估计,有以下定理 1.定理 1 需要的假设条件有:1.X(t)的二阶导在 T 上几乎处处连续,且对于 m=0,2,EX(m)(t)4dt .X(t)的测量误差 eij独立同分布且满足 E(e4ij)c1 0,c1bN6 minihi6 maxihi6 c2bN,其中hi为核函数的窗宽.此外,当 N 时,bN 0,TN.T1Nb1N+b4N+T2N=O(N1).第 1 期陈正宇,等:函数型可加模型的变量选择方法研究及其在人口年龄结构数据上的应用834.定义 fk=gk+hk,
22、gk和 hk为中心化且正交的函数,I(hk)=0,I(gk)=I(fk).Hk()为(gk:I(gk)=1,N1 2)的熵.存在常数 0 0,0,对于所有 k 有Hk()6 A2(1),其中 I2(fk)=fk(x)2dx,则 =3/4.5.存在常数 L 和 M,maxiEexp(Ki)2/L 6 M.6.相容性条件:A0=k:N1/2fk2=0,其中 f=kfk,fk为可加成分的真值.2n(fk)=N1fk22+2I2(fk).对于某些常数 0 1 和 0 ClnK/N.(i)若 N1/2fk2 C(2)/2|A0|/2n,0+22N,j A0,则 k:N1/2bfk2 包含 A0的概率趋于
23、 1.(ii)=O(lnK/N),N1f()bf(b)22依概率趋于 0,其中bf=Kk=1bfk.说明:假设 2 说明随着样本的增加,每条曲线的观测量足够大,且观测间隔足够密.假设 3 与核估计结果的一致性相关,要求随着样本量的增加,窗宽选择减小.假设 13 为Zhu 等11中所用假设,主要用于证明 FPCA 的相合性,其中关于转换函数的假设,本文使用的正态 CDF 转换满足该假设.假设 4 中,当 I2(fk)=fk(x)2dx 时,hk为 fk的线性部分.假设 5 要求误差项的尾部为次高斯.假设 46 为 Meier 等13中的假设.此外本文考虑的函数空间为二阶导连续的函数空间.本文利用
24、 Meier 等13的推论与 Zhu 等11的引理,通过 H older 不等式得出本文的定理结果.定理 1 的具体证明见附录.3.3 节的Ada-SSEFAM 方法是基于 SSEFAM 方法的对权重进行的改进.3.4 节所提的 GBEFAM 方法,参考 Huang 等14和 Sang 等12可以类似证明.4数值模拟通过蒙特卡洛模拟,本章将本文所提出的 SSEFAM、Ada-SSEFAM 以及 GBEFAM 与其它函数型可加模型估计方法进行对比,验证本文所提方法的效果.对比的其它估计方法分别是:不进行可加成分选择的函数型可加模型(FAM)10;可再生核 Hilbert 空间框架下运用 COSS
25、O 惩罚函数进行可加成分选择的 CSEFAM11;运用 Group LASSO 惩罚函数和惩罚样条法的三步估计方法 CSSFAM12.为得到一个最优的模型估计结果,通过最小化惩罚似然函数进行变量选择的估计方法需要选择一个最优的惩罚参数,我们主要通过 5 折交叉验证进行调优参数的选择.根据第 3节研究方法的介绍,SSEFAM 和 Ada-SSEFAM 需要挑选两个参数1和 2,GBEFAM84应用概率统计第 40 卷需要挑选惩罚参数 N.已知 SSEFAM 和 Ada-SSEFAM 在 2给定时可转换为 GroupLASSO 问题,故实际求解中,2的 CV 备选序列被设定为 1,2,1013,1
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 函数 型可加 模型 变量 选择 方法 研究 及其 人口 年龄结构 数据 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。