中国区域速度场多面函数拟合稀疏建模方法研究.pdf
《中国区域速度场多面函数拟合稀疏建模方法研究.pdf》由会员分享,可在线阅读,更多相关《中国区域速度场多面函数拟合稀疏建模方法研究.pdf(8页珍藏版)》请在咨信网上搜索。
1、收稿日期:20221005基金项目:中国铁路设计集团有限公 司科技 开发计 划重 点课题(2021A240504;2023A0240103)。作者简介:杨承午(1994),男,2021 年毕业于中国矿业大学测绘工程专业,工程硕士,助理工程师,E-mail:chengwyangcumt 。文章编号:16727479(2023)04002708中国区域速度场多面函数拟合稀疏建模方法研究杨承午(中国铁路设计集团有限公司,天津 300251)摘 要:分析多面函数建模中核函数结点选择存在的问题,探讨 LASSO 等变量选择及空间降维方法,在此基础上,提出多面函数拟合的稀疏建模方法和惩罚参数选取指标。该方
2、法通过最小化正则化损失函数,实现模型参数估计与核函数结点筛选,所构建模型易于解释且具有较强的泛化能力。中国区域速度场建模结果显示,多种方案下的模型变量参数筛选保留率在 19.42%51.17%之间,外符合精度提升率达到 3.29%16.50%,表明该方法可有效降低模型结构复杂度并提高建模精度。关键词:区域速度场;多面函数拟合;稀疏建模;结点筛选中图分类号:P221;P228 文献标识码:ADOI:10.19630/ki.tdkc.202210050001开放科学(资源服务)标识码(OSID):Research on Sparse Modeling Method of Multi-faceted
3、 Function Fitting of China Regional Velocity FieldYANG Chengwu(China Railway Design Corporation,Tianjin 300251,China)Abstract:The problems of kernel function node selection in multi-faceted function modeling were analyzed,and the methods of variable compression selection such as Lasso and spatial di
4、mension reduction were discussed.On this basis,the sparse modeling method of multi-faceted function fitting and the selection index of penalty parameters were proposed.The method realized parameter estimation and kernel node adaptive screening by minimizing regularization loss function,and the const
5、ructed model was easy to interpret and had strong generalization ability.The results of China regional velocity field modeling show that the selection retention rate of model variable parameters under various schemes is between 19.42%and 51.17%,and the improvement rate of external coincidence accura
6、cy is between 3.29%and 16.50%,indicating that the method can effectively reduce the model structure complexity and improve the modeling accuracy.Key words:regional velocity field;multi-faceted function fitting;sparse modeling;node selection.引言高精度的速度场作为大地测量与地球动力学领域不可或缺的基础性数据,随着 GNSS 地壳形变监测网的广泛布设,利用实测
7、 GNSS 站速度研究速度场建模新方法至今仍然是一个开放性研究问题1-3。当前,已有众多学者利用中国大陆构造环境监测网络CMONOC、美国板块边界观测网络 PBO 等站点数据开展区域速度场建模研究4-5。魏子卿等采用欧拉矢量法和格网平均值法建立 2000 坐标系下中国大陆速度场,并给出中国大陆的格网速度6;刘经南等基于现有的 GPS 解算结果,使用多面函数拟合法建立中国地壳运动的整体速度场模型7;杨元喜等以方差分量估计法构造自适应因子,以此调整观测向量与信号向量72中国区域速度场多面函数拟合稀疏建模方法研究:杨承午的权比,构建中国大陆地壳运动水平速度场自适应拟合推估模型8。多面函数拟合法因形式
8、简洁、精度高及不需先验约束等优点,然而,该方法需要解决 3 个关键问题:核函数选择、平滑因子确定及结点筛选。已有学者开展相关研究,曾安敏等针对速度场建模展开研究,比较分析多种方案下的参数设置结果,提供可参考的模型参数设置指标,但受数据影响结果不具备普适性9-10;彭钊等引入 Tikhonov 正则化改善了多面函数模型方程结构,间接地替代了平滑因子的作用,规避了平滑因子的不确定性影响11-15。已有的结点筛选方法包括:t检验、逐步回归和基于正交最小二乘法等16,通过计算参数的模型贡献率选择合适的多面函数结点,但这些方法均建立在确定的数学模型基础上。稀疏建模是指仅保留模型中起主要作用的自变量参数,
9、剔除无关变量,构建形式上更为简练的模型方法。稀疏建模、特征选择、模型选择及变量选择等不同学科领域术语,在概念上略有差异,但研究内容及实现方法基本一致,可以将这些方法作为同等概念理解17-18。稀疏建模作为机器学习的重要理论,在测绘大数据时代背景下将发挥重要作用19。基于此,多面函数模型核函数确定后,通过设正则化约束准则,改善模型方程结构并筛选出模型中显著重要的自变量(即模型结点),解决了结点筛选问题且不需考虑平滑因子影响,以下通过实例分析验证该方法的可行性及改进效果。1 多面函数拟合法多面函数拟合法由 Hardy 提出,且在测量界得到了广泛的应用。由于中国地域辽阔,故多面函数拟合时的点位坐标用
10、大地坐标经纬度,来表示,拟合模型为v(,)=pj=1jg(,0j,0j,)(1)式中,v(,)为 N 方向或 E 方向的测站点位运动速率;p 为所选结点测站个数;0,0为结点的大地坐标经纬度,结点一般应选取研究区域内的地形特征点,且应均匀分布在整个模型区域;j为待解算模型回归系数;g(,0j,0j,)为核函数;为平滑因子。核函数的选择在多面函数拟合中起到至关重要的作用,直接影响模型拟合推估效果,核函数主要包括正双曲面、倒双曲面、三次曲面等。根据已有多面函数拟合文献研究成果及本文实验,正双曲面作为核函数具有较好的模型效果。因此,将正双曲面作为模型核函数构建速度场模型。平滑因子 会改变核函数的表面
11、形状,进而影响模型拟合推估效果。不同的核函数对 变化具有不同的敏感程度,在实际应用中,受数据分布状况、建模粗差及核函数类型等众多因素影响,并不能得到具有普适性的平滑因子,需针对实际情况进行分析。2 稀疏建模方法2.1 准则函数基于 LASSO 和 Elastic Net 两类稀疏建模收缩算法选择核函数结点,先对其原理及性质进行简要介绍。LASSO 是由 TIBSHIRANI 提出的变量压缩选择及空间降维方法20,通过最小化回归模型 L1 范数正则化损失函数,实现模型回归变量估计与模型自变量筛选,LASSO 的回归准则函数为LASSO=minpNi=1yi-xTi()2+pj=1j1(2)式中,
12、称为正则化参数(亦称惩罚因子),调节 可 以 平 衡 数 据 拟 合 与 回 归 参 数 压 缩 间 的 关 系;1为 L1 范数;为 LASSO 估计待求取的回归变量,其筛选过程通过调节 的惩罚力度来完成;y、x 分别为模型响应变量和输入变量构造的系数矩阵。相较于应用广泛的岭估计,LASSO 将回归准则函数的 L2 范数正则化约束替换为 L1 范数正则化约束。L1 范数可以将回归变量中部分参数压缩至 0,实现模型参数特征选择,从而 LASSO 具有产生稀疏模型解的能力21。为了克服 LASSO 不具备组效应的缺陷,ZOU 提出了 Elastic Net 估计方法22,即E-N=minpNi=
13、1yi-xTi()2+pj=1j1+(1-)pj=1j22/2()(3)式中,为组合作用的调节因子。Elastic Net 是LASSO 与岭估计的组合扩展方法,可以更有效处理预测因子间的极端相关性,形式上将 L1 与 L2 范数同时加入最小化损失函数约束中,确保模型稀疏性的同时也增加了模型解算的稳定性。结合稀疏建模方法,可得多面函数拟合模型的参数估计准则函数为=minpNi=1vi(,)-pj=1(-0j)2+(-0j)21/2 j)2+P()(4)式中变量与前述保持一致,在稀疏模型构建中,中部分回归系数会压缩为 0,即对应的模型结点被筛选剔除。82铁 道 勘 察2023 年第 4 期2.2
14、 惩罚参数选取指标当惩罚参数=0 时,对应传统最小二乘准则,当模型样本数大于或等于模型参数维数时,解算可获取稳定的参数解;当模型样本数小于模型参数维数时,设计矩阵为奇异矩阵,解算的参数解不唯一、不稳定,此时使用伪逆、SVD 分解、岭估计等方法进行模型参数求解。当惩罚参数 0、=1 且 P()=1=Pj=1 j时,对应 LASSO 估计方法,在获取稳定的模型回归变量值的同时筛选模型结点。当惩罚参数 0、1 且 P()=(1-)22/2+1=Pj=1(1-)2j/2+j 时,对应 Elastic Net 估计方法,模型参数筛选过程中会考虑模型变量间的交互作用。信息准则或 CV 分组验证是现有的惩罚
15、参数确定方法。传统的 CV 验证使用 K 折交叉验证法对数据进行分组训练,通过最小化检核误差选定惩罚参数,有CVk()=argminK-1Kk=1RMSE Tk-Tk()(5)式中,RMSE 为每组训练下验证集的均方误差;K为折分组训练。现有分析指出,按照交叉验证法确定的正则化参数 CV通常会偏小,其包含过多的模型参数,而这与稀疏建模的目的相冲突17。针对上述问题,结合信息准则和交叉验证法的优点,设计一个新的惩罚参数选取指标,使用交叉验证法的检核方差和模型结点选择率综合评判最优参数的选取,将 CVk()作为模型拟合方差计算 CVIC 值,pk为每组 CV 验证下 对应筛选的模型结点数,p 为初
16、始代入的全部模型结点数,新的参数选取指标定义为CVICk()=argminln CVk()()+L pkp(6)式中,L=ln CV()()max-ln CV()()min/K,将模型结点数与检核方差换算至同一数量级,利用模型结点数的筛选率修正 CV 验证检核方差最小的评价标准,综合考虑两种数据指标的影响。CVIC 指标在保证精度基本不变的情况下选择了更少的模型结点。3 速度场建模结果及分析3.1 数据来源与方案设计中国大陆构造环境监测网络 CMONOC(简称陆态网)总共建设有 260 个连续运行基准站(CORS)和2000 多个定期复测的区域站(CAMP)。其站址选择建设规范高、测站连续运行
17、且数据稳定性好,基于此,使用中国地震局 GNSS 数据产品服务平台发布的ITRF14 框架下的站心速度开展模型构建工作。CMONOC 基准站和区域站均匀布设在全国各个省市,其测站位置分布及运动速度矢量见图 1。地图数据使用 bou2_4l.shp 文件,包括中国政区的分界线(含南海九段线),基于 m_map 工具箱绘制。图 1 CMONOC 测站位置分布及运动速度矢量选取经过粗差剔除剩余的 2 034 个区域站数据作为模型训练数据,分别使用 256 个基准站和 2034 个区域站作为正双曲面核函数结点。使用交叉验证对训练数据进行分组训练,通过设定的 CVIC 指标选取惩罚参数建立预测模型,以连
18、续运行基准站的速度数据进行外符合检验,具体方案见表 1。表 1 多面函数拟合稀疏建模实验方案方案模型结点A1256 基准站A22034 区域站B1256 基准站B22034 区域站C1256 基准站C22034 区域站参数估计方法LS伪逆LASSOElastic Net92中国区域速度场多面函数拟合稀疏建模方法研究:杨承午 使用多面函数拟合法构建模型,正双曲面作为核函数,平滑因子设置为 0。方案 A,采用最小二乘准则计算回归参数,进而进行外符合检验,根据模型结点数分为 A1、A2 两组,当使用 2034 个区域站作为模型结点时,使用伪逆近似求解模型参数。方案 B,采用 LASSO 估计方法计算
19、回归参数,进而进行外符合检验,根据模型结点数分为 B1、B2两组。方案 C,采用 Elastic Net 估计方法计算回归参数,进而进行外符合检验,根据模型结点数分为 C1、C2两组。3.2 算法参数设定分析仅构建水平运动速度场模型,将水平运动速度在N、E 两个方向分别构建模型。其中 LASSO 的参数解算采用 CD 算法23,Elastic Net 的参数解算采用 FISTA 算法24,分别记为 LASSO-CD 和 EN-FISTA,两种方法均为迭代运算方法,算法依据停止条件设定差异会返回不同的回归系数结果。因此,在分析算法停止条件与返回结果的关系基础上,给出可以稳定求解的参考停止条件设定
20、标准。在起始的回归准则惩罚参数选定及算法停止迭代步数设定中,初始惩罚参数备选集 使用MATLAB 的对数间距函数 logspace 自动生成,有=logspace lgmin,lgmax,n()(7)式中,max=2 XTYmax为模型系数矩阵 X 与响应变量 Y 的相关程度最大值。若数据经过标准化处理,则 max对应的惩罚力度会将回归系数向量的所有参数全部压缩为 0,下限可选定为 0 或较小的值,下限设定为 min=1e-6,n=50 对应惩罚参数个数,共计自动生成 50 个备选惩罚参数。下文中图表所示惩罚参数均为 向量集中的参数位置,而非具体参数值。迭代停止步数设定为以 500 次为间距的
21、等差数列集,设定500-25 000共计 50 个迭代步数的备选数集。图 2(a)为 VE 速度方向上回归系数个数与迭代步数和惩罚参数的关系,图 2(b)为 VE 速度方向上CV 验证集外符合检验 RMSE 变化情况。横纵坐标轴分别对应着迭代步数备选集和惩罚参数备选集,而热力图中的像素颜色对应回归系数非 0 个数值和 RMSE值,方案 B1 中模型结点数在 0 至 256 的范围内变化,为便于更直观地观察数据变化情况,给出了回归系数非 0 个数值和 RMSE 值的 3 条等值线,结合图 2(a)和图 2(b),在 CD 算法迭代运算时,随着迭代步数的增加,参数个数呈现逐渐减少的趋势,RMSE
22、值总体呈现逐渐减小趋势,在迭代 20 000 次后,两项指标基本趋于平稳变化且数值差距较小。图 2 VE 方向 CD 算法参数变化关系VN 速度方向上参数变化关系见图 3,其中,横纵轴属性及热力图的像素颜色属性与图 2 一致。与 VE方向基本相同,参数个数在迭代 20 000 次后呈现稳定变化趋势,相应的 RMSE 值也随着迭代步数在一定范围内平稳变化。图 3 VN 方向 CD 算法参数变化关系由图 2、图 3 可知,每种迭代步数方案中较优RMSE 阈值均位于惩罚参数区间(2535)范围内,备选集中大区间与小区间的惩罚参数求解出的回归系数对应的 RMSE 值较差。这分别对应了模型结点较少导致的
23、模型刻画不够细致和模型结点过多的过度拟合现象,整体趋势为迭代次数越多,RMSE 值和回归系数参数个数变化逐步趋于平稳。结合图 2 和图 3 的结果及其分析,综合考虑参数个数变化和 RMSE 值变化情况,将两个方向 CD 算法迭代步数设定为 20000 次并代入后续计算过程,FISTA算法与 CD 算法结果近似相同,采用同样的算法参数设置。3.3 LASSO 稀疏建模CV 验证结果见图 4,横坐标轴代表了惩罚参数备选集,左纵坐标轴为 RMSE 值及其标准差分布,右纵坐标轴代表了回归系数筛选保留率及其标准差分布,模型结点全部保留数分别为 256 个和 2 034 个。与前述03铁 道 勘 察202
24、3 年第 4 期相同,其值是在折交叉验证分组训练的基础上获取的稳定均值,由于所有训练数据随机分组重复实验,不存在人为因素影响,降低了所获结果的偶然性,故具有较强的说服力。图 4 CV 验证结果图 4(a)、图 4(b)分别对应图 2 和图 3 中20 000 次迭代运算下的数值变化情况,RMSE 值在2050 的惩罚参数集区间内差异不大,但 RMSE 的标准差变化却存在一定差异,同时回归系数非 0,即模型有效结点数在区间内差异较大,但其标准差变化稳定。根据 Occam 剃刀准则,更简单的模型一般具有更好的泛化能力,在保证精度损失不严重的情况下,根据回归系数非 0 数和 RMSE 值使用 CVI
25、C 指标综合考虑选取较为合适惩罚参数带入后续计算。图 4(c)、图 4(d)分别为 2 个方向下使用全部区域站数据作为结点的解算数值变化情况,与方案A2 使用伪逆解算相似,此时模型方程解算为不适定问题,传统最小二乘准则失效,必须施加惩罚项才可以获取稳定的模型解。比较图 4 中的 4 幅图,2 种方案设计下呈现基本一致的 CV 验证结果,B2 方案较 B1 方案具有更高的建模精度,但模型结构更为复杂。根据图 4 中 B1 方案 CV 验证结果,在 CVIC 参数选取指标下,VE 和 VN 方向分别选取惩罚参数集中第24 个和第 25 个惩罚参数作为 LASSO 准则惩罚项,其中 2 个方向根据数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国 区域 速度 多面 函数 拟合 稀疏 建模 方法 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。