![点击分享此内容可以赚币 分享](/master/images/share_but.png)
基于分位数因子模型的高维时间序列因果关系分析.pdf
《基于分位数因子模型的高维时间序列因果关系分析.pdf》由会员分享,可在线阅读,更多相关《基于分位数因子模型的高维时间序列因果关系分析.pdf(11页珍藏版)》请在咨信网上搜索。
1、CNATURASCIENCE)July,20232023年7 月JOURNAINANJNGNIVERSITYVol.59,No.4第4期第59 卷南京大学学报(自然科学)DOI:10.13232/ki.jnju.2023.04.002基于分位数因子模型的高维时间序列因果关系分析梁慧玲1,2,刘慧1,2*,刘力维1,2,赵佳3,阮怀军3(1.山东财经大学计算机科学与技术学院,济南,2 50 0 14;2.山东省数字媒体技术重点实验室,山东财经大学,济南,2 50 0 14;3.山东省农业科学院信息技术研究所,济南,2 50 0 0 0)摘要:从观察数据中发现变量之间的因果关系是许多科学研究领域的
2、关键问题,传统Granger因果模型受到维度灾难的影响,难以准确地在高维时间序列中发现因果关系.提出一种基于分位数因子模型的Granger因果分析新方法QFM-CGC用于高维时间序列因果关系的判定.首先,QFM-CGC采用赤池信息量准则进行模型选择,避免人为干预设置滞后阶数的操作;然后,对向量自回归(VectorAutoregressive,VA R)模型中的条件变量建立分位数因子模型进行降维,减少VAR模型中的待估计系数,对降维后的VAR模型重新进行条件Granger因果分析;最后,使用蒙特卡洛模拟评估不同方法识别底层系统与观测时间序列的连通性结构的能力.在不同维度变量的线性仿真系统和两组现
3、实数据集上与基准方法和经典方法进行了比较,实验结果验证了该方法的有效性。关键词:高维时间序列,分位数因子模型,条件Granger因果分析,数据挖掘中图分类号:TP391文献标志码:ACausal relationship analysis of high-dimensional time seriesbased on quantile factor modelLiang Huilingl-2,Liu Huil.2*,Liu Liweil-2,Zhao Jia,Ruan Huaijun(1.College of Computer Science and Technology,Shandong U
4、niversity of Finance and Economics,Jinan,250014,China;2.Key Laboratory of Digital Media Technology of Shandong Province,Shandong University of Finance and Economics,Jinan,250014,China;3.Institute of Information Technology,Shandong Academy of Agricultural Sciences,Jinan,250000,China)Abstract:Finding
5、the causal relationship between variables from observed data is a key issue in many scientific researchfields.Because the traditional Granger causality model is affected by the curse of dimension,it is difficult to accurately findcausality in high-dimensional time series.In this paper,we propose a n
6、ew Granger causality analysis method based onquantile factor model,QFM-CGC algorithm,which is used to find causality relationship in high-dimensional time series.Firstly,QFM-CGC uses Akaike information criterion to select models,which avoids setting the lag order by humanintervention.Then,the quanti
7、le factor model is established to reduce the dimensionality of the conditional variables in a vectorautoregressive(VAR)model,thus reducing the number of coefficients that need to be estimated.The reduced-dimensionalVAR model is used for a conditional Granger causality analysis.Finally,Monte Carlo si
8、mulation is applied to evaluate theperformance of different methods to identify the connectivity structure between the underlying system and the observationtime series.Experiments compare the proposed method with benchmark and classical methods on a linear simulation systemwith variables in differen
9、t dimensions and two sets of real data,confirming its effectiveness.基金项目:国家自然科学基金(6 2 0 7 2 2 7 4),山东省科技成果转移转化项目(2 0 2 1LYXZ021),山东省泰山学者特聘专家计划(tstp20221137)收稿日期:2 0 2 3一0 6 一13*通讯联系人,E-mail:liuh_551梁慧玲等:基于分位数因子模型的高维时间序列因果关系分析第4期Key words:high-dimensional time series,quantile factor model,conditional
10、 Granger causality analysis,data mining时间序列是指属于同一统计指标的数值按其时间发生的先后顺序排列而形成的一组随机变量,可以分成一元时间序列和多元时间序列,其中多元时间序列是将多个一元时间序列组合形成的时间序列.196 9年,英国计量经济学家Granger11首次提出一种经济学上的统计学假设检验方法,通常称为Granger因果关系检验,广泛应用于神经科学2-3、计量经济学4-5 等其他研究领域6 .根据Granger最初提出的概念,如果Y的预测模型中包括X时,Y的预测得到了改善,则变量X会Granger导致变量Y.多元时间序列在进行传统Granger因果
11、关系分析时忽略了其他变量的存在,因此双变量因果关系测度在估计真实因果关系时不准确7 .针对这些问题,198 2 年Geweke8提出条件Granger因果分析(Conditional Granger Causality Analyse,CGCA).多元时间序列的因果关系分析依赖于从一个观测变量到另一个观测变量的直接因果关系的估计,并考虑其他观察变量的存在,相关影响由条件Granger因果关系指数(ConditionalGrangerCausality Index,CGCI)量化,由线性向量自回归(VectorAutoregressive,VAR)模型推导.随着信息时代的发展,数据的维度不断增加
12、,对于数据的研究也已转变到高维空间9-10),然而,目前大部分因果分析研究仍然集中于二元或多元时间序列,对于高维和超高维的时间序列因果分析缺少有效的处理方法.通常低维主时间序列能提供动态特征的良好表示,易于解释和可视化:因此,对于高维和超高维的时间序列因果分析需要使用降维方法来限制VAR模型.主成分分析(Principal ComponentAnalysis,PCA)是目前最主要的降维方法之一,它将原始的高维数据投影到一个较低维的子空间上,使原始高维数据可以由一组低维变量表示12 .但是,PCA在降维时没有捕获隐藏的因子,值得注意的是相关因子可能会改变时间序列的分布特征(矩或分位数),而不是其
13、均值.Chenetal13提出分位数因子模型(QuantileFactorModels,Q FM)及其估计程序,简称分位数因子分析(QuantileFactorAnalysis,Q FA).与其他因子模型不同,QFM还捕获移动可观测分布的其他相关部分的未观测因子.QFM的一个重要优点是它能同时提取决定QFM因素结构的所有均值和额外(非均值)因子,而PCA只能提取平均因子,所以QFA克服了PCA没有捕捉隐藏因子的能力的问题,为此,Chenetal13通过蒙特卡洛模拟14 说明存在异常值时,使用QFA有明显优势13.由于传统Granger因果分析方法无法准确区分直接因果关系和间接因果关系,且高维时
14、间序列在VAR模型中容易受到维度灾难的影响,难以在高维时间序列中准确地发现因果关系,本文将分位数因子模型与条件Granger因果关系分析相结合,提出QFM-CGC算法来处理高维数据的因果分析.QFM-CGC算法将降维技术运用在降低VAR模型条件项的计算中,减少VAR模型中待估计系数,再对降维后的VAR模型重新进行条件Granger因果分析,避免传统方法受到的维度灾难的影响.在线性仿真系统和现实宏观经济数据集上与四种基准方法和经典方法进行对比实验,结果表明,在两个不同维度的仿真实验中,本文提出的方法识别正确因果关系的概率平均提高6%和3.46%.另外,在现实宏观经济数据的实验中发现,从均方根误差
15、、平均绝对百分误差和对称平均绝对百分比误差三个指标来看,本文提出的方法的因果关系序列的预测效果相较于最优的对比方法,分别降低了10.47%,5.18%和2.0 9%.最后,本文方法的北京空气质量指标(AirQualityIndex,A Q I)及气象时间序列的预测效果相较于最优的对比方法,三个误差指标分别降低了11.87%,14.09%和9.7 9%.1相关理论1.1条件Granger因果关系指数为了解决传统的Granger因果模型在多变量系统中容易生成虚假的因果关系的问题,Gewekel8引人条件变量,提出了条件Granger因果分析方法.552第59 卷南京大学学报(自然科学)假设X,=X
16、.,X2.,X.)(t=1,N)是长度为N的K维平稳时间序列.从驱动变量X,到响应变量X,的CGCI的定义涉及X,的两个VAR模型,也称动态回归模型15.第一个模型是无限制模型16 (U-模型),表示为:X.=(ajk.X.-1+.+ajk X.-)+uj.(1)其中,p是模型的阶数,ai.(k=1,K,l=1,P)是U-模型的系数.第二个模型是从U-模型排除X,的滞后导出的受限模型(R-模型),表示为:X=(bj.-X.-+.+by.X.-)ej.(2)k=1,ki其中,bj.(k=1,K但k/=1,2,p)是R-模型的系数.ui,和ei,是均值为零,方差分别为和%的白噪声.用普通最小二乘法
17、拟合U-模型和R-模型,得到残差品和%的估计值。条件Granger因果关系由CGCI量化,定义为R-模型和U-模型的误差方差之比的对数17 ,如式(3)所示:CGCIx,x,=In(3)显然,当X,不改进X,的预测时,即U-模型和R-模型给出的拟合误差方差大致相同,CGCI处于零水平;当X,改进X,预测时,CGCI获得更大的正值,表明X,Granger导致X,.1.2分位数因子模型分位数因子模型(QFM)是代表高维面板数据的一类新的因子模型,旨在提取大型面板数据集分布均值处的公共因子13.设Xi)是一个由N个观测单位组成的面板,且每个变量都有T个观测值.那么,在tE(0,1)处Xi有如下的因子
18、结构:Qx/f(t)=(t)f(t)(4)s.t.i=1,2,.,N且t=1,2,.,T其中,公共因子f(t)是r(t)1维不可观测因子向量,(t)是r(t)1维因子载荷向量且r(t)N,f(t)和入(t)在每个上可能不同.为了简化符号,下文中抑制f(t),入t)和r(t)对t的依赖性,分别改写为f,入,和r,因此,式(4)中的因子结构可以通过最小化目标函数获得,如式(5)所示:1LNT(0)(5)NT=1t=1其中,=(入i,入,f,f+)为待估参数,.(u)=(t一1(u0)为分位数损失函数.对因子与因子载荷进行以下规范化:之f.f=I,(6)之入入为对角元素非增的对角Chenetal13
19、1给出了当样本矩阵Y的维度趋于无穷时因子模型估计量的渐近性质,提出迭代分位数回归(Iterative Quantile Regression,IQR)算法,可以有效地找到目标函数的平稳点.令:A=(入1,入2,入N)F=(fi,f2,ff)并定义以下平均值:IQR的迭代过程如下:(1)随机选择起始参数F();(2)给定F(I-1),对i=1,N,计算-1)=arg min,M,(入,F(l-1):给定A(-1),对 t=1,T,计算f(I-1)=arg min,M,(A(-1),f);(3)对于=1,L,迭代第二步直到MNr(o(L)接近Mr(L-1),,其 中g()=vech(A(),vec
20、h(F)(4)规范化A()和F(),使其满足(3)的规范化通过Chenetal13提出的基于秩最小化的方法来确定不可观测因子的数量2基于分位数因子模型的条件Granger因果关系分析基于分位数因子模型的条件Granger因果关系分析模型包括以下几个部分.2.1平稳性分析由于Granger因果模型的时间序列具有平稳性,即该时间序列均值和方差没有系统的变化且严格消除了周期性变化,因此,在可靠性条件最少的目的模型复杂度的惩最终达到满足模型有效性和项表示模型的情况,第二项表示对其中,第553梁慧玲等:基于分位数因子模型的高维时间序列因果关系分析第4期建模前需要对数据进行平稳性分析.本文采用Augmen
21、ted Dickey-Fuller(A D F)18 检验,确定序列中是否存在单位根,帮助判断该序列是否平稳,如式(7)所示:AX,=+t+oX,1+ZA7B;AX,-i+e(7)1=1其中,是一个常数;是趋势项系数;是自回归系数,描述数据的平稳性;m是自回归模型的阶数;e,是误差项.若序列不存在单位根,表示时间序列是平稳的,可以直接进行Granger因果关系分析;反之,时间序列是非平稳的,需要进行差分,实现时间序列平稳化后再进行因果关系分析.2.2模型选择VAR模型中,如果解释变量的最大滞后阶数p太小,残差可能存在自相关,导致参数估计不一致.虽然适当增加滞后阶数p可以解决此问题,但p过大会使
22、待估计参数增多,严重降低自由度,最终影响模型参数估计的有效性19,所以VAR模型中解释变量的最大滞后阶数p的选择很重要本文采用AIC(A k a i k e I n f o r m a t i o nCriterion)2 0 来自动选择合适的模型阶数,以消除人为选择的不确定性的干扰,如式(8)所示:AIC=2k-2lnL(8)其中,L表示似然函数,k是拟合模型中参数的数量.假设模型误差服从独立正态分布,设n为观测值数目,RSS为残差平方和,则式(8)可以改写为:AIC=2k-nln(RSS/n)(9)2.3QFM-CGC算法描述根据上述推导和分析过程,总结QFM-CGC算法如下所示.算法基于
23、分位数因子模型的条件Granger因果分析输入:时间序列X,X=Xi,X,XkERkxn输出:因果关系连接矩阵(1)ADF检验:AX,=+t+oX,-1+A,AX,-/+e,i=1(2)fori=1:K(3)forj=1:K(4)ifi=j,结束本次循环(5)else(6)根据计算得到的最小AIC确定模型阶数(7)forp=1:Pmax(pmax是时间序列X的最大滞后阶数)(8)Z-setdif(Xi.j,(Xi.1,Xi.2,Xi.pm,Xj.p)(9)对条件变量进行分位数因子分析得到降维后的ZNEW(10)对X,,Xj i p 和条件变量ZNEw进行条件Granger因果分析建模(11)i
24、fpvalue0.9,即通过显著性检验存在X,Xi,的因果关系(12)else不存在X,Xji,的因果关系(13)end(14)end(15)end(16)end3仿真实验与分析在仿真模拟研究中,比较QFM-CGC,经典方法CGC8)和基准方法PCA-CGC21,mBT S-CGC22,PMIME23的性能.Geweke8向VAR模型中引人条件变量,提出条件Granger因果模型,改善了传统方法无法判断直接因果关系和间接因果关系的缺陷.Zhouetal21提出PCA-CGC方法,将PCA与条件Granger因果模型相结合来处理高维大脑神经网络的计算,与传统方法相比,降低了计算成本.Siggir
25、idouandKugiumtzis22采用back-ward-in-time方法对每个变量的滞后阶数使用有监督的逐步向前选择,有效减少VAR模型阶数,并与条件Granger因果模型结合,提出mBTS-CGC方法.Kugiumtzis23将度量混合嵌入的条件互信息(Conditional Mutual Information fromMixedEmbedding,M I M E)拓展到多变量时间序列,形成可以检测直接耦合的部分MIME(Pa r-tialMIME,PMIME).PMIME在由非均匀嵌人方案导出的滞后变量X,Y 和Z的联合状态空间的子空间中重构一个点(向量),目的是最好地解释Y的演
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 位数 因子 模型 时间 序列 因果关系 分析
![提示](https://www.zixin.com.cn/images/bang_tan.gif)
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。