分销赏收藏举报申诉 / 11

立即下载开通VIP

当前位置：首页 > 学术论文 > 毕业论文/毕业设计 > 基于分位数因子模型的高维时间序列因果关系分析.pdf

基于分位数因子模型的高维时间序列因果关系分析.pdf

上传人：自信****多点

文档编号：2349497

上传时间：2024-05-28

格式：PDF

页数：11

大小：6.25MB

《基于分位数因子模型的高维时间序列因果关系分析.pdf》由会员分享，可在线阅读，更多相关《基于分位数因子模型的高维时间序列因果关系分析.pdf（11页珍藏版）》请在咨信网上搜索。

1、CNATURASCIENCE)July,20232023年7 月JOURNAINANJNGNIVERSITYVol.59,No.4第4期第59 卷南京大学学报（自然科学）DOI:10.13232/ki.jnju.2023.04.002基于分位数因子模型的高维时间序列因果关系分析梁慧玲1,2,刘慧1,2*,刘力维1,2,赵佳3，阮怀军3（1.山东财经大学计算机科学与技术学院，济南，2 50 0 14；2.山东省数字媒体技术重点实验室，山东财经大学，济南，2 50 0 14；3.山东省农业科学院信息技术研究所，济南，2 50 0 0 0)摘要：从观察数据中发现变量之间的因果关系是许多科学研究领域的

2、关键问题，传统Granger因果模型受到维度灾难的影响，难以准确地在高维时间序列中发现因果关系.提出一种基于分位数因子模型的Granger因果分析新方法QFM-CGC用于高维时间序列因果关系的判定.首先，QFM-CGC采用赤池信息量准则进行模型选择，避免人为干预设置滞后阶数的操作；然后，对向量自回归（VectorAutoregressive，VA R)模型中的条件变量建立分位数因子模型进行降维，减少VAR模型中的待估计系数，对降维后的VAR模型重新进行条件Granger因果分析；最后，使用蒙特卡洛模拟评估不同方法识别底层系统与观测时间序列的连通性结构的能力.在不同维度变量的线性仿真系统和两组现

3、实数据集上与基准方法和经典方法进行了比较，实验结果验证了该方法的有效性。关键词：高维时间序列，分位数因子模型，条件Granger因果分析，数据挖掘中图分类号：TP391文献标志码：ACausal relationship analysis of high-dimensional time seriesbased on quantile factor modelLiang Huilingl-2,Liu Huil.2*,Liu Liweil-2,Zhao Jia,Ruan Huaijun(1.College of Computer Science and Technology,Shandong U

4、niversity of Finance and Economics,Jinan,250014,China;2.Key Laboratory of Digital Media Technology of Shandong Province,Shandong University of Finance and Economics,Jinan,250014,China;3.Institute of Information Technology,Shandong Academy of Agricultural Sciences,Jinan,250000,China)Abstract:Finding

5、the causal relationship between variables from observed data is a key issue in many scientific researchfields.Because the traditional Granger causality model is affected by the curse of dimension,it is difficult to accurately findcausality in high-dimensional time series.In this paper,we propose a n

6、ew Granger causality analysis method based onquantile factor model,QFM-CGC algorithm,which is used to find causality relationship in high-dimensional time series.Firstly,QFM-CGC uses Akaike information criterion to select models,which avoids setting the lag order by humanintervention.Then,the quanti

7、le factor model is established to reduce the dimensionality of the conditional variables in a vectorautoregressive(VAR)model,thus reducing the number of coefficients that need to be estimated.The reduced-dimensionalVAR model is used for a conditional Granger causality analysis.Finally,Monte Carlo si

8、mulation is applied to evaluate theperformance of different methods to identify the connectivity structure between the underlying system and the observationtime series.Experiments compare the proposed method with benchmark and classical methods on a linear simulation systemwith variables in differen

9、t dimensions and two sets of real data,confirming its effectiveness.基金项目：国家自然科学基金（6 2 0 7 2 2 7 4），山东省科技成果转移转化项目（2 0 2 1LYXZ021），山东省泰山学者特聘专家计划(tstp20221137)收稿日期：2 0 2 3一0 6 一13*通讯联系人,E-mail:liuh_551梁慧玲等：基于分位数因子模型的高维时间序列因果关系分析第4期Key words:high-dimensional time series,quantile factor model,conditional

10、 Granger causality analysis,data mining时间序列是指属于同一统计指标的数值按其时间发生的先后顺序排列而形成的一组随机变量，可以分成一元时间序列和多元时间序列，其中多元时间序列是将多个一元时间序列组合形成的时间序列.196 9年，英国计量经济学家Granger11首次提出一种经济学上的统计学假设检验方法，通常称为Granger因果关系检验，广泛应用于神经科学2-3、计量经济学4-5 等其他研究领域6 .根据Granger最初提出的概念，如果Y的预测模型中包括X时，Y的预测得到了改善，则变量X会Granger导致变量Y.多元时间序列在进行传统Granger因果

11、关系分析时忽略了其他变量的存在，因此双变量因果关系测度在估计真实因果关系时不准确7 .针对这些问题，198 2 年Geweke8提出条件Granger因果分析（Conditional Granger Causality Analyse,CGCA）.多元时间序列的因果关系分析依赖于从一个观测变量到另一个观测变量的直接因果关系的估计，并考虑其他观察变量的存在，相关影响由条件Granger因果关系指数（ConditionalGrangerCausality Index,CGCI)量化，由线性向量自回归(VectorAutoregressive,VAR)模型推导.随着信息时代的发展，数据的维度不断增加

12、，对于数据的研究也已转变到高维空间9-10),然而，目前大部分因果分析研究仍然集中于二元或多元时间序列，对于高维和超高维的时间序列因果分析缺少有效的处理方法.通常低维主时间序列能提供动态特征的良好表示，易于解释和可视化：因此，对于高维和超高维的时间序列因果分析需要使用降维方法来限制VAR模型.主成分分析（Principal ComponentAnalysis，PCA)是目前最主要的降维方法之一,它将原始的高维数据投影到一个较低维的子空间上，使原始高维数据可以由一组低维变量表示12 .但是,PCA在降维时没有捕获隐藏的因子，值得注意的是相关因子可能会改变时间序列的分布特征（矩或分位数），而不是其

13、均值.Chenetal13提出分位数因子模型（QuantileFactorModels，Q FM)及其估计程序，简称分位数因子分析（QuantileFactorAnalysis，Q FA).与其他因子模型不同，QFM还捕获移动可观测分布的其他相关部分的未观测因子.QFM的一个重要优点是它能同时提取决定QFM因素结构的所有均值和额外（非均值）因子，而PCA只能提取平均因子，所以QFA克服了PCA没有捕捉隐藏因子的能力的问题，为此，Chenetal13通过蒙特卡洛模拟14 说明存在异常值时，使用QFA有明显优势13.由于传统Granger因果分析方法无法准确区分直接因果关系和间接因果关系，且高维时

14、间序列在VAR模型中容易受到维度灾难的影响，难以在高维时间序列中准确地发现因果关系，本文将分位数因子模型与条件Granger因果关系分析相结合，提出QFM-CGC算法来处理高维数据的因果分析.QFM-CGC算法将降维技术运用在降低VAR模型条件项的计算中，减少VAR模型中待估计系数，再对降维后的VAR模型重新进行条件Granger因果分析，避免传统方法受到的维度灾难的影响.在线性仿真系统和现实宏观经济数据集上与四种基准方法和经典方法进行对比实验，结果表明，在两个不同维度的仿真实验中，本文提出的方法识别正确因果关系的概率平均提高6%和3.46%.另外，在现实宏观经济数据的实验中发现，从均方根误差

15、、平均绝对百分误差和对称平均绝对百分比误差三个指标来看，本文提出的方法的因果关系序列的预测效果相较于最优的对比方法，分别降低了10.47%，5.18%和2.0 9%.最后，本文方法的北京空气质量指标（AirQualityIndex，A Q I)及气象时间序列的预测效果相较于最优的对比方法，三个误差指标分别降低了11.87%,14.09%和9.7 9%.1相关理论1.1条件Granger因果关系指数为了解决传统的Granger因果模型在多变量系统中容易生成虚假的因果关系的问题，Gewekel8引人条件变量，提出了条件Granger因果分析方法.552第59 卷南京大学学报（自然科学）假设X,=X

16、.,X2.,X.)(t=1,N)是长度为N的K维平稳时间序列.从驱动变量X,到响应变量X,的CGCI的定义涉及X,的两个VAR模型，也称动态回归模型15.第一个模型是无限制模型16 (U-模型），表示为：X.=(ajk.X.-1+.+ajk X.-)+uj.(1)其中，p是模型的阶数，ai.（k=1,K,l=1,P)是U-模型的系数.第二个模型是从U-模型排除X,的滞后导出的受限模型（R-模型），表示为：X=(bj.-X.-+.+by.X.-)ej.(2)k=1,ki其中，bj.(k=1,K但k/=1,2,p)是R-模型的系数.ui，和ei,是均值为零,方差分别为和%的白噪声.用普通最小二乘法

17、拟合U-模型和R-模型，得到残差品和%的估计值。条件Granger因果关系由CGCI量化,定义为R-模型和U-模型的误差方差之比的对数17 ,如式(3)所示：CGCIx,x,=In(3)显然，当X,不改进X,的预测时，即U-模型和R-模型给出的拟合误差方差大致相同，CGCI处于零水平；当X,改进X,预测时，CGCI获得更大的正值,表明X,Granger导致X,.1.2分位数因子模型分位数因子模型（QFM）是代表高维面板数据的一类新的因子模型，旨在提取大型面板数据集分布均值处的公共因子13.设Xi)是一个由N个观测单位组成的面板，且每个变量都有T个观测值.那么,在tE(0,1)处Xi有如下的因子

18、结构：Qx/f(t)=(t)f(t)（4)s.t.i=1,2,.,N且t=1,2,.,T其中，公共因子f(t)是r(t)1维不可观测因子向量，（t)是r(t）1维因子载荷向量且r(t)N,f(t)和入（t)在每个上可能不同.为了简化符号，下文中抑制f(t),入t)和r(t)对t的依赖性,分别改写为f,入,和r,因此,式（4)中的因子结构可以通过最小化目标函数获得，如式（5)所示：1LNT(0)(5)NT=1t=1其中，=（入i,入,f,f+）为待估参数，.(u)=(t一1(u0)为分位数损失函数.对因子与因子载荷进行以下规范化：之f.f=I,(6)之入入为对角元素非增的对角Chenetal13

19、1给出了当样本矩阵Y的维度趋于无穷时因子模型估计量的渐近性质，提出迭代分位数回归(Iterative Quantile Regression,IQR)算法，可以有效地找到目标函数的平稳点.令：A=(入1,入2,入N）F=(fi,f2,ff)并定义以下平均值：IQR的迭代过程如下：（1)随机选择起始参数F(）；(2)给定F(I-1),对i=1,N,计算-1)=arg min,M,(入,F(l-1):给定A(-1),对 t=1,T,计算f(I-1)=arg min,M,(A(-1),f);(3）对于=1,L，迭代第二步直到MNr(o(L)接近Mr(L-1),，其中g()=vech(A(),vec

20、h(F)(4)规范化A()和F(),使其满足(3)的规范化通过Chenetal13提出的基于秩最小化的方法来确定不可观测因子的数量2基于分位数因子模型的条件Granger因果关系分析基于分位数因子模型的条件Granger因果关系分析模型包括以下几个部分.2.1平稳性分析由于Granger因果模型的时间序列具有平稳性，即该时间序列均值和方差没有系统的变化且严格消除了周期性变化,因此,在可靠性条件最少的目的模型复杂度的惩最终达到满足模型有效性和项表示模型的情况，第二项表示对其中，第553梁慧玲等：基于分位数因子模型的高维时间序列因果关系分析第4期建模前需要对数据进行平稳性分析.本文采用Augmen

21、ted Dickey-Fuller（A D F)18 检验,确定序列中是否存在单位根，帮助判断该序列是否平稳，如式(7)所示：AX,=+t+oX,1+ZA7B;AX,-i+e(7)1=1其中，是一个常数;是趋势项系数；是自回归系数，描述数据的平稳性；m是自回归模型的阶数；e,是误差项.若序列不存在单位根，表示时间序列是平稳的，可以直接进行Granger因果关系分析；反之，时间序列是非平稳的，需要进行差分，实现时间序列平稳化后再进行因果关系分析.2.2模型选择VAR模型中，如果解释变量的最大滞后阶数p太小，残差可能存在自相关，导致参数估计不一致.虽然适当增加滞后阶数p可以解决此问题，但p过大会使

22、待估计参数增多，严重降低自由度,最终影响模型参数估计的有效性19,所以VAR模型中解释变量的最大滞后阶数p的选择很重要本文采用AIC（A k a i k e I n f o r m a t i o nCriterion）2 0 来自动选择合适的模型阶数，以消除人为选择的不确定性的干扰，如式（8)所示：AIC=2k-2lnL(8)其中，L表示似然函数，k是拟合模型中参数的数量.假设模型误差服从独立正态分布，设n为观测值数目,RSS为残差平方和，则式（8)可以改写为：AIC=2k-nln(RSS/n)(9)2.3QFM-CGC算法描述根据上述推导和分析过程，总结QFM-CGC算法如下所示.算法基于

23、分位数因子模型的条件Granger因果分析输入:时间序列X,X=Xi,X,XkERkxn输出：因果关系连接矩阵(1)ADF检验：AX,=+t+oX,-1+A,AX,-/+e,i=1(2)fori=1:K(3)forj=1:K（4)ifi=j，结束本次循环(5)else(6)根据计算得到的最小AIC确定模型阶数（7)forp=1:Pmax(pmax是时间序列X的最大滞后阶数）(8)Z-setdif(Xi.j,(Xi.1,Xi.2,Xi.pm,Xj.p)(9)对条件变量进行分位数因子分析得到降维后的ZNEW(10)对X,，Xj i p 和条件变量ZNEw进行条件Granger因果分析建模(11)i

24、fpvalue0.9,即通过显著性检验存在X,Xi,的因果关系(12)else不存在X,Xji,的因果关系(13)end(14)end(15)end(16)end3仿真实验与分析在仿真模拟研究中，比较QFM-CGC,经典方法CGC8)和基准方法PCA-CGC21，mBT S-CGC22,PMIME23的性能.Geweke8向VAR模型中引人条件变量，提出条件Granger因果模型，改善了传统方法无法判断直接因果关系和间接因果关系的缺陷.Zhouetal21提出PCA-CGC方法，将PCA与条件Granger因果模型相结合来处理高维大脑神经网络的计算，与传统方法相比，降低了计算成本.Siggir

25、idouandKugiumtzis22采用back-ward-in-time方法对每个变量的滞后阶数使用有监督的逐步向前选择，有效减少VAR模型阶数，并与条件Granger因果模型结合，提出mBTS-CGC方法.Kugiumtzis23将度量混合嵌入的条件互信息（Conditional Mutual Information fromMixedEmbedding，M I M E）拓展到多变量时间序列，形成可以检测直接耦合的部分MIME（Pa r-tialMIME,PMIME).PMIME在由非均匀嵌人方案导出的滞后变量X，Y 和Z的联合状态空间的子空间中重构一个点（向量），目的是最好地解释Y的演

26、化，得到的混合嵌人向量只包含所有变量中最相关的成分，避免大维度会恶化估计的情况。实验考虑的仿真模拟系统是两个不同维度变量的线性仿真系统，且多项式平稳随机.生成的多变量时间序列的平稳性要求每个时间序列的数554第59 卷南京大学学报（自然科学）据在时间函数的合理范围内进行经验评估，实验结果在显著性水平=0.1下确定2 4.将QFM-CGC方法运用到宏观经济时间序列并建立预测模型对因果分析结果进行验证，最后将仿真结果与CGC,PCA-CGC,mBTS-CGC和PMIME进行对比3.1多变量线性时间序列在两个不同维度的线性系统的仿真模拟时间序列上评估了因果关系测度的集合，共计19个，且两个随机系统均

27、为假设.仿真系统如下所示，第一组数据是一个5维变量的4阶线性VAR系统VAR(5)25.由式(10)产生：X1,=0.3X1.t-1+0.4X2.13+E1.X2.,=0.4X2.t-1+0.4X5.1-3+E2.X3./=0.4X3.1-2-0.4X1.t-1+E3.(10)X4.=0.4X4.1-1+0.2X4.t-3 0.4X2.1-1+E4.X5.=0.4X3.t-1+0.4X5.-2-0.4X4.t-1+E5.t其中，E（i=1，,5)表示高斯白噪声序列.时间序列长度N=500.仿真系统VARs（5）中真实存在的因果关系为XiX3，XXi，X2 X4,XX5,X4X,和XX2,共计六

28、个.其因果关系如图1所示。利用AIC算法选择最佳模型阶数，图2 ae 分别代表目标变量为Xi,X2,X3,X4,Xs的AIC算法的实验结果，最小的AIC对应最优的延迟阶数.表1为VAR（5)在10 0 次蒙特卡洛实验中因原因变量1234512345目标变量图1VAR，(5)真实因果关系（黑色表示存在因果关系)Fig.1The real causality diagram of VAR,(5)(Blackindicatescausality)果关系的p0.9的频率,其中，选择QFM-CGC方法的分位数为O.5.由表可见，CGC和PCA-CGC不能完全正确识别式（10)中的因果关系.其中,CGC识

29、别正确因果关系X3X,的频率仅为3%，错误识别直接因果关系X1X，的概率高达98%，而PCA-CGC除了XiX3,其他识别正确因果关系的概率均未超过50%.虽然PMIME，mBTS-CGC和QFM-CGC都能正确识别所有因果关系，但仅有CGC和PMIME受到虚假的因果关系影响，尤其是PMIME受到比CGC更多的虚假的因果关系XX2,XX3,XXi,XX2,X4Xi,XX2,XX3,XX,和X,X的干扰,假阳性更高.和mBTS-CGC和QFM-CGC相比,综合来看，本文方法QFM-CGC识别正确因果关系的概率更高.第二组数据是一个10 维变量的4阶线性VAR系统VAR1o(5).由式(11)产生

30、：3.13.23.1选择的延迟阶数选择的延迟阶数选择的延迟阶数33.132.932.9A2.82.92.82.72.8L2.7024681002468100246810模型阶数模型阶数模型阶数(a)目标变量为X,(b)目标变量为X,(c)目标变量为X,3.13.1*选择的延迟阶数*选择的延迟阶数332.92.92.82.82.72.702468100246810模型阶数模型阶数(d)目标变量为X(e)目标变量为X,图2VAR(5)模型阶数选择Fig.2The order selection of VAR,(5)555梁慧玲等：基于分位数因子模型的高维时间序列因果关系分析第4期表1VAR，(5)

31、的10 0 次蒙特卡洛实验中因果关系结果的频率Table 1The frequency of causality results in 100 Mon-te Carlo implementations of VAR,(5)PCA-mBTS-QFM-方法CGCPMIMECGCCGCCGCXiX298%1%000XiX399%95%100%94%99%X2X98%99%40%72%99%X2X304%000X2X4100%98%50%98%100%X3Xi08%000XX201%000XX53%86%43%96%100%X4XI04%000X4X201%000XX302%000XXs100%97%

32、26%100%99%XXI02%000X5X2100%99%18%100%99%XX301%000X1,=0.4X1.t3-0.4X1.t-4+0.4X5.3+E1.X2,=0.4X2.11-0.3X2.5+0.5X1.1+E2.X3.,=0.4X3.5+0.3X3.4-0.4Xs.t-3+E3.X4.=0.6X4.13+0.3X5.13 0.4X2.14+E4.X5/=0.3Xs.1-1+0.4X5s.3-0.3X4.1+E5.(11)X6./=0.4X1.3+0.4X6.2-0.6Xg.2+E6.X7.,=0.3X7.,1 0.4X6.t-4+0.3X7.t3+E7.Xg.=0.5Xs.1

33、-4-0.2Xs.2+0.4Xs.3+Es.tXg,=0.5Xg.13 0.5X10.3+0.4X1.3+E9.X10.=0.5X7.t-20.5X10.t-30.3X10.-1+E10.t其中，E(i=1，10)表示高斯白噪声序列.仿真系统VAR1o（5）中真实存在的因果关系为Xi-X2,XIX6,XIX,XX4,X4Xs,XsXi,XsX3,X,-X4,X,Xs,X。X7,X,X10,XX。和X10X。,共计13个.其因果关系如图3所示，图4是利用AIC算法选择最佳模型阶数，图4aj分别代表目标变量为Xi,X2,X3,X4,Xs,X，X7,X，X,Xio 的AIC算法的实验结果，最小的AI

34、C对应最优的延迟阶数.表2 为VAR1o（5)的10 0 次蒙特卡洛实验中因1234567XX2原因变量吊1012345678910目标变量图3VAR1(5)真实因果关系（黑色表示存在因果关系)Fig.3The real causality diagram of VARo(5)(Black in-dicates causality)果关系的p0.9的频率，选择QFM-CGC的分位数为0.5.与线性VAR系统VAR（5)的实验结果相似，CGC和PCA-CGC无法完全正确识别式(11)中的因果关系,其中CGC识别正确因果关系X,X4,X。X,的频率为O,PCA-CGC识别正确因果关系XiX。的概率

35、未超过50%.本仿真系统中PMIME仍受许多虚假的因果关系干扰，识别正确因果关系XsX4的概率仅为6 9%.mB-TS-CGC和QFM-CGC都能正确识别所有因果关系，但mBTS-CGC正确识别的概率不高.虽然本文方法错误识别了虚假因果关系X。X，概率为8%，但综合比较，本文方法识别正确因果关系的概率更高，表现更好。虽然CGC理论上能正确区分直接因果关系和间接因果关系，但实验结果表明，CGC在仿真系统VAR（5)中仍然错误识别了XX,因果关系，这可能是受到间接因果关系XiX：XX,的影响.由于PMIME是基于KNN算法的，该算法受维度灾难的影响，对于多维度的数据处理不准确，因为随着维度的增加，

36、“看似相近”的两个点的距离越来越大，就会越来越“不像”，对于高度依赖距离的KNN算法其结果会影响准确率.PCA-CGC和QFM-CGC虽然方法类似，但PCA在降维时没有捕获隐藏的因素，尤其是这些因素可能改变时间序列的分布特征，造成PCA-CGC不能准确识别因果关系.mB-TS-CGC对每个变量的滞后阶数使用有监督的逐步向前选择，有效地减少VAR模型阶数，但在噪声的干扰下，其中一个条件变量选择错误会引起其他因果关系的判断不准确，最终造成该方法的假阴性较高。556第59 卷南京大学学报（自然科学）4选择的延迟阶数选择的延迟阶数选择的延迟阶数4*选择的延迟阶数O3.503503.53.5333302

37、468102468102468100246810模型阶数模型阶数模型阶数模型阶数(a)目标变量为X,(b)目标变量为X,(c)目标变量为X,(d)目标变量为X4选择的延迟阶数44选择的延迟阶数*选择的延迟阶数选择的延迟阶数23.503.53.5333302468100246810024681024610模型阶数模型阶数模型阶数模型阶数(e)目标变量为X,(U)目标变量为X。(g)目标变量为X,(h)目标变量为X4*选择的延迟阶数*选择的延迟阶数C3.53.5330268100246810模型阶数模型阶数()目标变量为X,()目标变量为XI。图4VAR1(5)模型阶数选择Fig.4The ord

38、er selection of VAR(5)表2VARio(5)的10 0 次蒙特卡洛实验中因果关系结果的频率Table 2The frequency of causality results in 100 Mon-te Carlo implementations of VARo(5)PCA-mBTS-QFM-方法CGCPMIMECGCCGCCGCXiX299%99%100%99%100%X,X32%95%75%57%91%XiX35%98%40%55%100%X,X40100%85%99%100%X,X,01%000XX88%99%099%100%XX51%85%100%57%100%XX3

39、36%100%100%99%100%XX495%69%100%97%100%XX23%99%100%80%94%XX0100%99%89%100%XX:0008%X,X10100%100%100%99%100%XX100%96%100%99%100%XX:01%000Xi0Xs01%000XioX100%100%100%99%100%3.2宏观经济时间序列使用宏观经济时间序列进行因果分析并建立预测模型，对因果分析结果进行验证，主要目标是从高维宏观经济变量面板中找寻与实际GDP变化趋势有因果关系的时间序列，该数据集由196 0 年第一季度至2 0 19年第二季度的2 11个美国宏观经济变量组成（

40、N=211,T=238）,其中的数据会及时更新，可以在网站(http:/research.stlouisfed.org/econ/mccrack-en/)免费下载.计算之前，对每个序列进行平稳性处理，代码也可以在FRED-QD数据网站上获得.利用因果关系的方法找出影响宏观经济变量的主要因素，剔除无关变量，保留相关变量，并将该相关变量作为预测模型的输人进行建模预测，根据预测误差反向验证因果分析方法的有效性，与Chenetal13相同，设置估计量的最大因子数k=8.使用秩最小化估计器13 估计分位数为(0.01,0.05,0.1,0.25,0.75,0.9,0.95,0.99)时的因子估计数如表3

41、所示.由表可见，QFA因子的数量在不同分位数之间存在显著差异，表明该数据集存在非标准因子结构.为了比较QFA因子和PCA因子，将QFA因子的每个元素与选择的八个PCA因子进行回归并计算这些回归中的R,结557梁慧玲等：基位数因子模型的高维时间序列因果关系分析第4期果如表413 所示.很明显，当t接近0.5时，QFA因子与PCA因子高相关,R均在0.9以上相比之下，T=0.9时的第一个QFA因子（表示为Fg%)和t=0.95,0.99时的第一个QFA因子（分别表示为F和Fo)与PCA因子的相关性较低，R低于0.4.因此，F%，F%和F%包含可能有助于预测宏观经济变量的额外信息，在此应用程序中有使

42、用QFA的空间.由表4可得，由于Fa%，F%和F%的R分别为0.316.0.2 6 1和0.266，与其他QFA因子相比，F与Fo器和F器有非常高的相关性,它们具有类似的捕获额外信息的能力，这些信息能够帮助预测宏观经济变量.因此，在后续分析中重点关注F%器和F%的预测能力。使用不同方法进行因果关系分析后，选出与目标变量具有因果关系的原因变量作为模型的输表3不同分位数下的因子估计数Table3Estimation of factors at different quantiles分位数t因子个数0.0110.0510.1020.2540.5050.7550.9020.9510.991表4FQFA

43、和FpcA的比较结果Table 4 Comparison of Fara and FpcsFoFA的元素的个数分位数t123450.010.6570.050.7330.100.7960.8710.250.9520.9320.9390.8900.500.9930.9760.9640.9450.9230.750.9060.9450.9430.9030.8820.900.3160.9110.950.2610.990.266入进行预测，并对分析结果进行进一步的验证.采用CNN-LSTM预测模型来分析每一种方法得出的因变量进行建模的预测效果，进行30 次实验，取平均值来消除偶然因素对实验结果的影响.最后

44、，采用均方根误差（RMSE）、平均绝对百分误差（MAPE）和对称平均绝对百分比误差（SM A PE）三个指标来定量评价预测精度，三个评价指标的定义如下：1RMSE=之（(J:一3.)(12)n=1100%yiMAPE(13)n=1yi100%nSMAPE:(14)nyi一2其中，y,和分别是真实值和预测值，n是样本个数.表5是不同方法预测GDP的精度比较，表中黑体字表示最优值.图5 10 展示了不同方法预测的GDP变化趋势.由表5可见，本文方法在0.90分位数条件下的RMSE，M A PE和SMAPE都是最小的,并在预测对比图中具有明显的优越性拟合效果，能更精准地追踪GDP的变化趋势.从表5还

45、可以看出，QFM-CGC识别出对GDP具有因果关系的变量主要与个人消费支出、私人固定投资、生产制造和消费有关.内需、投资和出口俗称拉动经济增长的“三驾马车”，尤其是消费需求是生产的目的，消费可以创造出生产的动力，并刺激投资需求，以此促进经济发展.然而，CGC未能识别出投资与GDP具有因果关系，表5GDP预测结果Table5Theprediction of GDP对比方法因变量（编号）RMSEMAPESMAPE28,64,74,104,CGC2.535582.30354 1.06974116,1624,9,11,16,18,26,36,mBTS-CGC60,66,86,89,102,2.3788

46、72.017091.06333138,141,148,203PCA-CGC6,70,71,77,141,1482.246802.065301.03592PMIME70,137,161,1631.909921.544850.95669QFM-CGC2,4,7,10,21,1.703791.468410.93114(T=0.90)79,163,171QFM-CGC2,4,7,10,21,26,1.808521.587680.95876(t=0.99)79,160,163,189558第59 卷南京大学学报（自然科学）10d-5PCA-CGC方法真实值-1010203040506070样本图5PCA

47、-CGC的GDP预测图Fig.5The prediction of GDP by PCA-CGC105-5CGC方法一真实值-1010203040506070样本图7CGC的GDP预测图Fig.7The prediction of GDPby CGC105Mda-5QFM-CGC方法真实值-1010203040506070样本图9QFM-CGC(T=0.90)的GDP预测图Fig.9The prediction of GDP by QFM-CGC(t=0.90)因此使用CGC来预测GDP造成的误差最大，虽然mBTS-CGC可以识别出许多因变量，但其中可能包含错误的因变量（如货币存量、国库券等）

48、，这些因变量会干扰预测结果，导致预测误差较大.PCA-CGC和PMIME识别出制造业和非监督员工的平均每周工作小时数与GDP之间有Granger因果关系，加班和额外的工作时间可能会增加生产和服务活动，对GDP产生积极影响.然而，过度的长时间工作可能导致劳动力疲劳，影响效率或产生健康问题，可能减少GDP.尽管制造业和非监督员工的平均每周工作小时数可能与GDP相关，但它们之间不一定存在Granger因果关系，因为过高或过低都会对GDP产生负面效应.实验结果与GDP影响关系是一致的，进一步验证了本文方法的有效性，10-5mBTS-CGC方法真实值-1010203040506070样本图6mBTS-C

49、GC的GDP预测图Fig.6The prediction of GDP by mBTS-CGC105PMIME方法-5真实值-1010203040506070样本图：PMIME的GDP预测图Fig.8The prediction of GDPbyPMIME105-5QFM-CGC方法真实值-1010203040506070样本图10QFM-CGC(tT=0.99)的GDP预测图Fig.10The prediction of GDP by QFM-CGC(t=0.99)3.3北京AQI及气象时间序列使用北京AQI及气象数据集进行因果分析，并建立预测模型，对因果分析的结果进行验证，该数据集选用2

50、0 16年1月1日到2 0 16 年6 月15日的每小时数据，共4008个样本，每个样本包括6 维AQI时间序列和5维气象时间序列，详细描述见表6.对每个对比模型的因果分析结果进行预测，表6 北京AQI及气象时间序列编号及变量对照表Table 6The number and variable comparison table ofBeijing AQI and meteorological time series编号123456变量PM2.5PM1oSO2NO2CO编号7891011变量气温气压露点降雨量风速559梁慧玲等：基于分位数因子模型的高维时间序列因果关系分析第4期根据预测的准确性来判

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于位数因子模型时间序列因果关系分析

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。