第四章古典线性回归模型.doc
《第四章古典线性回归模型.doc》由会员分享,可在线阅读,更多相关《第四章古典线性回归模型.doc(18页珍藏版)》请在咨信网上搜索。
上课材料之五 第四章 古典线性回归模型 在引论中,我们推出了满足凯恩斯条件的消费函数与收入有关的一个最普通模型:C=α+βX+ε,其中α>0,0<β<1ε是一个随机扰动。这是一个标准的古典线性回归模型。假如我们得到如下例1的数据 例1 可支配个人收入和个人消费支出 年份 可支配收入 个人消费 1970 751。6 672。1 1971 779.2 696.8 1972 810.3 737。1 1973 864.7 767.9 1974 857.5 762.8 1975 847。9 779。4 1976 906。8 823。1 1977 942.9 864.3 1978 988.8 903。2 1979 1015.7 927。6 来源:数据来自总统经济报告,美国政府印刷局,华盛顿特区,1984. (收入和支出全为1972年的十亿美元) 一、线性回归模型及其假定 一般地,被估计模型具有如下形式: yi=+βxi+εi,i=1,…,n, 其中y是因变量或称为被解释变量,x是自变量或称为解释变量,i标志n个样本观测值中的一个.这个形式一般被称作y对x的总体线性回归模型。在此背景下,y称为被回归量,x称为回归量。 构成古典线性回归模型的一组基本假设为: 1。 函数形式:yi=+βxi+εi,i=1,…,n, 2. 干扰项的零均值:对所有i,有:E[εi]=0。 3。 同方差性:对所有i,有:Var[εi]=σ2,且是一个常数。 4。 无自相关:对所有i≠j,则Cov[εi,εj]=0。 5。 回归量和干扰项的非相关:对所有i和j有Cov[xi,εj]=0。 6. 正态性:对所有i,εi满足正态分布N(0,)。 模型假定的几点说明: 1、函数形式及其线性模型的转换 具有一般形式 对任何形式的g(x)都符合我们关于线性模型的定义。 [例] 一个常用的函数形式是对数线性模型: 。 取对数得: 。() 这被称作不变弹性形式。在这个方程中,y对于x的变化的弹性是 , 它不随x而变化。与之相反,线性模型的弹性是: 。 对数线性模型通常用来估计需求函数和生产函数。 尽管线性模型具有巨大的灵活性,但在实际中存在着大量的非线性模型的形式。 例如,任何变换也不能将 和(0<<1) 转化为线性回归模型. 2、回归量 对于回归量即解释变量我们有两种处理方法,第一种将X设定为非随机变量,第二种方法将X设定为随机变量. 1)当X为非随机变量 xi的值在yi的概率分布中是已知的常数。这条假定暗示yi的每一个值都是一个概率分布的观察值,这个概率分布具有均值 和方差 。 此外,有必要假定,对n≥1 是一个有限正数,这个假定被称作识别条件,若xi没有任何变化,我们所有的观测值将落在一条垂直线上,我们的观测数据将不允许我们作出关于回归+βx的任何推断.这个识别条件等同于子样的极差max(X1,…,Xn)-min(X1,…,Xn)≠0。 2)当X为随机变量 若x被当作一个随机变量,则假定1成为一个对y和x的联合分布的陈述。 我们就用条件期望和方差来处理。 3、随机干扰项 1)如果干扰项不是零均值,即E[εi]=μ,对所有的i,则+βx+εi等同于(+μ)+βx+(εi-μ),令′=+μ及εi′=εi-μ可得到模型,,此模型满足我们原始模型的要求。 2)观测值中的随机部分假定是不相关的: E[εiεj]=0 对所有i不等于j。 这被称为非自相关. 二、最小二乘法 1 最小二乘系数 总体回归是E[yi|xi]= +βxi,而我们对E[yi|xi]的估计记作 。 和第i的数据点相联系的干扰项是 对a和b的任何值,我们用残差 来估计εi,从这些定义可知: 。 对任何一对值a和b,残差平方和是: 最小二乘法系数就是使这个拟合标准达到最小的a和b的值.最小化的一阶条件是 和 将上两式展开合并同类项后得到正规方程组 (1) (2) (1)式暗示,而(2)式暗示 为了得到解,我们首先用n除(1)结果是 最小二乘回归线通过均值点。现在分离a: (3) 有了a后,我们可以求解(2)得到b。首先,。将此和(3)代入(2)并重新安排各项。 或 最小的残差平方和,对a和b的二阶微商矩阵是 . 我们必须表明这是一个正定矩阵,两个对角元素永远为正,所以仅需证明行列式为正,行列式为,所以行列式为 由识别条件得知这是一个正值。这样a和b是平方和的最小化因子。 2 回归拟合的评价 1)回归量x是非随机变量 总变差是离差的平方和: 第二个等式成立是因为 我们将其写作 总平方和=回归平方和+残差平方和 或 SST=SSR+SSE。 我们利用下式得到一个关于回归直线对数据拟合程度的度量 为了方便计算与分析,约定 和 x和y间的样本相关系数是。利用我们得到,这表明回归的斜率和x、y间的相关系数具有相同的符号,而且 . 这进一步证明了我们利用R2作为回归模型拟合优劣指标的正确性。 3 方差分析表 进一步研究回归平方和SSR与残差平方和SSE,我们可以得到下面三个结论: a)在β=0的假设条件下,回归平方和服从自由度为1的卡方分布x2(1)(为什么?); b)残差平方和服从自由度为n-2的卡方分布x2(n-2); c)在β=0的假设条件下,服从F(1,n-2)分布。现在我们来证明这三个结论. 证明: a),其中,易知, 。 可以验证是幂等矩阵。 在β=0的假设条件下,才服从自由度为1的卡方分布x2(1)(为什么?) b)因为 所以 易验证也是幂等矩阵 最后一个等式成立是因为。 所以,从而。此结论成立不需要β=0的假设条件下,为什么? c)因为 所以SSR与SSE是相互独立的统计量。从而,在β=0的假设条件下,服从F(1,n-2)分布,所以,可以用来作模型的整体检验的统计量。 概括这些计算的一个方便的途径是方差分析表,可总结在方差分析表1中。 表1 方差分析表 变差来源 变差 自由度 均方 回归 SSR=b2Sxx 1 残差 n-2 总 SST=Syy n-1 2)回归量X是随机变量 我们要利用方差分解公式 = 我们将它应用到子样空间里来,即 所以,两边去掉1/n后得到: 我们得到了和把X当成非随机变量时同样的结果,因此,方差分析表也是一样的。 考虑消费函数的例子,这里C是消费而X是收入,我们得到 总平方和的各个部分为 总平方和=64,972。12 回归平方和=64,435。13 残差平方和=537.00 显然,此回归提供了一个很好的拟合. 对消费和收入数据,方差分析表如下所示 例1数据的方差分析表 变差来源 变差 自由度 均方 回归 64,435.15 1 64,435.13 残差 537。00 8 67。124 总 64,972.13 9 7,219。12 另一个计算和通常R2相类似公式是: 任何一个模型的残差都可用来计算。 三、最小二乘法估计量的统计特征 我们利用了最小二乘法,从纯粹的代数方法,求得所拟合的最小二乘系数a和b,从统计意义上来说,这个结果可以看作是对参数和β的一个估计(因为还存在着利用其他估计方法得到的估计)。我们现在对a、b的无偏性,有效性和精确度等统计特性作分析。 我们所考虑的计量模型是: β的最小二乘估计是 (1) 其中权数, (2) 仅仅是x1,…,xn的一个函数。 1、b是β的无偏估计 将代入(1),我们得到 (3) 所以 (4) 这是因为.不论ε的分布如何,在我们其他假定下,b是β的一个无偏估计量,利用(3)得到b的样本方差 线性回归模型的假定4暗示这个和的方差中的协方差项是零,所以有 特别要注意b的方差中的分母。x的变差越大(也就是x的采样范围越广),则这个方差越小。 2、a是α的无偏估计 对于最小二乘截距a,我们有: 利用(3)式并加以整理,我们有 其中 由于求和中每一项的期望都为0,所以a也是α的估计量无偏估计量。a的样本方差就是的方差,根据独立性有 (通过对括号中的项进行平方并利用的结果,可以得到上式中后一结果)。 3、a、b估计量的协方差矩阵 两个估计的协方差是 a和b两者都有的形式,因此它们都是线性估计量,前边给出了它们的样本均值和方差并证实了它们是无偏的.正如已指出的,还存在利用数据估计和β的其他方法。然而,从线性无偏估计量的角度,没有任何估计量比最小二乘估计量具有更小的样本方差,这就是高斯—马尔科夫定理。 ****当把正态分布干扰项的假定加入上面的过程时,我们得到估计量的分布的一个完备的结果。由于a和b两者都是正态分布变量的线性函数,因而它们也都是正态分布的。其均值和方差已导出,概括起来,在正态性假设下,有 4、b是β的最小线性无偏估计。 思考:证明b=是线性无偏估计量中,方差最小的一个估计量。 [证明] 令另一个估计量是 在等式两边取期望,我们可以看到,若使是无偏的,必须有及。这样,.的方差是 令 利用,易得到,这就是在的方差中只留下两个平方项,这意味着一定大于. 推导 四、最小二乘估计量的统计推断 在前面的内容里,我们在假定干扰项是正态分布和样本X1,…Xn是非随机的条件下,给出了最小二乘估计量的确切的样本分布。但通常的参数估计过程包括构造置信区间和对α和β值的假设检验。为了做到这一点,我们需要参数的真正样本方差的估计,这将需要对未知参数的一个估计,并构造假设检验方法。 1、的无偏估计量的推导 由于是的期望值,而的一个估计, 似乎是一个自然的估计量,通过写出,并把,代入,我们得到 (1) 我们对某一个别干扰项的估计受两种因素的扭曲:所有干扰项的样本平均和我们可以归于β并非完美估计这一事实所造成的影响。回忆所有干扰项是独立的,所以。现在我们平方的两边并取期望值,可得到 在对这些项求和时,我们利用。整理后,我们有 这表明的一个无偏估计量是 这样,我们可以得到b的抽样方差的一个估计为 . 以后,我们将用记号表示一个估计量的抽样方差的一个样本估计. t分布统计量的构造 (1) 的分布是标准正态。由服从 (2) 并且和b是独立的。 根据(1)和(2),我们得到: 是一个标准正态变量和一个除以其自由度的卡方量的平方根之比,它服从自由度为(n-2)的t分布。这样,记,则比率 (3) 可以形成统计推断的基础. 2、抽样分布 β的置信区间将以(3)为基础。特别的,我们可以有 ≤≤, 其中是要求的置信水平,是来自于自由度为(n-2)的t分布的适当的临界值。利用a及其估计方差,可以同样地构造α的置信区间. 3、β的假设检验 我们也可以构造干扰项方差的置信区间,利用(2)和前边的同样推理,我们得到的95%置信区间是 一个相关的过程是检验参数是否取一给定值,为了检验假设 , 最简单的过程是利用我们的置信区间,置信区间给出了在给定样本数据情况下,β的一个似乎可能的值的集合,如果这个集合不包含β0,则原假设应该被拒绝.在原假设下,比率 服从自由度为(n-2)的t分布,其均值为0。这个比率在任何尾部的极端值都将使假设值得怀疑.这样,一般地,若 , 我们将拒绝H0。这里,是来自于自由度为(n-2)的t分布的100(1-λ/2)%临界值。 例子 在前边的回归中,我们得到 a=-67.5806 和 b=0.9793. 为了计算标准误差,我们需要 和 对一个自由度为n-2=8的分布,95%临界值是2。306。所以,α和β的95%置信区间分别是 -67。5806+2。306(27.91) 或 -131.94 至 -3。22 和 0.9793+2.306(0.03161) 或 -0。90641 至 -1。0522 我们得到基于自由度为(10-2)=8的x2分布的σ2的置信区间, 相应的临界值是2.18和15.5,所以置信区间是 <σ2< 或 30.62<σ2<246。33 这可能显得太宽了.然而,我们通常对ε的标准差比对其方差更感兴趣.基于同样这些结果的σ的95%置信区间是5.89至15.69。 五、预测 除了参数的估计外,回归的最常见的作用是进行预测.假定x0是回归量的已知值,且我们对预测与x0相应的y的取值y0感兴趣.我们将试图对真值y0进行预测: 1.个体预测(Individual Prediction) 预测值将是 ,(,且 i=1,…,n) 预测误差是 在两边取期望有E[e0]=0。所以,在预测误差均值为0这个意义上最小二乘预测是无偏的.预测误差的方差是 所以 又因为 所以分布。 我们能够为y0构造一个预测区间,它具有和个别参数置信区间相同的形式,特别地,我们的预测区间将是 (3) 2.均值预测(Mean Prediction) 均值预测是预测值是 而不考虑随机干扰项。 预测误差是 在两边取期望有E[e0]=0.所以,在预测误差均值为0这个意义上最小二乘预测是无偏的。预测误差的方差是 所以 又因为 所以分布. 我们能够为y0构造一个预测区间,它具有和个别参数置信区间相同的形式,特别地,我们的预测区间将是 (4) 例子 利用例1中的消费数据,如果1980年的可支配收入预测是1030美元(十亿),为了计算一个预测区间,我们需要 a=-67.5806 , b=0。9793 , s2=67.125 , , Sxx=67,192。44 n=10 。 t分布的临界值是2.306,将这些代入3得到一个预测区间是: -67。5806+0.9793(1030)+2.306(9。8256) 即 941.1+22.658。- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 古典 线性 回归 模型
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文