《应用统计学》第九章.pptx
《《应用统计学》第九章.pptx》由会员分享,可在线阅读,更多相关《《应用统计学》第九章.pptx(97页珍藏版)》请在咨信网上搜索。
1、应用统计学第九章第九章 回归分析回归分析2 目录页CONTENTS PAGE引导案例 如何估计每户每月日用杂货支出?一家超级市场股份有限公司正在考虑向一个新的地区发展业务,计划部主管必须向公司董事会的执行委员会提交一份有关发展计划的分析报告。作为报告中的一个关键部分,她需要提供那个地区居民每月在日用杂货项目上的支出信息。为此她以居民家庭为对象,就每户家庭的“每月日用杂货支出”“月收入”等变量收集了一个容量为40的样本数据,并针对“每月日用杂货支出”的数据,估计出“平均每户每月日用杂货支出”为840.63元。正准备引用这一数字时,计划部主管却突然发现有些不妥。分析报告中的有关部分已经细化到针对不
2、同收入水平居民的经营策略,而“平均每户每月日用杂货支出”的估计值,还只是一个笼统的估计数字,其中并未包含不同居民家庭收入水平差异的信息。因此,有必要与“月收入”关联起来,估计出不同收入水平居民家庭的“平均每户每月日用杂货支出”,这才符合分析报告写作的要求。“每月日用杂货支出”与“月收入”两变量的样本数据如表9-1所示。3 目录页CONTENTS PAGE4 目录页CONTENTS PAGE5 目录页CONTENTS PAGE第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析6 目录页CONTENTS PAGE第一节相关分析
3、概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析7 第九章回归分析第一节 相关分析概述一、相关关系如果反复观察表9-1中的样本数据,或许会隐约察觉到“月支出”与“月收入”两个变量之间的确有着某种关联。随着月收入的增加,月支出相应地也在增加。但这种判断是非常不明确的,关联的具体状态如何?关联的密切程度如何?这无法直接从表中数值看出答案。用表9-1中的数值绘制散点图,横轴代表月收入,纵轴代表月支出,如图9-1所示,图中各点分别由每一个观测点的月支出和月收入决定。此图直观地显示了数据中40户家庭月支出与月收入之间的关系。相关关系的概念(一)
4、8 第九章回归分析第一节 相关分析概述观察图9-1可知,这40户家庭月支出的观测值,除自身的上下波动之外,与月收入之间同时又具有一种协变关系。尽管这种协变关系表现出了某种不确定性,但从整体上看,月支出是沿着一定的方向,随着月收入的变化而变化。统计中将两变量之间的这种相对关系称作相关关系。散点图是从样本数据上直观判断两个数值型变量之间是否具有相关关系的常用工具。9 第九章回归分析第一节 相关分析概述相关关系与函数关系是不同的。在函数关系中,当一个变量的取值发生变化时,另一个变量有唯一确定的值与之相对应。在相关关系中,当一个变量的取值发生变化时,另一个变量的取值是不确定的,它遵循某种规律在一定范围
5、内变化。相关关系与函数关系的区别(二)10 第九章回归分析第一节 相关分析概述按相关形式不同,相关关系可分为线性相关和非线性相关。当一个变量的取值变动时,另一变量的取值整体上沿着一条直线变动,则称两者之间是线性相关关系或直线相关关系。例如,图9-1所示的月支出与月收入之间的关系就是具有一定程度的线性相关关系。按变动方向不同,线性相关又可分为正线性相关和负线性相关,如图9-2(a)(d)所示。正线性相关的两个变量,它们的变动方向相同;负线性相关的两个变量,它们的变动方向相反。相关关系的类型(三)11 第九章回归分析第一节 相关分析概述当一个变量的取值变动时,另一变量的取值沿着一条曲线变动,则称两
6、者之间是非线性相关关系或曲线相关关系,如图9-2(e)所示。如果两个变量各自独立、互不影响,则称两者不相关,如图9-2(f)所示。12 第九章回归分析第一节 相关分析概述13 第九章回归分析第一节 相关分析概述二、相关系数虽然散点图有助于观察和判断两个变量之间相关关系的类型及密切程度,但它毕竟是依赖肉眼观察,判断结果往往带有很强的主观性,不同的人甚至可能会得出不同的判断结果,这就需要一种尺度来客观地衡量两个变量之间相关关系的类型及密切程度。相关系数就可以充当这个尺度,它是反映变量之间相关关系密切程度的统计指标,用r表示,计算公式为:(9-1)相关系数的概念(一)14 第九章回归分析第一节 相关
7、分析概述相关系数的构造原理如图9-3所示。图9-3中标出了40个家庭的平均月日用杂货支出 与平均月收入 的位置。与 将所有的点划分为4个象限。正的线性相关表现出这样的特点:落在第1象限和第3象限的点多于落在第2象限和第4象限中的点。落在第1象限和第3象限中的点称为正相关点;落在第2象限和第4象限中的点称为负相关点;落在均值线 或 上的点称为零相关点。显然,对于正相关点,必然有 ;对于负相关点,必然有 ;对于零相关点,必然有 。称为积差。所有点的积差之和称为积差和,即 。相关系数的构造原理(二)15 第九章回归分析第一节 相关分析概述16 第九章回归分析第一节 相关分析概述从积差和公式不难看出,
8、如果积差和大于零,则表明正的方面的积差多于负的方面的积差,x和y之间将呈现出正的线性相关关系;如果积差和小于零,则表明负的方面的积差多于正的方面的积差,x和y之间将呈现出负的线性相关关系;如果积差和等于零,则表明正的方面的积差与负的方面的积差相互抵消,此时意味着x和y之间不存在线性相关关系。因此,积差和 就成为x和y之间是否具有线性相关关系以及线性相关关系强弱的一种度量。积差和与线性相关的关系(三)17 第九章回归分析第一节 相关分析概述但是,用积差和来度量x和y之间的线性相关关系有许多不便之处。首先,积差和的取值要受到x和y所采用的计量单位的影响;其次,样本点的多少对积差和的值也有影响,样本
9、点越多,积差和绝对值的取值就倾向于越大。然而,变量间的线性关系的强弱根本上取决于两个变量本身的性质,与计量单位的变化或样本点的多少没有关系,并不会因为计量单位或样本点的变化而改变变量之间本身所固有的线性相关关系的强弱。因此,需要进一步寻求测定线性相关关系强弱的普遍适用的尺度。18 第九章回归分析第一节 相关分析概述因为:所以:即:。相关系数r消除了积差和 中样本量和计量单位的影响因素,以一个系数来衡量两个变量之间线性相关关系的强弱。当 时,表明x和y之间不存在线性相关关系;当 时,表明存在正的线性相关关系;当 时,表明存在负的线性相关关系。r的绝对值越接近于1,表明线性相关关系越强,当r的绝对
10、值等于1时,表明x与y完全正相关或完全负相关。相关系数的取值范围(四)19 第九章回归分析第一节 相关分析概述相关系数的计算公式还可以等价变换为另外一种形式:(9-2)这个公式虽然表面上看起来比先前的理论公式显得繁琐一些,但由于避免了计算均值 与 的过程,也避免了计算离差 与 的过程,并由此减少了计算过程中四舍五入的误差,因此在实际运用中更便于手工计算。依此公式,只需根据样本数据计算出 ,和 这5个数据项,再将样本量n代入公式,即可得出相关系数的计算结果。相关系数的等价公式(五)20 第九章回归分析第一节 相关分析概述由表9-1中的样本数据计算所得的相关系数为0.945,这表明在月支出与月收入
11、之间存在着很强的正线性相关关系。通常,当 时,经验表明变量间具有中等强度的线性相关关系;而当 时,则认为变量间的线性相关关系很强。21 第九章回归分析第一节 相关分析概述若总体中两个变量的全部取值已知,则可以根据总体的数据计算出两个变量之间相关系数的理论真值。但这在现实中是做不到的,也就是说,两变量之间总体上的相关系数的理论真值总是未知的。一般情况下,只能根据随机样本数据计算出样本相关系数,再由样本相关系数来对总体相关系数的理论真值作出具有一定置信水平的推断。统计学家的研究表明,当总体相关系数等于零时,存在一个与样本相关系数相关的自由度为 的t统计量:(9-3)三、相关系数的显著性检验22 第
12、九章回归分析第一节 相关分析概述若总体相关系数等于零,则与样本相关系数有关的上述t统计量的值就不应过大或过小,因为t统计量过大或过小都是总体上两个变量之间具备线性相关关系的证据。因此,给定一个显著性水平,就可以在自由度为 的t分布下,确定衡量这个t统计量的值过大或过小的一个标准,即临界值 。如果 ,则表明相关系数r在统计上是显著的,也就是说在 的置信水平下,可以认为总体上两个变量之间是线性相关的。如果 ,则表明相关系数 在统计上是不显著的,也就是说在 的置信水平下,不能认为总体上两个变量之间是线性相关的。由表9-1中的样本数据所计算出来的样本相关系数为:。在 的显著性水平上进行相关系数显著性检
13、验的步骤如下。(1)提出原假设和备择假设,即 :总体相关系数 ,:总体相关系数 。(2)计算检验统计量的值,即23 第九章回归分析第一节 相关分析概述(3)作出统计决策。若给定显著性水平 ,在自由度为 的t分布下,可确定相应的临界值 。因为 ,所以拒绝原假设 ,也就是说,总体中在月支出与月收入之间存在着显著的线性相关关系,作出这一推断的置信水平为95%。当然也可采用P值进行决策,决策结果是相同的。针对表9-1中的样本数据,通过观察散点图,并计算相关系数,可以在一定的置信水平上确认:在月支出与月收入之间存在着正的线性相关关系。也就是说,随着月收入的增加,该地区居民家庭的每月日用杂货支出也将随之线
14、性增加。接下来的问题就是要找到这条直线,并确定下来,从而可根据“月收入”的不同取值,来估计“每月日用杂货支出”的取值。这就是线性回归分析方法要解决的问题。24 目录页CONTENTS PAGE第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析25 第二节 回归模型与回归方程第九章回归分析一、回归模型假定自变量x与因变量y在总体上存在着线性相关关系,可以用以下等式来模拟x与y之间的这种线性相关关系:(9-4)这个等式称为x与y的一元线性回归模型。模型中,因变量y的第i个取值 是以自变量x的第i个取值 为自变量的线性函数值 再
15、加上一个 。其中,;和 分别为线性函数的截距和斜率,称作模型参数。模型中的 是误差项的随机变量,它反映除x与y之间线性关系之外的随机因素对y的影响。在现实的总体中,y不是完全的线性依赖于x,它的取值除受x影响之外,还要受到其他各种可能因素的无法确定的或者说是随机的影响。因此,在回归模型中加上一个作为随机变量的误差项 ,是符合实际情况的,它代表了包含在 之中,但不能被x与y之间的线性关系所解释的变异性。但仅有这个回归模型还是远远不够的,由于误差项随机变量 的存在,给定一个自变量x的取值,仍然无法确切地估计出变量y的相应取值。26 第二节 回归模型与回归方程第九章回归分析二、回归方程为使分析更富于
16、成效,必须对模型误差项随机变量 的概率分布情况作出如下假定:(1)是期望值为零的随机变量,即 ;(2)的方差是相等的,即在自变量x的不同取值 下 ,对应的误差项随机变量 的方差都是相同的,可记作 ;(3)服从正态分布,即 ;(4)相互独立。在上述关于 的模型假定中,由于 ,将回归模型两边同时取数学期望,可得:(9-5)27 第二节 回归模型与回归方程第九章回归分析上式称为一元线性回归方程,表明 的期望值 是 的线性函数。其中,为直线的截距;为直线的斜率。由于 的取值是在确定的线性函数值 的基础上,再加上一个误差项随机变量,因此 也是一个随机变量,其随机性完全由 的随机性来决定。的方差为 ,的方
17、差也是 。服从正态分布,即 ;也服从正态分布,即 。回归模型中关于 的理论假定及其有关推论的内容,可通过图9-4较为直观地理解和把握。对应x的不同取值 ,的取值是随机的,且服从以 为数学期望,以 为方差的正态分布。28 第二节 回归模型与回归方程第九章回归分析29 第二节 回归模型与回归方程第九章回归分析总体回归函数中的误差项随机变量应满足同方差性,即它们都有相同的方差。如果这一假定不满足,则称线性回归模型存在异方差性。如图9-5所示,各个概率密度曲线的形状是不尽相同的,说明线性回归模型存在异方差性。如果实际问题中出现违反此种模型假定的情况,一般的线性回归分析方法原理也就失去了意义。30 目录
18、页CONTENTS PAGE第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析31 第三节 估计的回归方程第九章回归分析一、估计回归方程的概念 与 分别为回归方程 所代表的直线上的截距和斜率。如果 与 是已知的,回归方程就代表了一条确定的直线,只要给定自变量x的一个取值 ,就可以此方程得出对应的 的期望值。然而,总体中的 与 通常都是未知的。一个现实的解决方法是:按随机原则从总体中抽取样本,根据样本数据计算出 与 和 相对应的统计量的值作为对 与 的估计值。通过观察和研究样本数据,如果能够断定x与y之间确实存在着线性关系,
19、那么就可以通过某种方法为它们拟合出一个确定的直线方程,这个直线方程代表着x与y之间的线性相关关系,它是对总体回归方程的一个估计,故称之为估计的回归方程。估计回归方程的一般形式为 (9-6)式中,是 的一个估计值,是 的一个估计值,因而 是对 的估计。原问题归结为:如何针对样本数据计算得出 与 的具体值,从而确定估计回归方程的具体形式。32 第三节 估计的回归方程第九章回归分析二、参数的最小二乘估计仔细观察图9-1所给出的40户家庭月支出与月收入的散点图,尽管40个数据点处于一种分散状态,但他们整体上都围绕着一条向上的直线上下波动。这表明月支出y与月收入x之间具有一种正的线性关系,相关系数的计算
20、结果支持这一判断。现在需要为这些散点拟合一条直线,即确定估计回归方程的具体形式。直线拟合的最常用方法是最小二乘法,如图9-6所示。33 第三节 估计的回归方程第九章回归分析理论上讲,介于这些散点之间的直线有无数条,应当从中找出与所有的点拟合效果最优的那一条。最优的拟合效果要求各个月支出的观测值 与对应的估计值 之间的距离应最短,即 要取得最小值。但由于该式中的绝对值符号在数学处理上非常麻烦,因此转而要求各个距离的平方和要达到最小值,即 为最小值。这就是最小二乘法的基本思想。在上式中,以及n都是已知的样本数据,与 则是未知的。根据微积分的极值原理,与 在满足下列方程组时,上式中的距离平方和可以取
21、得最小值,即 34 第三节 估计的回归方程第九章回归分析整理得 (9-7)式中,代表第 次观测自变量的观测值;代表第 次观测因变量的观测值;n代表观测次数或样本量。将样本数据代入式(9-7)中,即可解得 与 的数值,从而可确定估计的回归方程。在引导案例中,经过简单计算可得:,。将它们代入式(9-7)得35 第三节 估计的回归方程第九章回归分析解得 因此,通过最小二乘法所获得的估计的回归方程为:。对于自变量x的任意给定值 ,的取值将处于图9-6所示的同一条直线上。所得到的估计回归方程的斜率为正 ,这表明随着月收入的增加,月支出也随之增加。其截距为负值 ,在此处它仅起到决定估计回归方程所代表直线在
22、图形中位置的作用。36 第三节 估计的回归方程第九章回归分析三、判定系数 与 之间的离差,即 ,称为样本中第 次观测的残差,如图9-7所示,它是用 来估计 时产生的误差。当所有样本点的残差平方和是一个最小化的量时,这个最小化的量称为残差平方和或误差平方和,记作SSE,其计算公式为 (9-8)估计的回归方程用自变量来估计因变量的取值总是要产生误差的,SSE从整体上度量了这种误差的大小,其值越小越好。判定系数的概述(一)残差平方和137 第三节 估计的回归方程第九章回归分析样本中第 次观测的因变量估计值 与因变量均值 之间的离差称为第 个回归离差,即 ,如图9-7所示。所有回归离差的平方和称为回归
23、平方和,记作SSR,其计算公式为 (9-9)回归平方和238 第三节 估计的回归方程第九章回归分析样本中第 次观测因变量的观测值 与因变量均值 之间的离差称为第 个总离差,即 ,它是用 去估计 时所产生的误差。所有离差的平方和被称为总离差平方和或称总平方和,记作SST,其计算公式为 (9-10)SST从整体上度量 估计 所产生的误差,反映了因变量观测值总的变异性。显然,同一问题中总离差平方和SST大于误差平方和SSE。式(9-10)可分解为总离差平方和339 第三节 估计的回归方程第九章回归分析由回归分析的独立性假定,可得 ,所以有 即 (9-11)式(9-11)表明,总离差平方和可以分解为回
24、归平方和与残差平方和两部分。40 第三节 估计的回归方程第九章回归分析回归平方和(SSR)与总离差平方和(SST)的比值称为判定系数,用 表示,计算公式为 (9-12)判定系数 的取值范围为 。越接近于1,表明估计回归方程对样本数据的拟合效果越好;越接近于0,表明估计回归方程拟合效果越差。判定系数的概念441 第三节 估计的回归方程第九章回归分析在引导案例中,通过计算可得残差平方和 ,这从整体上度量了估计的回归方程 估计月支出时所产生的误差大小;回归平方和 ,它从整体上度量了 与 之间偏差的大小;总离差平方和 。因此,判定系数为 结果表明,总离差平方和中的89.25%的变异性,能够被估计的回归
25、方程 所解释。换句话说,40户家庭每月日用杂货支出的变异性,89.25%能够被月日用杂货支出与月收入之间的线性关系所解释。判定系数的应用(二)42 目录页CONTENTS PAGE第一节相关分析概述第二节回归模型与回归方程第三节估计的回归方程第四节检验和预测第五节残差分析第六节运用SPSS进行回归分析43 第四节 检验和预测第九章回归分析一、F检验 理论分析(一)在回归方程 中,如果其斜率 ,则有 ,回归方程此时为一条水平直线,这表明 的均值 不依赖于 变化,意味着总体中y与x之间不存在线性相关关系。因此,总体中y与x存在线性相关关系的充要条件是 。估计的回归方程是对回归方程的一个估计。回归方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用统计学 应用 统计学 第九
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。