线性回归模型的研究.doc
《线性回归模型的研究.doc》由会员分享,可在线阅读,更多相关《线性回归模型的研究.doc(17页珍藏版)》请在咨信网上搜索。
1、丽水学院2014届学生毕业(设计)论文线性回归模型的研究学院:理学院 班级:金融数学10本 姓名:俞超迪 指导老师:杨毅【摘要】:本文首先对回归分析的定义、主要内容、基本思想、实现过程进行了阐述,指出了它的优点及存在的问题。对NBA比赛中的各因素和中国人口的预测进行了研究。最后对整篇文章做了个总结。【关键词】:回归分析;回归模型;检验;预测1 引言回归分析最早是由19世纪末期高尔顿(SirFrancisGalton)发展的。1855年,他发表了一篇文章名为“遗传的身高向平均数方向的回归”,分析父母与其孩子之间身高的关系,发现父母的身高越高或的其孩子也越高,反之则越矮。他把儿子跟父母身高这种现象
2、拟合成一种线性关系。但是他还发现了个有趣的现象,高个子的人生出来的儿子往往比他父亲矮一点更趋向于平均身高,矮个子的人生出来的儿子通常比他父亲高一点也趋向于平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”。于是“线形回归”的术语被沿用下来了。回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。按照参数估计方法可以分为主成分回归、偏最小二乘回归、和岭回归。一般采用线
3、性回归分析,由自变量和规定因变量来确定变量之间的因果关系,从而建立线性回归模型。模型的各个参数可以根据实测数据解。接着评价回归模型能否够很好的拟合实际数据;如果不能够很好的拟合,则重新拟合;如果能很好的拟合,就可以根据自变量进行下一步推测。回归分析是重要的统计推断方法。在实际应用中,医学、农业、生物、林业、金融、管理、经济、社会等诸多方面随着科学的发展都需要运用到这个方法。从而推动了回归分析的快速发展。2 回归分析的概述 2.1 回归分析的定义回归分析是应用极其广泛的数据分析方法之一。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方
4、法。2.2 回归分析的主要内容(1)从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。(2)对这些关系式的可信程度进行检验。(3)在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。(4)利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。2.3一元线性回归与多元线性回归的分析一元线性回归模型, 是分析两个变量之间相互关
5、系的数学方程式, 其一般表达式为y=a+bx式中, y表示因变量的估计值, x 表示自变量, a,b 称为回归模型的待定参数, 其中 b 又称为回归系数。上述的回归方程式在平面坐标系中表现为一条直线即回归直线。当 b0 时 y 随 x 的增加而增加, 两变量之间为正相关关系; 当 b0 时,y 随 x 的增加而减少, 两变量之间为负相关关系; 当y为一个常量时, 不随x的变动而变动。这样就为我们判断现象之间的关系, 分析现象之间是否处于正常状态提供了一条标准。多元线性回归模型旨在分析两个或者两个以上的自变量作用后产生的结果,即多个自变量下的因变量结果,研究的是随机变量y与多个普通变量x1,x2
6、, xp, (p2),的相关关系。表达式为y=0 +1 x1 +2 x2 +pxp+,对随机误差项常假定E()=0,Var()=2。并且称E(y)= 0 +1 x1 +2 x2 +pxp为理论回归方程。在实际应用中,如果获得n组观测数据(xi1 ,xi2,xip ;yi),i=1,2,n,则线性回归模型变为y=0 +1 xi1 +2 xi2 +p xip +i 。并且,量y与自变量x之间的关系往往是非线性关系,而不是简单的线性关系。但在非线性回归分析研究实际问题时,往往选择可以通过一定变换后能转换成线性关系的研究模型,从而避免了非线性回归分析的计算的复杂性。随着技术的不断进步,研究过程中经常运
7、用到计算机,复杂的非线性回归分析模型也将被应用在研究中,而且会越来越频繁。2.4 回归分析的基本思想在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一类变量称为自变量,用X来表示。回归分析研究的主要问题是:(1)确定Y与X间的定量关系表达式,这种表达式称为回归方程;(2)对求得的回归方程的可信度进行检验;(3)判断自变量X对因变量Y有无影响;(4)利用所求得的回归方程进行预测和控制。2.5回归分析的实现过程(1)确定变量:明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场
8、调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。(2)建立预测模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。(3)进行相关分析:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。(4)计算误差
9、量:回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。(5)确定预测值:利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。2.6回归分析的优缺点回归分析的优点是在分析多个因素模型的时候,更加的简单有效,可以准确的计量多个因素之间的相关程度与回归拟合程度的高低,从而提高预测方程式的准确性。但有时候在回归分析中,选用何种因子和该因子采用何种表达式只是一种推测,这影响了因子的多样性和某些因子的不可测性,使得回归分析在某些情况下受到限制。3 回归分析的应用3.1一元线性回归分析
10、中国人口发展的第四个高峰期是在新中国建立之后的50年。在这一时期里,中国人口的大展呈现着许多复杂的特点,而且这些特点都与中国历史时期人口有着密切的关系人口问题一直是一个全球性问题,也是中国经济社会发展和可持续发展的一个基本问题。2010年,中国人口总数已经达到134091万,全世界大约683059万人。全世界平均五个人中就有一个是中国人。中国人口的特点是基数大、育龄人群和农村人口的比重高、增长速度较快而且地区分布不均匀。虽然中国人口基数大,但是每年净增人口数也很大。那么未来人口增长趋势如何呢,未来男性比重、人口老龄化趋势、城市人口比重又如何呢?查阅大量资料得到以下数据 年份总人口(万)男性人口
11、比重(%)城市人口比重(%)199612238950.8230.48199712362651.0731.91199812476151.2533.35199912578651.4334.78200012674351.6336.22200112762751.4637.66200212845351.4739.09200312922751.5040.53200412998851.5241.76200513075651.5342.99200613144851.5244.34200713212951.5045.89200813280251.4746.99200913345051.4448.34201013
12、409151.2749.95201113473551.2651.27观察历年总人口散点图,发现变量间呈线性相关趋势,所以应该选取一元线性回归的方法。通过spss软件回归分析得到下图模型拟合度检验模型汇总b模型RR 方调整 R 方标准 估计的误差1.995a.990.989393.666a. 预测变量: (常量), 年份。b. 因变量: 总人口其中第二列R表示复相关系数,其反映的是自变量与因变量之间的密切程度。其值在0到1之间,越大越好。第三列R方是复相关系数的平方,又称决定系数。通过观察这几个数据,可知拟合情况很好。方差分析表Anovaa模型平方和df均方FSig.1回归217948139.1
13、361217948139.1361406.364.000b残差2169618.30114154972.736总计220117757.43815a. 因变量: 总人口b. 预测变量: (常量), 年份。从上图中可知,回归模型的Sig值为0,说明该模型有显著的统计意义。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-1474830.96342773.884-34.480.000年份800.64021.350.99537.502.000a. 因变量: 总人口根据上图得到拟合的结果为总人口=年份*800.640-1474830.963。但是一个完整的回归分析过程还包括利用残差分析
14、,对拟合结果进行检验。下图中所示的是与残差值有关的一些统计量,包括预测值及标准化的预测值、残差及残差的预测值的最小值、最大值、均值、标准差和样本值。这些数据中无离群值,且数据的标准差也比较小,可以认为模型是健康的。残差统计量a极小值极大值均值标准 偏差N预测值123245.89135255.48129250.693811.80716残差-856.890403.272.000380.31716标准 预测值-1.5751.575.0001.00016标准 残差-2.1771.024.000.96616a. 因变量: 总人口对于模型的检验,除了分析残差统计量之外,还可以直接作出标准化残差值的直方图和
15、正态P-P图来观察其是否服从正态分布。如下图所示,由于残差具有正态分布的趋势。因此可以认为这里的回归模型是恰当的。观察历年城市人口比重散点图,发现变量间呈线性相关趋势,所以应该选取一元线性回归的方法。通过spss软件回归分析得到下图模型拟合度检验模型汇总b模型RR 方调整 R 方标准 估计的误差11.000a1.0001.000.13627a. 预测变量: (常量), 年份。b. 因变量: 城市人口比重通过观察这几个数据可知拟合度很好。Anovaa模型平方和df均方FSig.1回归643.0461643.04634629.231.000b残差.26014.019总计643.30615a. 因变
16、量: 城市人口比重b. 预测变量: (常量), 年份。回归模型的Sig值为0,说明该模型具有显著的统计意义。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-2714.34214.806-183.322.000年份1.375.0071.000186.089.000a. 因变量: 城市人口比重拟合的结果为城市人口比重=年份*1.375-2714.342。同样可以通过以上两种方法对拟合结果进行检验,发现该回归模型是恰当的。结论通过建立回归模型可以预测未来几年内中国人口,中国人口一直呈现上升趋势,上升速度基本平缓,没有出现很大的波动,但上升幅度有略微的下降。同样通过回归模型能够预
17、测未来几年内中国城市人口比重,中国城市人口比重也一直呈现上升趋势,上升速度快,城市人口越来越多,已经超过50%,未来几年内还会继续上升,没有下跌的趋势,而且上升幅度基本不变。结合实际情况,比如“计划生育”方面可以改善一下,适当的放宽要求。3.2多元线性回归分析篮球运动是一项热门的竞技体育运动项目,由两队参与的球类运动。篮球比赛强调篮球运动员之间的配合来完成比赛。而篮球运动对运动员的技战术和身体素质要求越来越高,尤其是当今世界篮球水平最高的联赛是美国的国家篮球协会(NBA),其对技术的要求比起其他赛事更高。优秀的篮球技术是战术运用的基础。传统上把篮球技术分为进攻技术和防守技术两种,包括移动动作、
18、控制球权、支配球权和争夺球权,当然也包括由这些动作随意组合所组成的动作体系。众所周知,影响每一场比赛胜负的原因有很多,既有偶然性,但更多的是必然性的。那么是哪些主要的技战术动作主导着NBA2012-2013赛季季后赛每支参赛球队的最终排名呢?从而能够提高这些技战术动作能力来提高排名。通过对NBA2012-2013赛季季后赛数据的进行回归分析就能得到答案。NBA季后赛是世界最高水平的比赛,各支球队以夺取总冠军为最高荣誉和目标,而且NBA比赛也为各支球队的战术、实力的表现提供了平台。之所以NBA的吸引力大是因为比赛精彩,战术、球员能力高。根据NBA中文官方网站提供的数据统计情况,发现有总投篮出手、
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。