统计学知识点梳理.doc
《统计学知识点梳理.doc》由会员分享,可在线阅读,更多相关《统计学知识点梳理.doc(13页珍藏版)》请在咨信网上搜索。
1、统计学第一章 导论1.1.1什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。数据分析所用的方法分为描述统计方法和推断统计方法。1.2统计数据的类型1.2.1分类数据、顺序数据、数值型数据按照所采用的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示。例如:支付方式、性别、企业类型等。顺序数据:只能归于某一有序类别的非数字型数据。例如:员工对改革措施的态度、产品等级、受教育程度等。数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。例如:年龄、工资、产量
2、等。统计数据大体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。1.2.2观测数据和实验数据按照统计数据的收集方法,可以分为观测数据和实验数据。观测数据:通过调查或观测而收集的数据。例如:降雨量、GDP、家庭收入等。实验数据:在实验中控制实验对象而收集到的数据。例如:医药实验数据、化学实验数据等。1.2.3截面数据和时间序列数据按照被描述的现象与时间的关系,可分类截面数据和时间序列数据。截面数据:在相同或近似相同的时间点上收集的数据。例如:2012年我国各省市的GDP。时间序列数据:同一现象在不同的时间收集的数据。例如:2000-2012年湖北省的GDP。1.3.1总体和样本总
3、体:包含所研究的全部个体(数据)的集合。样本:从总体中抽取的一部分元素的集合。1.3.2参数和统计量参数:用来描述总体特征的概括性数字度量。统计量:用类描述样本特征的概括性数字度量。例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的人均纯收入;统计量是1000个家庭的人均纯收入。第二章 数据的搜集2.1数据的来源2.1.1数据的间接来源间接来源的数据:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。例如:统计公
4、报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。二手数据的优缺点:优点:搜集方便,采集成本低,数据采集快,作用广泛等。缺点:针对性不够。2.1.2数据的直接来源普查:调查针对总体中的所有个体单位进行。普查数据的优缺点:优点:调查范围广,被调查单位多,信息全面,完整。缺点:调查费时,费力,费钱。2.2调查数据2.2.1概率抽样和非概率抽样重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止的抽样方法。简单随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的概率被抽
5、中的抽样方式。分层抽样:在抽样时,将总体分成互不交叉的若干个层级,然后按一定的比例,从各层次独立地随机抽取一定数量的个体,将各层次取出的个体合在一起作为样本。整群抽样:先将总体划分为若干群体,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进行观察的抽样方式。方便抽样:调查过程中由调查员依据方便原则,自行确定入样单位。滚雪球抽样:调查时首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查的调查方式。2.4.1抽样误差样本量与抽样误差成反比。随着样本量的逐渐增大,抽样误差就越小。2.4.3误差的控制通过样
6、本量的大小控制可以改变误差大小,要求的抽样误差越小,所需要的样本量就越大。第三章数据的图表展示3.2.1分类数据的整理与图示(3)饼图主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。适合于描述结构性问题。(4)环形图显示多个样本各部分所占的相应比例。适合于比较研究两个或多个样本或总体的结构性问题。3.3.1数据分组为解决数据分组不重的问题,统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组。(axb)3.3.2数值型数据的图示1.分组数据:直方图用于展示分组数据分布的一种图形。直方图与条形图区别:条形图:条形
7、长度表示频数;宽度固定不变;矩形分开排列;展示分类数据直方图:面积表示频数;宽度表示组距;矩形连续排列;展示数值型数据3.时间序列数据:线图主要用于反映现象随时间变化的特征,描述其变化趋势。4.多变量数据的图示(1)散点图适合用于描述两变量之间是否存在某种关系。数据图示的原则:适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概率性度量4.1集中趋势的度量集中趋势:一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。原则:低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量
8、数据4.1.1 分类数据:众数一组数据中出现次数最多的变量值。适合于数据量较多时使用。主要用于分类数据,也可用于顺序数据和数值型数据。4.1.2顺序数据:中位数和分位数1.中位数一组数据排序后处于中间位置上的变量值,用Me表示。中位数将全部数据平分为两部分,各占50%数据。适用范围:顺序数据、数值型数据的集中趋势测度,不适用于分类数据测量。中位数计算步骤:1.数据排序;2.确定中位数位置;3.确定具体值中位数位置计算:(n+1)/2中位数值的计算:奇数时,X(n+1)/2;偶数时,1/2X(n/2)+X(n/2+1)2.四分位数将一组数据数据排序后四等份(各占25%数据),处于25%位置点(下
9、四分位)和75%位置点(上四分位)上的值。四分位数计算步骤:1.数据排序;2.确定四分位数位置;3.确定具体值四分位数位置确定方法:(不同确定方法,不同四分位数值)QL=n/4;QU=3n/4整数位置:整数对应值0.5的位置:两侧值得平均值0.25或0.75的位置:下侧值+(上侧值下侧值)*0.25或者0.754.1.3数值型数据:平均数一组数据相加之后除以数据个数得到的数值,是集中趋势的最主要测度值适用范围:数值型数据,不适用于顺序数据和分类数据。4.1.4众数、中位数和平均数的比较1.众数、中位数和平均数的关系众数:一组数据分布的最高峰中位数:处于一组数据的中间位置的值平均数:全部数据的算
10、术平均对称分布情况:众数=中位数=平均数左偏分布情况:存在较小值,平均数中位数众数右偏分布情况:存在极大值,众数中位数平均数4.2离散程度的度量反映各变量值远离中心值的程度。离散程度越大,集中趋势测度值的代表性越差。4.2.3数值型数据:方差和标准差1.极差(全距)一组数据的最大值与最小值的差。3.方差和标准差方差是各变量值与平均数离差平方的平均数(通过平方消去正负号)。标准差是方差的平方根。方差和标准差能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。4.2.4相对离散程度:离散系数离散系数是一组数据的标准差与平均数的比值,是离散程度的相对统计量。适用于比较不同样本数据的离散程
11、度。离散系数越大,离散程度越大(正比)。练习题:4.1(P94)、4.2(P95)第六章统计量及其抽样分布6.4样本均值的分布于中心极限定理当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值?x也服从正态分布,?x的数学期望为,方差为2/n。即?xN(,2/n)中心极限定理:从均值为?,方差为?2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布。经验法则是n30时算是充分大,满足中心极限定理要求。关于大样本和小样本:理论而言,小样本:样本量固定,不论样本量多少;大样本:样本量n经验做法,大样本:n30小样本:n30第七
12、章参数估计7.1.2点估计与区间估计当置信水平固定时,置信区间的宽度随着样本量的增大而减小。95%的置信水平是指在用同样方法构造的总体参数的多个区间中,包含该总体参数的区间的比例为95%。这个概率不是用来描述某个特定区间包含真值的可能性,一个特定的区间总是包含或者绝不包含真值,不存在一会包含,一会不包含的问题。用概率可以知道在多次抽样得到的区间中大概有多少个包含了参数的真值。7.1.3评估估计量的标准无偏性无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。有效性较小标准误差的点估计量比其他点估计量相对有效。一致性一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。第八章假设检
13、验8.1假设检验的基本问题假设检验的基本思想:假设检验推断过程所依据的基本思想是小概率反证法思想。小概率思想是指发生概率很小的随机事件,在某一次特定的实验中是几乎不可能发生的。若小概率事件在一次实验中发生了则假设可能错误。反证法思想是首先对总体参数值提出假设,然后再利用样本提供的信息去验证先前提出的假设是否成立。如果样本数据不能够充分证明和支持假设,则在一定概率条件下,应该拒绝该假设;相反,如果样本数据不能够充分证明和支持假设是不成立的,则不能推翻假设成立的合理性和真实性。8.1.2假设的表达式原假设假定两个或多个事物之间是等同的或没有关系的,是变量之间无关的陈述。原假设表示否定的意义。备择假
14、设假定变量间存在一定的关系。零假设是变量之间无关的陈述,而研究假设是变量有关系的明确陈述。在逻辑上与原假设内容完全对立的假设成为备择假设。原假设与备择假设在逻辑上是互斥的,肯定原假设,则备择假设就必须放弃;否定原假设,则接受备择假设。8.1.3两类错误根据所犯错误的类型,我们分为两种类型:(举例见教材P188)第一类:原假设为真,拒绝真假设,犯此类错误的概率为?,称为?错误或弃真错误。第二类:原假设为伪,接受伪假设,犯此类错误的概率为?,称为?错误或取伪错误。对原假设为真的判断与概率:(1)拒绝原真假设的概率为?,也称为显着性水平。(2)接受原真假设,做出正确判断的概率为1-?。在实践中,由进
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 知识点 梳理
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。