珠宝行业统计研究报告.pptx
《珠宝行业统计研究报告.pptx》由会员分享,可在线阅读,更多相关《珠宝行业统计研究报告.pptx(77页珍藏版)》请在咨信网上搜索。
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,本课内容包含,统计回顾,方差分析,主成份分析和因子分析,聚类分析,判别分析,经典相关分析,对应分析,列联表,Logistic回归,Poisson对数线性模型,时间序列分析,。,珠宝行业统计研究报告,第1页,统计基本概念回顾,珠宝行业统计研究报告,第2页,随机性,和,规律性,珠宝行业统计研究报告,第3页,现实中随机性和规律性,从中学起,我们就知道自然科学许多定律,比如物理中牛顿三定律,物质不灭定律以及化学中各种定律等等。,不过在许多领域,,极难用如此确定公式或叙述来描述一些现象。,比如,人寿命是极难预先确定。一个吸烟、喝酒、不锻炼、而且一口长荤人可能比一个极少得病、生活习惯良好人活得长。,所以,能够说,活得长短是有一定随机性(randomness)。这种随机性可能和人经历、基因、习惯等,无数说不清原因,都相关系。,珠宝行业统计研究报告,第4页,现实中随机性和规律性,不过从总体来说,我国公民平均年纪却是非常稳定。而且女性平均年纪也稳定地比男性高几年。这就是,规律性,。,一个人可能活过这个平均年纪,也可能活不到这个年纪,这是,随机,。,不过总体来说,平均年纪稳定性,却说明了,随机之中有规律性,。这种规律就是统计规律。,珠宝行业统计研究报告,第5页,概率和机会,你可能经常听到概率(probability)这个名词。比如在天气预报中会提到降水概率。大家都明白,假如降水概率是百分之九十,那就很可能下雨;但假如是百分之十,就不大可能下雨。,所以,从某种意义说来,,概率描述了某件事情发生机会。,显然,这种概率不可能超出百分之百,也不可能少于百分之零。换言之,,概率是在0和1之间一个数,,说明某事件发生机会有多大。,珠宝行业统计研究报告,第6页,有些概率是无法准确推断,比如你对他人说你下一个周末去公园概率是百分之八十。但你无法准确说出为何是百分之八十而不是百分之八十四或百分之七十八。,其实你想说是你很可能去,但又没有完全必定。,实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十你放到公园,而其余放在别处。,珠宝行业统计研究报告,第7页,有些概率是能够预计,比如掷骰子。只要没有些人在骰子上做手脚,你得到6点概率应该是六分之一。得到其它点概率也是一样。,得到6概率或者机会是能够知道,但掷骰子结果还,只可能是六个数目之一。,这个已知规律就反应了规律性,而得到哪个结果则反应了随机性。,假如你掷1000次骰子,那么,大约有六分之一可能会得到6;,这也是随机性展现有规律一个表达。,珠宝行业统计研究报告,第8页,变量,做任何事情都要有,对象,。比如一个班上注册学生有200人,这是一个固定数目,称为,常数(constant),或者常量。,不过,假如猜测今天这个班有多少人会来上课,那就没准了。这有随机性。,可能有请病假或事假,也可能有逃课。这么,就要来上课人数是个,变量(variable),。,另外对于某项政策同意是否回答,也有“同意”、“不一样意”或者“不知道”三种可能值;这也是变量,只不过,不是数量,而已。,珠宝行业统计研究报告,第9页,变量,当变量按照随机规律所取值是数量时该变量称为,定量变量或数量变量,(quantitative variable);因为是随机,也称为随机变量(random variable)。,象性别,观点之类取非数量值变量就称为,定性变量或属性变量或分类变量,(qualitative variable,categorical variable)。,这些定性变量也能够由随机变量来描述,比如男性和女性数目,同意某政策人数百分比等等。,只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。,珠宝行业统计研究报告,第10页,数据,有了变量概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得1至6点中任意点数概率它在理论上都是六分之一(假如骰子公平)。这依赖于在掷骰子背后理论或假定;而在实际掷骰子过程中,假如掷100次,会得到100个由1至6点组成数字串;再掷100次,又得到一个数字串,和前一次结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量观察值.,经过数据能够验证相关理论或假定,(比如每一次得到每个点概率是不是1/6等等)。对于用户是否喜欢某种饮品调查也类似,但这里不象掷骰子那样事先能够大致猜测用户喜欢是否概率。在问了1000人之后,可能有364人说喜欢,而480人说不喜欢,其余人可能不回答,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。当然,它仅仅反应了1000个被问到人观点;但这对于预计整个消费群体观点还是有用。,珠宝行业统计研究报告,第11页,统计和计算机,当代生活越来越离不开计算机了。最早使用计算机统计当然更离不开计算机了。,实际上,,最初计算机,仅仅是为科学计算而建造。大型计算机最早一批用户就包含统计。而现在统计依然是进行数字计算最多用户。,计算机现在早已脱离了仅有计算功效单一模式,而成为,百姓生活一部分,。,计算机使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯数字输出到包含漂亮表格和图形各种形式。,珠宝行业统计研究报告,第12页,统计软件,统计软件发展,也使得统计从统计学家圈内游戏变成了大众游戏。只要你输入你数据,点几下鼠标,做一些选项,马上就得到令人惊叹漂亮结果了。,你可能会问,是否傻瓜式统计软件使用能够代替统计课程了?,当然不是。数据整理和识别,方法选取,计算机输出结果了解都不象使用傻瓜相机那样简单可靠。,珠宝行业统计研究报告,第13页,统计软件,有些诸如法律和医学方面软件都有不少警告,不时提醒你去咨询教授。,但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,而且,没有任何警告,。,另外,统计软件,输出结果太多,;即使是一样方法,不一样软件输出内容还不一样;有时一样内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释全部输出。所以,就应该尤其留神,明白自己是在干什么。,不要在得到一堆毫无意义垃圾之后还沾沾自喜,。,珠宝行业统计研究报告,第14页,统计软件,统计软件种类很多。有些功效齐全,有些价格廉价;有些轻易操作,有些需要更多实践才能掌握。还有些是专门软件,只处理某一类统计问题。面对太多选择往往给决议带来困难。这里介绍最常见几个。,珠宝行业统计研究报告,第15页,统计软件,SPSS:,这是一个很受欢迎统计软件;它轻易操作,输出漂亮,功效齐全,价格合理。对于非统计工作者是很好选择。,Excel:,它严格说来并不是统计软件,但作为数据表格软件,必定有一定统计计算功效。而且凡是有Microsoft Office计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析功效,那就必须装了才行。当然,画图功效是都具备。对于简单分析,Excel还算方便,但伴随问题深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有对应方法了。多数专门一些统计推断问题还需要其它专门统计软件来处理。,SAS:,这是功效非常齐全软件;尽管价格不菲,许多企业还是因为其功效众多和一些美国政府机构认可而使用。尽管现在已经尽可能“傻瓜化”,依然需要一定训练才能够进入。对于基本统计课程则不那么方便。,珠宝行业统计研究报告,第16页,统计软件,S-plus,:这是统计学家喜爱软件。不但因为其功效齐全,而且因为其强大编程功效,使得研究人员能够编制自己程序来实现自己理论和方法。它也在进行“傻瓜化”以争取用户。但依然以编程方便为用户所青睐。,R软件:,这是一个,无偿,,由志愿者管理软件。其编程语言与S-plus所基于S语言一样,很方便。还有不停加入各个方向统计学家编写统计软件包。同时从网上能够不停更新和增加相关软件包和程序。这是,发展最快,软件,受到世界上统计师生欢迎。,是用户量增加最快统计软件,。对于普通非统计工作者来说,主要问题是它没有“傻瓜化”。,珠宝行业统计研究报告,第17页,统计软件,Minitab:,这个软件是很方便功效强大而又齐全软件,也已经“傻瓜化”,在我国用不如SPSS与SAS那么普遍。,Statistica:,也是功效强大而齐全“傻瓜化”软件,在我国用也不如SAS与SPSS那么普遍。,Eviews:,这是一个主要处理回归和时间序列软件。,GAUSS:,这是一个很好用统计软件,许多搞经济喜欢它。主要也是编程功效强大。当前在我国使用人不多。,FORTRAN:,这是应用于各个领域历史很长非常优异编程软件,功效强大,也有一定统计软件包。计算速度比这里介绍都快得多。但需要编程和编译。操作不那么轻易。,MATLAB:,这也是应用于各个领域以编程为主软件,在工程上应用广泛。编程类似于S和R。不过统计方法不多。,珠宝行业统计研究报告,第18页,统计软件,当然,还有其它软件,没有必要一一罗列。其实,聪明读者只要学会使用一个“傻瓜式”软件,使用其它仅仅是举一反三之劳;最多看看帮助和说明即可。假如只有英文帮助,那还能够顺便提升你英文阅读能力。,珠宝行业统计研究报告,第19页,想想看,举出你所知道统计应用例子。,举出日常生活中随机性和规律性例子。,你使用过统计软件或者利用过其它软件中统计功效吗?你有什么经验和体会?,珠宝行业统计研究报告,第20页,数据搜集,珠宝行业统计研究报告,第21页,二手数据,天天翻开报纸或打开电视,就能够看到各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病相关数据(确诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定时公布各种国家经济数据、海关公布进出口贸易数据等等。从中能够选取对自己有用信息。,这些间接得到数据都是,二手数据,。,珠宝行业统计研究报告,第22页,第一手数据,取得第一手数据并不象得到二手数据那么轻松。,一些在华外资企业每年最少要花三四千万元来搜集和分析数据。,他们调查其产品当前在市场中情况和地位并确定其竞争对手态势;,他们调查不一样地域,不一样阶层民众对其产品认知程度和购置意愿以改进产品或推出新品种争取新用户;,他们还搜集各地方经济交通等信息以决定怎样保住现有市场和开发新市场。市场信息数据对企业是至关主要。,他们很舍得在这方面花钱。因为这是企业生存所必需,绝不是可有可无。,珠宝行业统计研究报告,第23页,观察数据,和,试验数据,上面所说数据是在,自然未被控制条件下观察到,称为观察数据(observational data)。,而对于有些问题,,比如在不一样医疗伎俩下某疾病治疗结果有什么不一样、不一样肥料和土壤条件下某农作物产量有没有区分、用什么成份能够提升某物质变成超导体温度等等。,这种在人工干预和操作情况下搜集数据就称为试验数据(experimental data)。,珠宝行业统计研究报告,第24页,总体和样本,要想了解北京市民对建设北京交通设施是以包含轨道运输在内公共交通工具为主还是以小汽车为主观点,需要进行调查;,调查对象是,全部北京市民,,调查,目标,是希望知道市民中对这个问题不一样看法各自占有,百分比,。,显然,,不可能去问全部北京市民,而只能够问一部分,;而且依据这一部分观点来了解整个北京市民总体观点。,珠宝行业统计研究报告,第25页,总体和样本,这种情况下,称全部(每个)北京市民对这个问题观点为一个,总体,(population),而调查时问到那部分市民观点为,该总体,一个样本,(sample)。,当然,也有可能调查全部人(比如人口普查),那叫做,普查,(census)。,总体是包含全部要研究个体(element)集合。而样本是总体中选中一部分。,珠宝行业统计研究报告,第26页,随机样本,在抽取样本时,假如总体中每一个体都有同等机会被选到样本中,这种抽样称为简单,随机抽样,(simple random sampling),,而这么得到样本则称为,随机样本,(random sample)。,珠宝行业统计研究报告,第27页,随机样本,就北京交通问题调查为例,在随机抽样情况下,假如样本量(sample size,也就是样本中个体数目)在总体中百分比为1/5000,,那么,不论在东城区或者在延庆县,不论在白领阶层还是蓝领阶层被问到人百分比都应该大致是1/5000。,也就是说,,这种百分比在总体任何部分是大致不变。,珠宝行业统计研究报告,第28页,方便样本,在实践中,得到随机样本不轻易。很多搞调查人就采取,简单,方法。,还以北京交通问题调查为例。假定按照随机选出电话号码进行调查。这么必定节约时间和资源,但这么得到就不是一个随机样本了。,假如按照随机选择数字(不论号码本上有没有)打电话,那很多电话是空号或单位电话;显然这种样本也不是随机样本,它称为方便样本(convenience sample)。,在调查中,即使选择对象确实是随机,最理想情况所得到样本也只代表那些愿意回答下列问题人观点所组成总体;,没有回答下列问题人观点永远不会被这种调查样本所代表。,珠宝行业统计研究报告,第29页,方便样本,这种不回答问题是抽样调查特有问题。,在其它问题中,也有使用方便样本情况。比如在肺癌研究中,人们往往看到吸烟和肺癌关系数据;这些数据并不是整个人群中采集随机样本;它们可能只是医院中病人统计中得到。,在杂志和报纸上也有问卷,但得到只是拥有这份报刊,而且愿意回答人观点。,珠宝行业统计研究报告,第30页,误差,假定在某一职业人群中女性占百分比为60%。假如在这个人群中抽取一些随机样本,这些随机样本中女性百分比并不一定是刚好60,可能稍微多些或稍微少些。这是很正常,因为样本特征不一定和总体完全一样。这种差异不是错误,而是必定会出现,抽样误差,(sampling error)。,刚才提到在抽样调查中,一些人因为种种原因没有对调查作出反应(或回答),这种误差称为,未响应误差,(nonresponse error)。,而另有一些人因为各种原因回答时并没有真实反应他们观点,这称为,响应误差,(response error)。,和抽样误差不一样,未响应误差和响应误差都会影响对真实世界了解;应该在设计调查方案时尽可能防止。,珠宝行业统计研究报告,第31页,抽样调查一些惯用方法,在抽样调查时,最理想样本是前面提到随机样本。,不过,因为实践起来不方便,,在大规模调查时普通不用这种全部随机抽样方式,而只是在局部采取随机抽样方法。,下面介绍几个抽样方法。这里没有深奥理论;读者完全能够依据常识判断在什么情况下简单随机样本不方便以及下面每个方法有什么好处和缺点。对于它们详细设计、实施与数据分析,有许多专门书籍,就不在这里赘述了。,珠宝行业统计研究报告,第32页,一些抽样方法,1,分层抽样,(stratified sampling)。这是先把要研究总体按照一些性质分类(stratum),再在各类中分别抽取样本。在每类中调查人数通常是按照这该类人百分比,但出于各种考虑,也可能不按照百分比,也可能需要加权(加权就是在求若干项和时,对各项乘以不一样系数,这些系数和通常为1)。,比如能够按照教育程度把要访问人群分成几类;再在每一类中调查和该类成百分比数目标人。,这么就确保了每一类都有成百分比代表。,珠宝行业统计研究报告,第33页,一些抽样方法,2.,整群抽样,(cluster sampling)。这是先把总体划分成若干群(cluster),再(通常是随机地)从这些群中抽取几群;然后再在这些抽取群中对个体进行抽样。,比如,在某县进行调查,首先在全部村中选取若干村子,然后只对这些村子人进行调查。,显然,假如各村情况差异不大,这种抽样还是方便。不然就会增大误差了。,珠宝行业统计研究报告,第34页,一些抽样方法,3.,多级抽样,(multistage sampling)。在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最终只对最终选定最下面一级进行调查。,比如在全国调查时,先抽取省,再抽取市地,再抽取县区,再抽取乡、村直到户。,在多级抽样中每一级都可能采取各种抽样方法。所以,整个抽样计划可能比较复杂,也称为多级混和型抽样。,珠宝行业统计研究报告,第35页,一些抽样方法,4.,系统抽样,(systematic sampling)。这是先把总体中每个单元编号,然后随机选取其中之一作为抽样开始点进行抽样。假如编号是随机选取,则这和简单随机抽样是等价。在选取开始点之后,通常从开始点开始按照编号进行所谓等距抽样;也就是说,假如开始点为5号,“距离”为10,则下面调查对象为15号、25号等等。,珠宝行业统计研究报告,第36页,抽样方法选择不能一概而论,实际上每个抽样通常都可能是各种抽样方法组合。既要考虑准确度,还要依据客观情况考虑方便性、可行性和经济性。不能一概而论。,珠宝行业统计研究报告,第37页,计算机中惯用数据形式,数据是由一些变量和它们观察值所组成。下面就是调查人们对某个问题观点一个数据方阵形式。其中有6个变量:观点(观察值为支持、反对和不知道三种)、教育程度(有高中低三种取值,用H、M、L表示)、月收入(取值为实际数字)、性别(取值有男女两个,用M和F表示)以及地域号(用数字1,2,3,4表示)等。该表一共有1364个观察值(问卷回答)。能够看出这些变量有定性(属性)变量,也有定量(数值)变量。按照这个数据格式,每一列为一个变量不一样观察值;而每一行则称为一个观察值,它是个由数量值和属性值组成向量,每一个值对应于一个变量。,珠宝行业统计研究报告,第38页,思索,1 举出一些观察数据和试验数据例子。,2 举出简单随机样本例子。,3 依据你经验,举出总体和样本一些详细例子。,4 举出调查抽样时可能发生各种影响调查结果问题,而且提出你认为能够降低或防止这些问题提议。,5 依据你直觉,本章提到几个抽样方法优缺点是什么?原因何在?,6 举出一些书报上发表数据例子,并指出那些是变量,哪些是观察值。,珠宝行业统计研究报告,第39页,数据描述,如同给人画像一样,珠宝行业统计研究报告,第40页,直方图,比如某个地域(地域1)学校高三男生身高;有163个度量怎样用图形来表示这个数据,使人们能够看出这个数据大致分布或“形状”呢?一个方法就是画一个直方图(histogram)。,珠宝行业统计研究报告,第41页,珠宝行业统计研究报告,第42页,盒型图,比直方图简单一些是盒形图(boxplot,又称箱图、箱线图、盒子图)。后面图左边一个是依据地域1高三男生身高数据所绘盒形图;其右边图代表另一个地域(地域2)高三学生身高,珠宝行业统计研究报告,第43页,珠宝行业统计研究报告,第44页,茎叶图,地域1高三男生身高数据茎叶图,珠宝行业统计研究报告,第45页,HEIGHT Stem-and-Leaf Plot,Frequency Stem&Leaf,9.00 15.001223344,17.00 15.55666667778899999,20.00 16.01112222223333333444,35.00 16.55555666666667777788888888888999999,25.00 17.0000000011112222233333344,24.00 17.555666677777777777888899,13.00 18.0111111122333,11.00 18.55667788899,4.00 19.2333,2.00 19.56,3.00 Extremes (=198),Stem width:10.00,Each leaf:1 case(s),珠宝行业统计研究报告,第46页,散点图,往往人们得到数据有两个变量,比如美国男士和女士初婚年限数据。该数据描述了自19到1998年男女第一次结婚延续时间中位数。当然,不可能将全部些人婚姻年限都给出来。所以,每年就取了一个中间值(中位数)作为代表。自1900到1960年是每十年一个值,以后到1990是每五年取一个数,1995年以后是每年一个数。这里一个变量为统计年份,另一个是结婚时间长短。因为分男士和女士,所以有两二维数据。这时能够以一个变量为横坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图。这种图称为散点图(scatter plot)。还能够看出在二十世纪六十年代婚姻年限降低,而以后又升高。而男子年限平均比女性长。这个图是用SPSS画。,珠宝行业统计研究报告,第47页,珠宝行业统计研究报告,第48页,定性变量点图,定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但能够描绘出它们各类百分比。下面用,SPSS,绘图表示了说世界各种主要语言人数百分比,珠宝行业统计研究报告,第49页,饼图,珠宝行业统计研究报告,第50页,条形图,珠宝行业统计研究报告,第51页,汇总统计量,或,概括统计量,(summary statistic),珠宝行业统计研究报告,第52页,汇总统计量(位置),均值(mean),中位数(median),(第一,第三)四分位数(点)(,first quantile,third quantile,),k百分位数(k-percentile),众数(mode),珠宝行业统计研究报告,第53页,汇总统计量(尺度),(scale statistic,),极差(range),四分位间距(四分位极差),(interquantile range),标准差,(standard deviation),方差,(variance),珠宝行业统计研究报告,第54页,两个尺度不一样数据直方图,左边标准差大约只有右边二分之一,珠宝行业统计研究报告,第55页,数据标准得分,(standard score),两个水平类似班级(一班和二班)上同一门课,不过因为两个任课老师评分标准不一样,使得两个班成绩均值和标准差都不一样(数据:grade.sav)。一班分数均值和标准差分别为78.53和9.43,而二班均值和标准差分别为70.19和7.00。那么得到90分一班张颖是不是比得到82分二班刘疏成绩更加好呢?怎么比较才能合理呢?即使这种均值和标准差不一样数据不能够直接比较,不过能够把它们进行标准化,然后再比较标准化后数据。一个标准化方法是把原始观察值(亦称得分,score)和均值之差除以标准差;得到度量称为标准得分(standard score)。,珠宝行业统计研究报告,第56页,珠宝行业统计研究报告,第57页,思索,1 依据你经验,给出定性和定量变量例子。,2 对于问题1中你例子,试图画出各种描述性图形并计算汇总统计量。,3 举例说明众数、中位数和均值优缺点。,4 举例说明尺度统计量说明了数据什么特征。,5标准得分实际上是对原始数据一个标准化。试举出标准得分用处。,珠宝行业统计研究报告,第58页,统计推断,从数据得到对现实世界结论过程,珠宝行业统计研究报告,第59页,预计,总体它代表我们所关心那部分现实世界。而在利用样本中信息来对总体进行推断之前人们普通对代表总体变量假定了分布族。比如假定人们身高属于正态分布族;对抽样调查假定了二项分布族等等。这些模型基本上是依据经验来假定,所以仅仅是对现实世界一个近似。在假定了总体分布族之后,深入对总体认识就是要在这个分布族中选择一个适合于我们问题分布;因为分布族组员是由参数确定,假如参数能够预计,对总体详细分布就知道得差不多了。,珠宝行业统计研究报告,第60页,预计,一个是点预计(point estimation),也就是用预计量实现值来近似对应总体参数。,另一个是区间预计(interval estimation);它是包含预计量在内(有时是以预计量为中心)一个区间;该区间被认为很可能包含总体参数。,点预计给出一个数字,用起来很方便;而区间预计给出一个区间,说起来留有余地;不象点预计那么绝对。,无偏预计(大样本性质),区间预计置信度(大样本性质),珠宝行业统计研究报告,第61页,预计,注意置信区间叙述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查人数,这是不负责表现。因为降低置信度能够使置信区间变窄(显得“准确”),有误导读者之嫌。假如给出被调查人数,则内行能够由推算出置信度(由后面给出公式),反之亦然。,珠宝行业统计研究报告,第62页,一个描述性例子,一个有10000个人回答调查显示,同意某种观点人百分比为70%(有7000人同意),能够算出总体中同意该观点百分比95%置信区间为(0.691,0.709);另一个调查声称有70%百分比反对该种观点,还说总体中反对该观点置信区间也是(0.691,0.709)。到底相信谁呢?实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。假如第二个调查仅仅调查了50个人,有35个人反对该观点。依据后面公式能够算出,第二个调查置信区间置信度仅有11%。,珠宝行业统计研究报告,第63页,假设检验,在假设检验中,普通要设置一个原假设;而设置该假设动机主要是企图利用人们掌握反应现实世界数据来找出假设和现实矛盾,从而否定这个假设。在多数统计教科书中(除了理论探讨之外)假设检验都是以否定原假设为目标。,假如否定不了,那就说明证据不足,无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接收原假设”说法,犯了显著低级逻辑错误。,珠宝行业统计研究报告,第64页,假设检验过程和逻辑,首先要提出一个原假设,比如某正态总体均值等于5(,m,=5)。这种原假设也称为零假设(null hypothesis),记为H,0,。,与此同时必须提出对立假设,比如总体均值大于5(,m,5)。对立假设又称为备选假设或备择假设(alternative hypothesis)记为记为H,1,或H,a,。,珠宝行业统计研究报告,第65页,假设检验过程和逻辑,依据零假设,(不是备选假设!),我们能够得到该检验统计量分布;,然后再看这个统计量数据实现值(realization)属不属于小概率事件。也就是说把数据代入检验统计量,看其值是否落入零假设下小概率范围;,假如确实是小概率事件,那么我们就有可能拒绝零假设,不然我们说没有足够证据拒绝零假设。,珠宝行业统计研究报告,第66页,假设检验过程和逻辑,注意:,零假设和备选假设在假设检验中并不对称,。因检验统计量分布是从零假设导出,所以,假如发生矛盾,当然就对零假设不利了。,不发生矛盾也不说明备选假设有问题(因为和备选假设无关)。,珠宝行业统计研究报告,第67页,假设检验过程和逻辑,检验统计量在零假设下等于这个样本数据实现值或愈加极端值概率称为,p,-值(p-value)。,显然得到很小,p,-值意味着小概率事件发生了。假如小概率事件发生,是相信零假设,还是相信数据呢?,当然是相信数据。于是就拒绝零假设。但小概率并不能说明不会发生,仅仅发生概率很小罢了。,拒绝正确零假设错误常被称为第一类错误(type I error)。,珠宝行业统计研究报告,第68页,假设检验过程和逻辑,有第一类错误,就有第二类错误;那是备选零假设正确时反而说零假设正确错误,称为第二类错误(type II error)。,零假设和备选假设哪一个正确,这是确定性,没有概率可言。,而可能犯错误是人。包括假设检验犯错误概率就是犯第一类错误概率和犯第二类错误概率。,负责态度是不论做出什么决议,都应该给出犯错误概率。,珠宝行业统计研究报告,第69页,假设检验过程和逻辑,到底,p,-值是多小才能够拒绝零假设呢?也就是说,需要有什么是小概率标准。这要看详细应用需要。但在普通统计书和软件中,使用最多标准是在零假设下(或零假设正确时)抽样所得数据拒绝零假设概率应小于0.05(也可能是0.01,0.005,0.001等等)。这种事先要求概率称为显著性水平(significance level),用字母,a,来表示。当,p-,值小于或等于,a,时,就拒绝零假设。所以,,a,是所允许犯第一类错误概率最大值。当,p-,值小于或等于,a,时,我们说这个检验是显著(significant)。,珠宝行业统计研究报告,第70页,假设检验过程和逻辑,归纳起来,假设检验逻辑步骤为:,第一,写出零假设和备选假设;,第二,确定检验统计量;,第三,确定显著性水平a;,第四,依据数据计算检验统计量实现值;,第五,依据这个实现值计算,p,-,值;,第六,进行判断:假如,p,-,值小于或等于a,就拒绝零假设,这时犯错误概率最多为a;假如,p,-,值大于a,就不拒绝零假设,因为证据不足。,珠宝行业统计研究报告,第71页,假设检验过程和逻辑,实际上,计算机软件仅仅给出,p-,值,而不给出,a,。这有很多方便之处。比如,a,=0.05,而假定我们得到,p-,值等于0.001。这时我们假如假如采取,p-,值作为新显著性水平,即,a,=0.001,于是能够说,我们拒绝零假设,显著性水平为0.001。拒绝零假设时犯错误概率实际只是千分之一而不是百分之五。在这个意义上,,p-,值又称为观察显著性水平(observed significant level)。在统计软件输出,p-,值位置,有用“,p-,value”,有用significant缩写“Sig”就是这个道理。,珠宝行业统计研究报告,第72页,假设检验过程和逻辑,展示结果准确性(依据数据降低,a,值)总是没有坏处。这好比一个身高,180厘米男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于155厘米,,即使这第二种说法数学上没有丝毫错误。,珠宝行业统计研究报告,第73页,假设检验过程和逻辑,关于“临界值”注:作为概率显著性水平,a,实际上对应于一个检验统计量取值范围一个,临界,值(,critical value,),它定义为,统计量取,该值或更极端值,概率等于,a,。也就是说,“统计量实现值比临界值更极端”等价于“,p-,值小于,a,”。使用临界值概念进行检验不计算,p-,值。只比较统计量取值和临界值大小。,使用临界值而不是,p-,值来判断拒绝是否,是前计算机时代产物。,当初计算,p-,值不易,只有采取临界值概念。但从给定,a,求临界值一样也不轻易,好在习惯上仅仅在教科书中列出对应于特定分布几个有限,a,临界值(比如,a,=0.05,,,a,=0.025,,,a,=0.01,,,a,=0.005,,,a,=0.001,等等),或者依据分布表反过来查临界值(很不方便也很粗糙)。,现在计算机软件都不给出,a,和临界值,但都给出,p-,值和统计量实现值,让用户自己决定显著性水平是多少。,珠宝行业统计研究报告,第74页,假设检验例子,汽车厂商声称其发动机排放标准一个指标平均低于20个单位。在抽查了10台发动机之后,得到下面排放数据:17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。该样本均值为21.13。终究能否由此认为该指标均值超出20?这次我们假设检验问题就是,珠宝行业统计研究报告,第75页,假设检验例子,检验统计量为,我们能够发觉,p-,值为,0.1243,,所以,我们没有证据否定零假设。,珠宝行业统计研究报告,第76页,珠宝行业统计研究报告,第77页,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 珠宝 行业 统计 研究 报告
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文