第二章统计(规律方法与数学思想).doc
《第二章统计(规律方法与数学思想).doc》由会员分享,可在线阅读,更多相关《第二章统计(规律方法与数学思想).doc(17页珍藏版)》请在咨信网上搜索。
第二章 统 计 §2.1 随机抽样 【入门向导】 2008年8月8日举世瞩目的北京奥运会开幕了! 新华网北京8月10日电,国际奥委会新闻发言人吉赛尔·戴维斯今天说,8亿4千万中国电视观众收看了北京奥运会开幕式,这个收视率令人惊讶. 据CMS媒介研究所9日发布的数据,北京奥运会开幕式收视观众规模占到全国电视总人口的68.8%,本届奥运会开幕式收视率创下了自国内有收视率调查以来的新纪录,在李宁环绕鸟巢飞奔点火的这一刻,收视份额攀上90%. 另据AGB尼尔森的统计显示,超过9成中国家庭收看了奥运会开幕式电视直播,其中天津观众收看比例为97%,达到全国最高. 同学们有没有考虑过收视率是如何统计出来的呢?可行的方法之一是抽取一部分地区进行收视率调查.如何抽取呢? 机抽样概念解读 1.普查在实际应用中是不合适的 一般地,如果检验对于个体具有破坏性,则需要通过抽样来推断总体的特性.有很多检验具有破坏性,如对产品的寿命、合格率等问题的检查.因此,我们需要通过随机抽样抽取样本来估计总体. 2.抽样时不能使用方便样本 方便样本的代表性差,基于这种样本得出的结论与事实不符的可能性大大增加. 3.随机抽样时,每个个体被抽到的机会都相等 在判断一锅汤的味道时,如果汤被充分搅拌了,我们只需品尝一勺就可以了.同样,样本数据也要来自“搅拌均匀”的总体.在简单随机抽样的定义中,“总体内的各个个体被抽到的机会都相等”是“总体中的所有个体搅拌均匀”的统计描述. 例1 (1)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析.在这个问题中,5 000名学生成绩的全体是( ) A.总体 B.个体 C.从总体中抽取的一个样本 D.样本的容量 解析 5 000名学生的成绩是我们所考查对象的全体,叫总体. 答案 A (2)关于简单随机抽样的特点,有以下几种说法,其中不正确的是( ) A.要求总体的个数有限 B.从总体中逐个抽取 C.它是一种不放回抽样 D.每个个体被抽到的机会不一样,与先后顺序有关 解析 随机抽样最重要的特点就是每个个体被抽到的机会都相等,与先后顺序无关. 答案 D 悟抽样方法 我们知道,三种抽样方法的共同点是在抽样过程中每个个体被抽到的机会相等且都为不放回抽样.但是,在什么情况下使用简单随机抽样、系统抽样和分层抽样呢?三种方法中哪一种更好?下面就让我们通过对系统抽样与分层抽样的详细分析,感悟一下它们三者之间的联系与区别. 1.系统抽样 系统抽样适合总体中个体数较多,且个体之间无明显差异的情况,其特点是等距抽取.当(N为总体中个体数目,n为样本容量)不是整数时,需先从总体中随机剔除多余的个体.在剔除多余的个体以及完成分段后,确定第一个个体编号时,使用的是简单随机抽样. 例2 某单位共有职工823人,为了调查工人上班时,从家到单位的平均所用时间,决定抽取10%的工人调查这一情况,问如何完成这一抽样? 分析 由于总体的人数较多,且不考虑个体差异,因此需采用系统抽样法. 解 (1)先将工人随机编号为000,001,…,822; (2)用随机数法,从编号000~822中剔除3人,再把编号按顺序补齐为000,001,…,819,从而确定分段间隔为=10,分成82段,每段10人; (3)在第一段000,001,…,009中随机确定一起始号k0(可以用抽签法),则编号k0,k0+10,…,k0+810为所取得的一个样本. 点评 使用系统抽样进行编号时,也可利用学生证号,座位号等. 感悟 (1)体会区别:简单随机抽样和系统抽样的共同特点是总体中的个体差异较小,此题从这一个角度看,两种方法都适合.但是,由于抽取的样本容量较大,为了减少工作量,采用系统抽样法较为简捷. (2)分析联系:简单随机抽样法是系统抽样的基础.此题在剔除个体时,由于总体个数较多,因此使用随机数法剔除多余的个体;分段后的第一段个体数较少,因此可使用抽签法. 2.分层抽样 当总体中的个体差异较大时,一般采用分层抽样法.抽样过程中,每层中所抽取的个体数可按各层在总体中所占比例抽取;在各层独立抽取时,可使用简单随机抽样或系统抽样法. 例3 某单位共有职工162人,其中老年人27人,中年人54人,青年人81人,为了调查他们的身体状况,需要从他们中抽取一个容量为36的样本,问应当采用怎样的抽样方法?应从老年人、中年人、青年人中分别抽取多少人? 分析 从实际问题思考,老年人、中年人、青年人的身体状况有着较大的差异,因此应采用分层抽样法. 解 由于各部分之间的个体有较大的差别,所以应采用分层抽样.因为27∶54∶81=1∶2∶3,设从老年人、中年人、青年人中各抽取个体数分别为x,2x,3x.则由6x=36得x=6,故应从老年人、中年人、青年人中分别抽取6人,12人,18人. 点评 也可以按各部分所占总体的比进行计算,即×36=6,×36=12,×36=18. 感悟 (1)体会区别:分层抽样适合总体中个体差异较大的情况,而系统抽样适合总体中的个体数较多的情况;另一方面分层抽样是按比例抽取,而系统抽样是等距抽取. (2)分析联系:在分层抽样中,当每一层中个体数目较大时,可使用系统抽样,若数目较小时,使用简单随机抽样法抽取即可. 种抽样方法的比较 类别 共同点 各自特点 相互联系 适用范围 简单随机抽样 抽样过程中每个个体被抽取的机会相等 从总体中逐个抽取 总体中的个体数较少 系统 抽样 将总体均分成几部分,按事先确定的规则在各部分抽取 在起始部分抽样时采用简单随机抽样 总体中的个体数较多 分层抽样 将总体分成几层,分层进行抽取 在各层抽样时采用简单随机抽样或系统抽样 总体由差异明显的几部分组成 简单随机抽样、系统抽样和分层抽样关系密切,对抽取样本来说,可谓异曲同工. 无论采取哪一种抽样方法,必须保证在整个抽样过程中每个个体被抽到的机会相等. 例4 根据下列情况选择合适的抽样方法: (1)30台电视机,其中甲厂生产的有21台,乙厂生产的有9台,抽取10台入样; (2)从甲厂生产的300台电视机中,抽取10台入样; (3)从甲厂生产的300台电视机中,抽取100台入样. 分析 应用三种抽样方法时需搞清楚它们的使用原则: (1)当总体容量较小,样本容量也较小时,制签简单,号签容易搅匀,可采用抽签法; (2)当总体容量较大,样本容量较小时,可用随机数法; (3)当总体容量较大,样本容量也较大时,可用系统抽样法. 解 (1)总体由两类差异明显的个体组成,所以应采用分层抽样,又因为每层中样本容量较小,在每层中可采用抽签法. (2)总体容量较大,样本容量较小,可用随机数法. (3)总体容量较大,样本容量也较大,可用系统抽样法. 析随机抽样中的典型陷阱 1.围绕抽样方法的概念设置的陷阱 例5 盒子中共有80个零件,从中任意拿出一个进行质量检验,然后把它放回盒子,再次从中拿出一个进行质量检验,然后再把它放回盒子……,照此方法,依次抽取5个进行质量检验.这种抽样方法是否属于简单随机抽样?说明理由. 错解 是简单随机抽样,实质上就是从有限的80个零件中任意选出了5个进行质量检验. 正解 不是简单随机抽样,因为简单随机抽样是不放回抽样. 2.围绕“分层抽样”与“系统抽样”的选择设置的陷阱 例6 某乡镇有12个行政村,共30 000人,现从中抽出300人进行样本分析,考察其人口中癌症的发病率,应该采取哪种抽样方法?简述抽样过程. 错解 由于总体的个体相对较多,因此可采用系统抽样法.过程如下:①用随机方式将总体中的个体编号1,2,…,30 000;②把总体分成300段,每段100人;③在第一段中用简单随机抽样确定起始个体编号i;④将i,i+100,i+200,…,i+29 900分别抽出,从而获得整个样本. 正解 上述解法只注意到了数量关系,忽略了个体差异.一般情况下,每个村村民的健康状况是有差异的,各村的人口数量又有差别,所以应采用分层抽样.具体实施过程是:将30 000人按12个村分成12层,然后从每村的人口中抽取该村人口的,然后把各村抽到的人合起来,就得到了一个容量为300的样本. 3.围绕系统抽样“均分”原理设置的陷阱 例7 要从某学校的10 013个学生中抽取100个进行健康检验,采用哪种抽样方法较好?写出抽样过程. 错解 由于总体个数为10 013,数量较大,而且都是学生,差别不大,因而应采用系统抽样法.具体过程如下:由系统抽样的步骤先分为100段,其中前87段每段100人,后13段每段101人,再在第一段中用简单随机抽样确定起始个体编号i;最后将i+100,i+200,…,i+9 900分别抽出,从而获得整个样本. 正解 先用简单随机抽样从总体中剔除学生13人,再按如下步骤操作:①采用随机的方式将总体中的个体编号1,2,…,10 000;②把整个的总体分成100段,每段=100人;③在第一段中用简单随机抽样确定起始个体编号i;④将i,i+100,i+200,…,i+9 900分别抽出,从而获得整个样本. 用随机抽样调查小区居民的用水量 为调查小区平均每户居民的月用水量,下面是3名学生设计的调查方案: 学生A:我把这个用水量调查表放在互联网上,只要登录该网址的人就可以看到这张表,他们填表的信息可以很快地反馈到我的电脑中.这样,我就可以很快估计出小区平均每户居民的月用水量. 学生B:我给我们居民小区的每一个住户发一个用水量调查表,只要一两天就可以统计出小区平均每户居民的月用水量. 学生C:我在小区的电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们的月用水量,然后就可以估计出小区平均每户居民的月用水量. 我们对上述3种方案进行分析,看哪个方案更实用有效: 学生A的方法得到的样本不能够反映不上网的居民情况,是一种方便样本,所得的结果代表性差,不能很准确地获得平均每户居民的月用水量;学生B的方法实际上是普查,花费的人力物力要多一些,但是如果统计过程不出错,可以准确地得到平均每户居民的月用水量;在小区的每户居民都装有电话的情况下,学生C的方法是一种随机抽样方法,所得的样本具有代表性,可以比较准确地获得平均每户居民的月用水量. 在小区的每户居民都装有电话的情况下,建议用随机抽样的方法获取数据,即用学生C的方法,以节省人力物力,并且可以得到比较精确的结果. 1.(重庆高考)某地区有300家商店,其中大型商店有30家,中型商店有75家,小型商店有195家,为了掌握各商店的营业情况,要从中抽取一个容量为20的样本.若采用分层抽样的方法,抽取的中型商店数是( ) A.2 B.3 C.5 D.13 解析 设抽取的中型商店数为x,依据分层抽样的原理,有=,解得x=5. 答案 C 2.(福建高考)一个总体中共有100个个体,随机编号0,1,2,…,99,依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是________. 解析 根据题意,第七组中的号码是[60,69]内的正整数.因为m=6,k=7,m+k=13,所抽取的号码个位数为3,于是此号码为63. 答案 63 3.(重庆高考)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是____________. 解析 由分层抽样的定义可知,该抽样为按比例的抽样. 答案 分层抽样法 4.(湖北高考)一个公司共有1 000名员工,下设一些部门,要采用分层抽样方式从全体员工中抽取一个容量为50的样本,已知某部门有200名员工,那么从该部门抽取的员工人数是____. 解析 从该部门抽取的员工人数是×200=10. 答案 10 5.(天津高考)某学院的A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本,已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生. 解析 C专业有学生1 200-380-420=400(名), 则C专业应抽取的学生数为 ×120=40(名). 答案 40 §2.2 用样本估计总体 【入门向导】 小明是班里的优秀学生,他的历次数学成绩是96,98,95,93,但最近一次考试成绩只有45分,原因是他带病参加了考试.期末评价时,计算他的平均分是83.5,只能给他一个“良好”.你认为这种评价合理吗? 读频率分布直方图 频率分布直方图是用小长方形面积的大小来表示在各个区间内取值的频率,直角坐标系中的纵轴表示频率与组距的比值,即小长方形面积=组距×=频率. 频率分布直方图能够很容易地表示大量数据,非常直观地表明分布的形状,使我们能够看到分布表中看不清楚的数据模式.但从直方图本身得不出原始的数据内容,也就是说,把数据表示成直方图后,原有的具体数据信息就被抹掉了. 例1 某校高三数学考试中,对90分以上的成绩进行统计,其频率分布直方图如图所示.若130~140分数段的人数为90,则90~100分数段的人数为________. 解析 由于90分以上的考试成绩是总体,则图中5个分数段的频率之和等于1,设130~140分数段的频率为p,则(0.045+0.025+0.015+0.010)×10+p=1,解得p=0.05,所以可得总体容量为=1 800,则90~100分数段的人数为1 800×0.045×10=810. 答案 810 起来学茎叶图 茎叶图是一种既能展示数据的分布状况,又能保留每一个原始数据的一种数据表示方法,茎叶图由“茎”和“叶”两部分组成,通常以每一个数据的高位数作为茎,茎一经确定,叶就自然地“长”在相应的茎上.为了方便分析数据,我们将茎上的数字按从小到大的次序排成一列,叶上的数据按从大到小(从小到大)的次序写在其茎左(右)侧. 用茎叶图表示数据没有原始信息的损失,所有数据信息都可以从茎叶图中得到,而且便于记录与表示.我们不仅要会画茎叶图,还要对数据进行简单分析. 例2 某篮球运动员在2009赛季各场比赛的得分情况如下: 12,15,24,25,31,31,36,36,37,39,44,49,50 试分析该运动员的整体水平及发挥的稳定程度. 解 画出该运动员的得分茎叶图如图所示: 从图中可以看出,该运动员平均得分及中位数、众数 都在20到40之间,且分布较对称,集中程度高,说明其发挥比较稳定. 本数据特征的解释 统计的思想是用数据说话,通过收集、整理、分析数据作出决策.要从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释. 例3 某校高一(1)、(2)班各有49名学生,两班在一次数学测试中的成绩统计如下表: 班级 平均分 众数 中位数 标准差 高一(1)班 79 70 87 19.8 高一(2)班 79 70 79 5.2 (1)请你对下面的一段话给予简要分析: 高一(1)班的小刚回家对妈妈说:“昨天的数学测试中,全班的平均分为79分,得70分的人最多,我得了85分,在班里算是上游了.” (2)请你根据表中的数据对两班的测验情况试做分析,并提出教学建议. 解 (1)由中位数可知,85分排在25位以后,从位次上讲不能说85分是上游,但也不能从位次上来判断学习的好坏,小刚得了85分,说明他对这阶段的学习内容掌握较好,从掌握的学习内容上讲也算是上游. (2)高一(1)班成绩的中位数是87,说明高于87分的人数占一半以上,而平均分为79分,标准差又很大,说明低分者也多,两极分化严重,建议对学习困难的学生给予帮助. 高一(2)班成绩的中位数和平均数都是79,标准差又较小,说明学生之间的差别也较小,学习很困难的学生少,但学习优秀的学生也很少,建议采取措施提高优秀学生人数. 错点剖析 1.对频率分布直方图理解错误 例4 中小学生的视力状况受到全社会的广泛关注,某市有关部门从全市6万名高一新生中随机抽取了400名学生,对他们的视力状况进行一次调查统计,将所得到的有关数据绘制成如图所示的频率分布直方图,从左至右五个小组的频率之比依次是5∶7∶12∶10∶6.则全市高一新生视力在[3.95,4.25]范围内的学生约有多少人? 错解 因为第五小组的频率是0.5, 所以第一小组的频率为0.5×=. 所以全市6万名高一新生中视力在[3.95,4.25]范围内的学生约有60 000×=25 000人. 正解 因为第五小组的频率是0.5×0.3=0.15, 所以第一小组的频率为 0.15×=0.125. 所以全市6万名高一新生中视力在[3.95,4.25]范围内的学生约有60 000×0.125=7 500人. 2.相关联的两个样本的数据特征搞错 例5 一组数据的方差是s2,将这组数据中的每一个数都乘以2,得到一组新数据,其方差是( ) A.s2 B.2s2 C.4s2 D.s2 错解 B 解析 设一组数据x1,x2,…,xn, 则s2=, 将每一个数乘以2,则=2.所以 s′2= =[(x1-)2+(x2-)2+…+(xn-)2]=4s2. 正解 C 何对数据进行分析 通过对数据的分析,为合理的决策提供一些依据,是统计思想的重要体现;能根据实际问题的需求,合理的选取样本,从中提取基本数字特征(如平均数、标准差等),并作出合理的分析,是解题的关键.处理此类数据分析题一般来说有三种途径. 1.用茎叶图提取有用数据进行分析 例1 某中学高一(2)班甲、乙两名同学自上高中以来每场数学考试成绩情况如下: 甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107; 乙的得分:83,86,93,99,88,103,98,114,98,79,101. 画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较. 分析 用中间的数字表示两位同学得分的十位数和百位数,两边的数字分别表示两人每场数学考试成绩的个位数.作茎叶图先确定中间数取数据的哪几位,填写数据时边读边填.比较时从数据分布的对称性、中位数、稳定性等几方面来比较. 解 甲、乙两人数学成绩的茎叶图如图所示: 从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是88.因此,乙同学发挥比较稳定,总体得分情况比甲同学好. 2.通过计算提取有用数据进行分析 数据收集后,要从中找到所需的信息,并将其转化为可利用的形式,从而获取信息.如计算平均数、方差、标准差等是处理分析题的另一条途径. 例2 某工厂人员及工资构成如下表: 人员 经理 管理人员 高级技工 工人 学徒 合计 周工资 2 200 250 220 200 100 人数 1 6 5 10 1 23 合计 2 200 1 500 1 100 2 000 100 6 900 (1)指出这个问题中工资的众数、中位数、平均数; (2) 这个问题中,平均数能客观地反映该工厂的工资水平吗?为什么?哪个量更能反映这个公司员工的工资水平? 解 (1)由表格可知:众数为200. 中位数为220. 平均数为=300. (2)在这个问题中,中位数或众数均能反映该公司员工的工资水平.因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司员工的工资水平. 点评 平均数受数据中的极端值的影响较大,妨碍了对总体估计的可靠性,这时平均数反而不如众数、中位数更客观. 3.通过条形图提取数据进行分析 例3 某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用如图的条形图表示.根据条形图可得这50名学生这一天平均每人的课外阅读时间为( ) A.0.6小时 B.0.9小时 C.1.0小时 D.1.5小时 分析 本小题主要考查同学们借助图形解决实际问题的能力. 解析 由题意可知50人每人一天的课外阅读时间为 ×(5×0+20×0.5+10×1.0+10×1.5+5×2.0)=0.9(小时). 答案 B 点评 注意灵活处理数学中的“图形语言”,将之转化为数学知识求解. 个运动员最稳定 例4 甲、乙两篮球运动员在本赛季前八场比赛中,每场的投篮得分如下: 甲 15,18,20,12,22,25,28,20 乙 26,15,21,14,17,23,19,25 若你是一个篮球队的主教练,请你对甲、乙两名运动员作一下比较,看哪一位运动员的水平更高,发挥更稳定. 解 方法一 利用方差来比较两运动员投篮得分的稳定性. 甲=20,乙=20,s=23.25,s=17.75, 由于s>s,所以乙运动员每场的投篮得分的发挥更具稳定性. 方法二 用茎叶图来比较两运动员投篮得分的稳定性.将所有两位数的十位数字作为“茎”,个位数字作为“叶”,画出两个投篮得分的茎叶图,如下图: 从茎叶图中我们可以看出:甲运动员投篮得分主要分布在茎叶图的下方,投篮得分集中分布在20多分的范围内,而乙运动员投篮得分基本上是对称的.由此我们发现乙运动员投篮得分发挥的比较稳定,总体得分情况要比甲运动员好. 点评 本题方法一我们是利用了方差来比较两运动员投篮得分的稳定性.而方差是刻画一组数据离散与集中、波动与稳定的一个统计量.实际上方差描述了一组数据围绕平均数的波动程度,对于不同的数据集合,当离散程度或波动程度大时,其方差的数值也就大.平均数是刻画一组数据集中趋势的统计量,它反映了这组数据的总体水平的高低.在本题中甲、乙两运动员投篮得分的平均数均为20分,总体水平相同,而当我们从另一角度——方差上来分析甲、乙两运动员投篮得分的稳定性时,就能得出乙运动员投篮得分的稳定性要比甲运动员的高,因而乙运动员每场的投篮发挥更稳定,水平更高.方法二用茎叶图表示数据有两个突出的特点:一是统计图上没有原始信息丢失,所有数据信息都可以从茎叶图中得到;二是茎叶图可以在比赛时随时记录,方便记录与表示.因此茎叶图更能直观、清晰的反映数据的原始信息,在本题中我们能从茎叶图上一目了然地看出运动员投篮得分的实际情况,直观地得出乙运动员投篮得分发挥的比较稳定,水平更高. 感悟 从以上的方法我们可以知道:由样本数据得到的平均数、方差、标准差虽然并不是总体的真正的平均数、方差、标准差,而只是对总体的一个估计,但是这种估计是合理的,当样本的容量很大时,它们确实反映了总体的信息. 1.(山东高考) 右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为( ) A.304.6 B.303.6 C.302.6 D.301.6 解析 = =303.6. 答案 B 2.(江苏高考)某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s2=________. 解析 ==7, ∴s2=[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2] ==3.2. 答案 3.2 3.(广东高考)为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天生产该产品的数量,产品数量的分组区间为[45,55),[55,65),[65,75),[75,85),[85,95).由此得到频率分布直方图如图所示,则这20名工人中一天生产该产品数量在[55,75)的人数是________. 解析 由频率分布直方图知[55,75)之间的频率为(0.040+0.025)×10=0.65,故[55,75)之间的人数为0.65×20=13. 答案 13 4.(江苏高考改编)某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为________. 解析 由平均数为10,得(x+y+10+11+9)×=10,则x+y=20; 又由于方差为2,则[(x-10)2+(y-10)2+(10-10)2+(11-10)2+(9-10)2]×=2, 得x2+y2=208,2xy=192, 所以有|x-y|===4. 答案 4 5.(福建高考)某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是__________. 解析 当x≥4时, =≠91, ∴x<4,∴=91, 解得x=1.故x应该是1.答案 1 §2.3 变量间的相关关系 【入门向导】 西方流传的一首民谣 丢失一个钉子,坏了一只蹄铁; 坏了一只蹄铁,折了一匹战马; 折了一匹战马,伤了一位骑士; 伤了一位骑士,输了一场战斗; 输了一场战斗,亡了一个帝国. 马蹄铁上一个钉子是否丢失与一个帝国存与亡关系有多大呢?显然,这种关系不能用我们熟悉的函数关系来描述,那么这究竟是一种什么样的关系? 个变量间的相关关系解读 相关关系我们可以从以下三个方面加以认识: (1)相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系,相关关系是一种非确定性关系. (2)函数关系是一种因果关系,而相关关系不一定是因果关系,还可能是伴随关系. (3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化. 例1 有下列关系: ①人的年龄与其拥有的财富之间的关系; ②曲线上的点与该点的坐标之间的关系; ③苹果的产量与气候之间的关系; ④森林中的同一树木,其横截面直径与高度之间的关系; ⑤学生与其学号之间的关系. 其中是相关关系的是________. 解析 ②⑤中两变量间的关系是函数关系;①③④中两变量的关系是非确定性关系,是相关关系. 答案 ①③④ 回归直线方程 在观察散点图特征时,我们会发现有时各点大致分布在一条直线的附近,且可以画出不止一条类似的直线,而最能代表变量x与y之间关系的直线的特征,即为n个偏差的平方和最小.设所求直线方程=a+bx,其中a,b是待定系数,则i=a+bxi(i=1, 2,…,n).于是得到各个偏差yi-i=yi-(bxi+a)(i=1,2,…,n). 显然,偏差yi-i的符号有正有负,若将它们相加会造成相互抵消,故采用n个偏差的平方和Q= (yi-bxi-a)2.采用最小二乘法可求出使Q为最小值时的a和b. ==, =-, 其中=xi,=yi. 例2 设对变量x、y有如下观察数据: x 151 152 153 154 156 157 158 160 160 162 163 164 y 40 41 41 41.5 42 42.5 43 44 45 45 46 45.5 (1)画出散点图; (2)如果变量x、y有线性关系,求出回归直线方程. 解 (1)画出散点图. (2)由(1)得变量x、y具有线性相关关系. 用计算器求得回归直线方程: =0.450x-27.759. 错点剖析 1.混淆相关关系与函数关系的概念 例3 下列两个变量之间的关系,哪个不是函数关系( ) A.角度与它的余弦值 B.正方形的边长与面积 C.正n边形的边数与各内角的角度之和 D.人的年龄与身高 错解 C 正解 D 2.散点图及回归直线方程在实际中的应用有误 例4 有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表: 人均GDP (万元) 10 8 6 4 3 1 患白血病 的儿童数 351 312 207 175 132 180 (1)画出散点图,并判定两个变量是否具有线性相关关系; (2)通过计算可得两个变量的回归直线方程为=23.25x+102.25,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确? 错解 (1)根据表中数据画出散点图,如图所示,从图可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系. (2)将x=12代入=23.25x+102.25,得=23.25×12+102.25=381.25>380,所以上述断言是正确的. 正解 (1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线性相关关系. (2)将x=12代入=23.25x+102.25,得=23.25×12+102.25=381.25>380,即便如此,但因381.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人. 3.忽略线性相关关系的判断致误 例5 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料: x/年 1 2 3 4 5 6 y/万元 5.0 0.8 0.5 6.5 7.0 1.2 根据资料判断y对x是否呈线性相关关系?若存在,借助回归直线方程估计使用年限为10年时,维修费用大约是多少?若不存在,请根据资料,求出第二年到第五年维修费用总共是多少? 错解 由于=3.5,=3.5,x=9.1, xiyi=76.3,===0.16, =-=3.5-0.16×3.5=2.94, 于是回归直线方程为 =0.16x+2.94, 当x=10(年)时, =0.16×10+2.94=4.54(万元). 错解辨析 在学习本章内容时,很多同学总是认为,只要是给出数据,就一定存在线性相关关系,当然一定可以求回归直线方程;其实不然,并非给出数据,就有线性相关关系,即便是求出回归直线也不一定有价值. 正解 先画出散点图,如图所示. 观察这个散点图,这些点没有分布在一条直线附近,所以y对x不呈线性相关关系. 由于第二年到第五年的维修费用表中已经给出,所以总费用W=0.8+0.5+6.5+7.0=14.8(万元),即第二年到第五年的维修费用为14.8万元. 计中的数形结合思想与转化思想 1.数形结合的思想方法 数形结合是统计内容中一个很突出的特点.获取了一个科学样本后,需要对样本数据进行整理分析,为了使样本的数据特征更直观,我们经常需要作图. 将样本中的n个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,就得到了散点图.根据散点图中点的分布趋势可直观地判断并得出两个变量的关系. 散点图定义在具有相关关系的两个变量基础上,借助散点图,我们可以看两个变量关系的密切程度,进行相关回归分析. 如果散点图中的点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们称正相关;如果散点图中的点散布在左上角到右下角的区域,我们称为负相关. 例1 某种产品的广告支出费x与销售额y(单位:百万元)之间有如下对应数据: x 2 4 5 6 8 y 30 40 60 50 70 试就此数据判断x与y之间是否有相关关系. 分析 怎样看两变量之间是否有相关关系呢?从数据表中看得出来吗?目前,简明直观的方法是画出散点图. 解 根据所给数据,画出散点图如下图. 由图可知,这些点大致位于一条直线的附近,故知广告支出费x与销售额y之间具有相关关系. 2.转化与化归的思想方法 统计中充分体现出了转化与化归的思想方法,如部分与整体的转化,数与图的转化,随机性问题与确定性问题的转化等. 统计的基本思想是用样本去估计总体,也就是用有代表性的一部分来估计整体的情况,这就反映出由部分向整体转化的思想. 例2 对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ) A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 解析 图(1)中的数据y随着x的增大而减小,因此变量x与变量y负相关;图(2)中的数据随着u的增大,v也增大,因此u与v正相关. 答案 C 1.(辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程: =0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元. 解析 由题意知[0.254(x+1)+0.321]-(0.254x+0.321)=0.254. 答案 0.254 2.(广东高考)某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm. 解析 儿子和父亲的身高可列表如下: 父亲身高 173 170 176 儿子身高 170 176 182 设回归直线方程 =+ x,由表中的三组数据可求得 =1,故 =- =176-173=3,故回归直线方程为 =3+x,将x=182代入得孙子的身高为185 cm. 答案 185 3.(广东高考)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据. x 3 4 5 6 y 2.5 3 4 4.5 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 =x+ ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下: (2)==4.5, ==3.5, xiyi=3×2.5+4×3+4×5+6×4.5=66.5, x=32+42+52+62=86, ∴===0.7, =-=3.5-0.7×4.5=0.35. ∴ =0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35, ∴90-70.35=19.65.∴降低19.65吨标准煤.- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 统计 规律 方法 数学 思想
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【仙人****88】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【仙人****88】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【仙人****88】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【仙人****88】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文