统计学概念术语解释2教学内容.doc
《统计学概念术语解释2教学内容.doc》由会员分享,可在线阅读,更多相关《统计学概念术语解释2教学内容.doc(50页珍藏版)》请在咨信网上搜索。
1、统计学概念术语解释2学习好资料随机变量的概率分布 随机变量和类型 离散性和连续型随机变量 随机变量的概率分布 随机变量的分布的两个重要概念 随机变量和类型 个体间的变异总是客观存在的,所以变量的取值随着个体的变化而变化。故用随机变量表示变量值的可变的特征。离散性和连续型随机变量 按变量取值的性质,将随机变量分为离散型和连续型两类。一般来说,某变量可在某一实数区间内任意取值,称该变量为连续型随机变量;某变量只取有限个数或可列个数(如取0,1,2,3,),称该变量为离散型随机变量。随机变量的概率分布 取不同随机变量值的概率按随机变量值的分布称为随机变量的概率分布。受事物内部客观因素的支配,尽管个体
2、变量值具有随机性,但其变量值的分布是有一定规律的。如例1.1资料中120名7 岁男童身高有不同,但出现不同身高的频数是以均数119.41cm为中心对称分布着,且愈近均数的分布频数愈多,远离均数的频数愈少。 即出现在不同身高范围内的概率按身高的分布是有一定规律的。概率分布是统计学赖以发展的理论基础,是研究随机现象的基本工具,任何统计方法都离不开特定的统计分布,而不同的分布又各具特性,通过对随机现象分布特征的描述,可以发现内在的客观规律。随机变量的分布的两个重要概念 关于随机变量的分布有两个重要概念,即分布函数和密度函数。1. 分布函数F(X) 即总体中个体值小于或等于X的观察值所占的比例,显然,
3、F(X)0,且F(-)=0,F()=1。即数值取某一数值及以下的累积概率。对应于样本值的累计频率。只要知道了函数F(X),分布的情况就知道了。 2. 密度函数f(X)对离散型随机变量,f(X)是变量取X值的概率,常记为P(X),显然,P(X)0,P(X)=1;对连续型随机变量,f(X)是F(X)的导函数。即 或 显然, 且 。一般来说,数值变量资料多属连续型随机变量,分类变量资料属离散型变量。每一个随机变量都有它的分布,离开了分布函数就不能谈随机变量。本章和下一章着重讨论两种最常用的统计分布,即正态分布与二项分布。正态分布 前面第1.3节中,我们已将表1.1的频数表资料,绘制成图1.1的直方图
4、,显示中间(靠近均数处)频数多,两边频数少,且左右对称的特征。这种指标的频数分布规律往往可以用概率论中一种重要的频数分布正态分布(normal distribution)来描述。可以设想, 如果将观察人数逐渐增多,组段不断分细,图中直条将逐渐变窄,其顶端将逐渐接近于一条光滑的曲线,如图3.1所示。图3.1(a) 图3.1(c)为样本例数不断增大时的样本的频率分布,光滑连续曲线图3.1(d)则表示样本所属总体的理论概率分布。图3.1(a)即是图1.1去掉中间竖分隔线。图3.1(d)这条曲线称为频数分布曲线或频率分布曲线。用条形面积表示频数大小时,称为频数分布曲线;当每组段的频数除以总频数(n)得
5、到每组段的频率,即当用条形面积表示频率大小时,称为频率分布曲线。该曲线两头低中间高,略呈钟型,左右对称,近似一理论分布正态分布。由于频率的总和等于100或1, 故横轴上曲线下的面积等于100或1。 图3.1 频数分布逐渐接近正态分布示意图 正态分布又称Gauss分布(Gaussian distribution),是一种很重要的连续型分布,应用甚广。3.2.1 正态分布的定义若随机变量的密度函数是: -X (3.1)则称随机变量X服从正态分布,X为正态变量。式中右侧为随机变量X的总体均数, 为标准差,和是正态分布的两个参数(parameter);为圆周率,即3.14159;e 为自然对数的底,即
6、2.71828。和e均为常量,仅X为变量。若X服从均数为,方差为2的正态分布,则简记为XN(,2)。已知和,就能按式(3.1)绘出正态曲线的图形。3.2.2 正态分布的性质正态分布只有一个高峰,高峰位置在X =。这一点由f(X)的定义即知。总体中位数亦为。正态分布以均数为中心,左右对称。式(3.1)中(X -)值无论正负,(X -)2恒为正,只要(X -)的绝对值相等,则纵高f(X)相等,因此正态分布以均数为中心,左右对称。正态分布的两个参数,和,决定了分布的位置和形状。是位置参数,如图3.2,当恒定时,越大,则曲线沿横轴越向右移动;反之,越小, 则曲线沿横轴越向左移动。是变异度参数,如图3.
7、3,当恒定时,越大,表示数据越分散,曲线越“矮胖”;越小,表示数据越集中,曲线越“瘦高”。有两个参数唯一确定的正态分布总体对应着一条确定的正态分布曲线,不同的正态分布曲线则代表着不同的正态分布总体。 图3.2 不同均数时的正态分布示意图 图3.3 不同标准差时的正态分布示意图 3.2.3 正态变量的线性变换线性变换的意义:对于由两个参数唯一确定的正态分布,不同的变量有不同的分布曲线。从实际应用的方便考虑,可将所有服从正态分布的曲线作标准化变换。变换方法: 对任何服从正态分布N(,2)的随机变量X作如下线性变换: (3.2)都变换成均数为0,方差为1的正态分布,称为标准正态分布(standard
8、 normal distribution),简记为u N(0,1)。u称为标准正态(离)差(standard normal deviate)。 标准正态分布的密度函数为(u): -u (3.3)式(3.2)也就是将图3.2的原点移到的位置,横轴尺度以为单位,使变换后的变量成为标准正态变量(图3.4)。这一变换极为重要,它并不影响正态分布的基本性质,却为实际应用带来很大方便。它告诉我们,总可以将一般的正态变量通过线性变换化成同一个标准正态变量。在弄清楚标准正态分布的性质后,也就不难推论到一般正态分布了,如在计算正态曲线下的面积分布时,往往借助标准正态分布而求得。 图3.4 一般正态分布变换成标准
9、正态分布示意图经过反变换X =u (3.4)可将标准正态变量变换成任意的正态变量。例:对于正态变换的实际意义的理解一个身高172cm的成年男士和一个172cm成年女士,为何会认为男士为矮个,而女士为高个呢?假设对应成年男性身高总体的均数为175cm,标准差3.0; 成年女性身高总体的均数为163cm,标准差3.0; 比较u的大小可以看到男士低于其平均水平,而女士高于其平均水平。实际工作中,经常需要了解正态曲线下,横轴上的一定区间的面积占总面积的百分数,用以估计当资料服从正态分布时,某区间的例数占总例数的百分数(频率分布),或变量值落在某区间的概率(概率分布)。正态曲线下一定区间的面积,可以通过
10、对式(3.1) 的积分来求得,即 (3.5)式中F(X)为正态变量X的累计分布函数,反映正态曲线下,横轴尺度自-到X的面积, 即左侧累计面积(概率)。而对式(3.6)的积分,计算更为简便,即 (3.6)式中(u)为标准正态变量u的累计分布函数,反映标准正态曲线下,横轴尺度自-到u的面积,也是左侧累计面积(概率)。为了省去计算的麻烦,统计学家已按式(3.6)编成了标准正态分布曲线下的面积附表1。例3.1 求标准正态分布曲线下区间(-,1.96)的面积。(1)先求区间(-,-1.96)的面积,查附表知,在表的左侧找到-1.9,在表的上方找到0.06,二者相交处其值为0.0250,意即标准正态分布曲
11、线下区间(-,-1.96)的面积是0.0250。正态分布曲线下的面积为1,且关于均数是对称的,故标准正态曲线下对称于0的区间的面积相等。例如区间(1.96,)的面积与区间(-,-1.96)的面积相等,亦为0.0250(见图3.5(a))。因而附表1只列出(-u)值。(2)区间(-,1.96)的面积为1-(1.96,)的面积,即1-0.025=0.975。例3.2 求标准正态分布曲线下区间(-,-2.58)的面积与区间(2.58,)的面积。根据u = -2.58,查附表1,在表的左侧找到-2.5,在表的上方找到0.08,二者相交处为0.0049,意即标准正态分布曲线下区间(-,-2.58)的面积
12、是0.0049,约为0.5。区间(2.58,)的面积亦为0.5(见图3.5(b))。 图3.5 标准正态分布曲线下面积分布示意图例3.3 求标准正态分布曲线下区间(-1,1)的面积。区间(-1,1)的面积为(见图3.5(b))1(-,-1)的面积(1,)的面积1-2(-,-1)的面积 1-20.15870.6826一般正态分布曲线下的面积的计算法:当、和X已知时,须先按式(3.2)求得u值,意指X -是标准差的u倍,再用u 值查附表1,得所求区间面积占总面积的比例。当和未知时,常分别用样本均数 和样本标准差S对和做出估计。例3.4 求正态分布N(119.41,3.382)曲线下区间(110.8
13、3,127.99)内的面积。本例均数为119.41,标准差为3.38。先用公式(3.2)求对应的u值:uL = (110.83-119.41)/4.38 = -1.96uU = (127.99-119.41)/4.38 = 1.96即区间(110.83,127.99)内的面积相当于-1.96到+1.96的面积, 等于标准正态分布曲线下区间(-1.96,1.96)的面积,其值为:1-2标准正态分布曲线下区间(-,1.96)的面积1-20.0250.95即正态分布N(119.41,4.382)曲线下区间(110.83,127.99)内的面积占总面积的95。对于近似正态分布的资料,理论上1.96及2
14、.58的区间面积(该区间的观察单位数)分别各占总面积(总观察单位数)的95及99,以后要经常用到。 概括估计变量值的频数分布 某些医学现象服从正态分布或近似正态分布,如同性别、同年龄儿童的身高, 同性别健康成人的红细胞数、血红蛋白量、脉搏数等,以及实验中的随机误差,一般表现为正态分布,均可按正态分布原理来处理。对于近似正态分布的资料,只要求得均数和标准差,便可就其频率分布作出概约估计。例3.5 在例1.1中,某地120名7岁男童的身高,已知均数 =119.41cm,标准差s =4.38cm,试(1)估计该地7岁男童身高在110cm以下者占该地7岁男童总数的百分数。(2)分别求 = 1s, 1.
15、96s, 2.58s范围7岁男童人数占该组儿童总数的实际百分数,说明与理论百分数是否相近。1) 按式(3.2)求u :u=(10-119.41)/4.38=-2.15 查附表1,得0.0158,即该地7岁男童身高在110cm以下者,估计约占1.58。2) 计算结果见表3.1。表中实际分布的“人数”是由例1.1实测数据清点出来的,如120名儿童的实测身高在115.03123.79cm范围者83人,占总人数的83/120=69.17,余仿此。将 做为的估计值,将s做为的估计值,可在直方图的基础上绘制出正态分布曲线,见图3.6。可见本资料的实际分布与理论分布是很接近的。 表3.1 120名7岁男童身
16、高的实际分布与理论分布比较us 身高范围(cm)实际分布理论分布(%)人数百分数(%)1.00s119.41 1.004.38 115.03- 123.79 8369.1768.271.96s119.41 1.964.38 110.83- 127.99 11394.1795.002.58s119.41 2.584.38 108.11- 130.71 11999.1799.00 图3.6 某地120名7岁男童身高的实际频数分布与正态理论分布比较呈偏态分布的的资料常常可以经过变量变换,然后俺按正态分布规律处理。如环境中某些有害物质的浓度,食品中某些药物的残留量,某些临床检验结果,某些疾病的潜伏期以
17、及医院病人住院天数等呈偏态分布,常在施以对数变换后(即用1ogX代替原数据X,详见7.6节),(这里我们说X服从对数正态分布),按正态分布规律处理。(2)制定参考值范围 参考值范围(reference ranges),又称正常值范围(normal ranges), 是指绝大多数 正常人的某指标范围。它来源于临床上对疾病诊断和治疗的实际需要,系指正常人的解剖、生理、生化等各项指标观察值的波动范围。由于这些观测值因人、因时而异,故不能将某个人某时的观察值作为正常值,而必须确定一个波动范围。如一般以400010000个/mm3作为成人白细胞总数的正常值范围。 实际工作中常将正常值范围简称为正常值,但
18、不能因此忘却范围的概念。现代医学对正常值的概念有了较大的发展,如卫生学上对食品、空气、水、化妆品等的卫生标准的制订;流行病学中某传染病隔离期限的确定;在儿少卫生中不同性别、年龄儿童的各项生长发育指标的等级标准的确定;在管理工作中工作额定标准的制订;动物实验中标准动物的确定等等。凡此种种,有个共同点就是确定标准,用于分类判别和综合评价。因此,正常值范围的应用领域、研究内容和研究方法都越来越广泛和深入。1)确定正常值范围的一般原则和步骤 抽取足够例数的正常人样本 正常值范围是以正常人为对象,根据样本数据来确定的。所谓正常人,并不是指机体的任何器官、组织的形态和机能都是正常的人,而是指排除了影响所研
19、究指标的疾病和有关因素的人。例如某单位研究血清谷-丙转氨酶活性的正常值, 选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史(如氯丙嗪、异烟肼等),测定前未作剧烈运动等。正常人是抽样的同质基础,保证研究对象的同质性是确定正常值范围的首要问题。正常值范围是根据样本分布来确定的,样本分布愈接近总体分布,所得结果愈可靠,因此要保证样本含量足够多。样本含量的确定应视具体情况提出不同要求,一般认为每组应在100例以上。但不要片面追求大样本,以致掌握“正常”标准不严、测定方法不精确、 操作马虎,影响数据本身的可靠性。对选定的正常人进行准确而统一的测定保证原始资料可靠,是确定正常值范围的
20、前提。为此,必须严格控制检测误差(包括分析仪器的灵敏度,试药的纯度,操作技术的熟练程度,标准的掌握等),进行准确而统一的测定。决定取单侧范围值还是双侧范围值正常值范围是取单侧还是双侧需根据指标的实际用途来确定。如白细胞总数无论过高或过低均属异常,故其正常值范围需要分别确定下限和上限,为双侧范围;又如,肺活量是愈大愈好,通常只以过低为异常,只需确定其下限;尿铅通常只以过高为异常,只需确定其上限,为单侧范围。选定适当的百分范围正常值范围的意思是绝大多数正常人的观察值都在此范围以内。这个绝大多数,习惯上指正常人的80,90,95(最常用)或99等,需根据正常人和病人的数据分布特点选定这些百分界限。例
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概念 术语 解释 教学内容
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。