第十二章非参数判别分析与非参数聚类.doc
《第十二章非参数判别分析与非参数聚类.doc》由会员分享,可在线阅读,更多相关《第十二章非参数判别分析与非参数聚类.doc(8页珍藏版)》请在咨信网上搜索。
1、第十二章 非参数判别分析与非参数聚类第一节 非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判别法。这些判别法都需要估计总体的参数,而贝叶斯判别时,我们还指定了总体服从正态分布。在非参数统计中,不对变量的分布做任何假设,这里主要有两种方法,BAYES方法和近邻方法进行非参数判别分析。设有M个类,用Y记一具体的对象所属的类,Y可能的取值为.设有了n个经过明确判定的样本,第i个样本的指标为,所属的类为,n个样本记,常称为“训练样本”。这一名称的来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。非参
2、数方法是基于组概率密度函数的非参数估计.每组的非参数密度估计核产生的分类准则采用核方法或k最近邻方法。马氏距离或欧氏距离用来确定样品的接近程度。二、核方法1、Bayes方法概念设有M个总体分别具有概率分布密度,出现M个总体的先验概率分别为,。贝叶斯判别的规则将样品判给最大的类,即如果,判 2、Bayes方法和密度函数估计的联系在非参数判别中,通常完全未知,有时未知。一个直观的想法是直接估计和,然后将得到的估计代入判别规则中进行计算。具体的步骤是:如果已知某事物可分为M个总体:,,该事物的特性P个指标描述,在进行分析之前,已观察到在各个总体的样本., , ,为维密度函数,为窗宽,总体密度函数的一
3、个核估计可以表示为: 其中,将估计出的先验概率和密度函数代入判别规则中,得到后验概率,进行比较。使用该估计需要一个前提,即全部训练样本是从大的总体中随机抽样取得的,否则便没有意义了。现设当时,X的条件分布有概率密度函数,则的边缘分布为。已知时,的条件概率为判别规则为 ,判,判 三、K近邻方法 1、概念记样本,要由样品指标x去判别其所属的类Y,Y可能的取值为。将按其与X的距离排列,如,距离相等时,按足标小的在前的原则处理.指定一个介于1到n之间的自然数k,挑出最接近X的k个,即,与他们匹配的Y是。定义:以记为中等于的个数。定义判别函数如下:若是中的唯一最大者,则定义;若中有若干个同时达到最大者,
4、比方说是,则再按等概率在中确定一个为。2、近邻方法与概率密度的最近邻估计的关系 用近邻方法估计估计密度函数的方法是,先固定一个介于1到n之间的自然数,对任何,计算,然后的密度函数估计和先验概率的估计为: 判别规则为:,判, 等价的判别函数,则判四、SAS/DISCRIM过程中的非参数判别的选项非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分类准则采用核方法和K最近邻方法得到.马氏和欧氏距离能够用来确定接近的程度.采用k最近邻方法时,马氏距离基于合并协方差阵;采用核方法时,马氏距离基于单个组那方差矩阵或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。
5、从估计密度,x术语各组的喉炎概率得到评估。观测x盼归第t组是因为p(t/x)最大。METHOD=NPAR-采用非参数判别方法。-为最近邻方法指定一个值。观测x分如一个组基于从x的k个最劲力得到的信息.为核密度估计指定一个半径r。注意,不能同时选用K=选项与R选项。KERNEL=BIWEIGHTBIW或 EPANECHNIKOVEPA或TRIWEIGHTTRI或UNIFORMUNI-为估计组密度指定一个核密度,缺省为KERNEL=UNIFORMUNI。METRIC=DIAGONAL|FULLIDENTITY为平方距离的计算指定度量.缺省为METRIC= FULL。第二节 非参数聚类分析非参数聚类
6、过程利用某种基于非参数密度估计的算法对观测得到的数据进行分类。Sas的modeclus模块产生的数据集包括密度估计和聚类的结果,一系列的统计量,其中包括近似的p值,以及用不同的算法,不同的光滑参数和不同的显著性水平得到的结果。我们知道,密度最大的数是众数,及mode。非参数聚类方法,类是由概率密度函数的众数定义的,一个类大致可以定义为概率密度函数的一个局部最大点附近的区域.给定一个足够大的样本,非参数分析方法可以不同大小,不同分散程度和形状极不规则的类。非参数聚类分析方法对找出具有相同大小和分散程度的类效果也好。一、问题的引入如下虚构的数据进行分类data a;inout x y ;cards
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十二 参数 判别分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。