非参数估计.ppt
《非参数估计.ppt》由会员分享,可在线阅读,更多相关《非参数估计.ppt(72页珍藏版)》请在咨信网上搜索。
1、非参数估计刘芳,戚玉涛刘芳,戚玉涛qi_qi_引言v参数化估计:参数化估计:ML方法和方法和Bayesian估计。假设概率估计。假设概率密度形式已知。密度形式已知。v实际中概率密度形式往往未知。实际中概率密度形式往往未知。v实际中概率密度往往是多模的,即有多个局部极大实际中概率密度往往是多模的,即有多个局部极大值值。v实际中样本维数较高,且关于高维密度函数可以表实际中样本维数较高,且关于高维密度函数可以表示成一些低维密度函数乘积的假设通常也不成立。示成一些低维密度函数乘积的假设通常也不成立。v本章介绍非参数密度估计方法:本章介绍非参数密度估计方法:能处理任意的概率能处理任意的概率分布,而不必假
2、设密度函数的形式已知。分布,而不必假设密度函数的形式已知。主要内容v概率密度估计概率密度估计vParzen窗估计窗估计vk-NN估计估计v最近邻分类器(最近邻分类器(NN)vk-近邻分类器(近邻分类器(k-NN)概率密度估计v概率密度估计问题:概率密度估计问题:给定给定i.i.d.样本集:样本集:估计概率分布:估计概率分布:概率密度估计v直方图方法:直方图方法:非参数概率密度估计的最简单非参数概率密度估计的最简单方法方法 1.把把x的每个分量分成的每个分量分成k 个等间隔小窗,个等间隔小窗,(xEd,则形成,则形成kd 个小舱)个小舱)2.统计落入各个小舱内的样本数统计落入各个小舱内的样本数q
3、i 3.相应小舱的概率密度为:相应小舱的概率密度为:qi/(NV)(N:样本:样本 总数,总数,V:小舱体积):小舱体积)概率密度估计v直方图的例子概率密度估计v非参数概率密度估计的核心思路:一个向量一个向量x落在区域落在区域R中的概率中的概率P为:为:因此,可以通过统计概率因此,可以通过统计概率P来估计概率密度函数来估计概率密度函数p(x)概率密度估计v假设假设N个样本的集合个样本的集合是根据概率密度是根据概率密度函数为函数为p(x)的分布独立抽取得到的。的分布独立抽取得到的。那么,有那么,有k个样本落在区域个样本落在区域R中的概率服从二项式中的概率服从二项式定理:定理:k 的期望值为:的期
4、望值为:对对P的估计:的估计:当当 时,时,估计是非估计是非常精确的常精确的概率密度估计v假设假设p(x)是连续的,且是连续的,且R足够小使得足够小使得p(x)在在R内几乎内几乎没有变化。没有变化。v令令R是包含样本点是包含样本点x的一个区域,其体积为的一个区域,其体积为V,设有,设有N个训练样本,其中有个训练样本,其中有k落在区域落在区域R中,则可对概率中,则可对概率密度作出一个估计:密度作出一个估计:对对p(x)在小区域内的平均值的估计在小区域内的平均值的估计概率密度估计v当样本数量当样本数量N固定时,体积固定时,体积V的大小对估计的的大小对估计的效果影响很大。效果影响很大。过大则平滑过多
5、,不够精确;过大则平滑过多,不够精确;过小则可能导致在此区域内无样本点,过小则可能导致在此区域内无样本点,k=0。v此方法的有效性取决于样本数量的多少,以此方法的有效性取决于样本数量的多少,以及区域体积选择的合适。及区域体积选择的合适。概率密度估计v收敛性问题:收敛性问题:样本数量样本数量N无穷大是,估计的概率函数无穷大是,估计的概率函数是否收敛到真实值?是否收敛到真实值?实际中,实际中,越精确,要求:越精确,要求:实际中,实际中,N是有限的:是有限的:当当时,绝大部分区间没有样本:时,绝大部分区间没有样本:如果侥幸存在一个样本,则:如果侥幸存在一个样本,则:概率密度估计v理论结果:理论结果:
6、设有一系列包含设有一系列包含x 的区域的区域R1,R2,,Rn,,对,对R1采用采用1个样本进行估计,对个样本进行估计,对R2用用2 个,个,Rn包含包含kn个样本。个样本。Vn为为Rn的体积。的体积。为为p(x)的第的第n次估计次估计概率密度估计v如果要求如果要求能够收敛到能够收敛到p(x),那么必须满足:,那么必须满足:选择选择Vn选择选择kn概率密度估计v两种选择方法:两种选择方法:主要内容v概率密度估计概率密度估计vParzen窗估计窗估计vk-NN估计估计v最近邻分类器(最近邻分类器(NN)vk-近邻分类器(近邻分类器(k-NN)Parzen窗估计v定义窗函数:定义窗函数:假设假设R
7、n是一个是一个d维的超立方体。令维的超立方体。令hn为超立方体一条边的长度,则体积:为超立方体一条边的长度,则体积:立方体窗函数为:立方体窗函数为:中心在原点的中心在原点的单位超立方体单位超立方体Parzen窗估计X处的密度估计为:处的密度估计为:落入以落入以X为中心的立方体区域的样本数为:为中心的立方体区域的样本数为:可以验证:可以验证:窗函数的要求vParzen窗估计过程是一个内插过程,样本xi距离x越近,对概率密度估计的贡献越大,越远贡献越小。v只要满足如下条件,就可以作为窗函数:窗函数的形式 方窗函数方窗函数指数窗函数指数窗函数正态窗函数正态窗函数其中:其中:窗口宽度的影响vParze
8、n估计的性能与窗宽参数hn紧密相关当hn较大时,x和中心xi距离大小的影响程度变弱,估计的p(x)较为平滑,分辨率较差。当hn较小时,x和中心xi距离大小的影响程度变强,估计的p(x)较为尖锐,分辨率较好。窗口宽度的影响窗函数窗函数密度估计值密度估计值5个样本的个样本的Parzen窗估计:窗估计:渐近收敛性vParzen窗密度估计的渐近收敛性:无偏性:一致性:当当 时,时,0123456x6x5x3x1x2x4x 例:对于一个二类(1,2)识别问题,随机抽取1类的6个样本X=(x1,x2,.x6)1=(x1,x2,.x6)=(x1=3.2,x2=3.6,x3=3,x4=6,x5=2.5,x6=
9、1.1)估计P(x|1)即PN(x)解:选正态窗函数 x是一维的上式用图形表示是6个分别以3.2,3.6,3,6,2.5,1.1为中心的正态曲线,而PN(x)则是这些曲线之和。代入:代入:由图看出,每个样本对估计的贡献与样本间的距离有关,样本越多,PN(x)越准确。例:设待估计的P(x)是个均值为0,方差为1的正态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解:设窗口函数为正态的,1,0hN:窗长度,N为样本数,h1为选定可调节的参数。v用 窗法估计单一正态分布的实验N=N=256N=16N=1由图看出,PN(x)随N,h1的变化情况 当N
10、1时,PN(x)是一个以第一个样本为中心的正态曲线,与窗函数差不多。当N16及N=256时 h10.25 曲线起伏很大,噪声大 h11 起伏减小 h14 曲线平坦 当N时,PN(x)收敛于一平滑的正态曲线,估计曲线较好。例:待估的密度函数为二项分布解:此为多峰情况的估计设窗函数为正态解:此为多峰情况的估计设窗函数为正态x-2.5-210.2502P(x)-2.5x-20 x2x为其它N=N=256N=16N=1v用 窗法估计两个均匀分布的实验当N=1、16、256、时的PN(x)估计如图所示 当N1时,PN(x)实际是窗函数。当N16及N=256时 h10.25 曲线起伏大 h11 曲线起伏减
11、小 h14 曲线平坦 当N时,曲线较好。Parzen窗估计v优点优点由前面的例子可以看出,Parzen窗估计的优点是应用的普遍性。对规则分布,非规则分布,单锋或多峰分布都可用此法进行密度估计。可以获得较为光滑且分辨率较高的密度估计,实现了光滑性和分辨率之间的一个较好平衡。v缺点缺点要求样本足够多,才能有较好的估计。因此使计算量,存储量增大。窗宽在整个样本空间固定不变,难以获得区域自适应的密度估计。识别方法1.保存每个类别所有的训练样本;2.选择窗函数的形式,根据训练样本数n选择窗函数的h宽度;3.识别时,利用每个类别的训练样本计算待识别样本x的类条件概率密度:4.采用Bayes判别准则进行分类
12、。v例子:基于Parzen估计的Bayesian分类器较小较大主要内容v概率密度估计概率密度估计vParzen窗估计窗估计vKn近邻估计近邻估计v最近邻分类器(最近邻分类器(NN)vk-近邻分类器(近邻分类器(k-NN)Kn近邻估计v在在Parzen窗窗估估计计中中,存存在在一一个个问问题题:对对hn的的选择。选择。若若hn选选太太小小,则则大大部部分分体体积积将将是是空空的的(即即不不包包含含样本),从而使样本),从而使Pn(x)估计不稳定。估计不稳定。若若hn选选太太大大,则则Pn(x)估估计计较较平平坦坦,反反映映不不出出总总体分布的变化体分布的变化vKn近近邻邻法法的的思思想想:固固定
13、定样样本本数数量量Kn,调调整整区区域体积大小域体积大小Vn,直至有,直至有Kn个样本落入区域中个样本落入区域中Kn近邻估计vKn近邻密度估计:近邻密度估计:固定样本数为固定样本数为,在,在附近选取与之最近的附近选取与之最近的个样本,计算该个样本,计算该个样本分布的最小体积个样本分布的最小体积在在X处的概率密度估计值为:处的概率密度估计值为:渐近收敛的条件渐近收敛的充要条件为:渐近收敛的充要条件为:通常选择:通常选择:Kn近邻估计v例子:v例子:ParzenParzen windows windowskn-nearest-neighbor斜率不连续斜率不连续当当n值为有值为有限值时限值时Kn近
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数估计
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。