概率密度估计及近邻法PPT.ppt
《概率密度估计及近邻法PPT.ppt》由会员分享,可在线阅读,更多相关《概率密度估计及近邻法PPT.ppt(62页珍藏版)》请在咨信网上搜索。
1、第三章概率密度函数估计及近邻法Estimation of Probability Density Function and The Nearest Neighbor Rule1 引言2 总体分布的参数估计 极大似然估计 贝叶斯估计参数3 总体分布的非参数估计 Parzen窗法 kN近邻法4 近邻法则 1 引言基于样本的两步贝叶斯决策:估计类条件概率密度 和先验概率 ;利用 和 完成分类器设计。(第二章)本章讨论从样本集推断总体概率分布p(x|wi)。而样本的先验概率P(wi)的估计较易实现。概率密度函数含参数和形式两方面内容,分别称为参数估计和非参数估计。其估计方法:1.监督参数估计 已知样本
2、类别wi及其p(x|wi)形式,而参数未知,需从训练样本x估计参数q q,如一元正态分布的m、s 2等参数。2.非监督参数估计 未知样本类别wi,已知概率密度函数p(x|wi)的形式,但参数未知,需从样本x估计参数。上述两种均可用极(最)大似然法和Bayes估计法来估计参数。3.非参数估计即估计p(x|wi)形式 已知样本类别,但未知概率密度函数的形式,要从样本推断p(x|wi)属于哪种分布。可用Parzen窗法和kN近邻法。4.近邻法则不属于估计内容 直接利用样本设计分类器。非参数(即分类中不需要估计概率密度函数)方法之一。5.参数估计的几个基本术语统计量:每个训练样本都包含总体信息。根据从
3、总体中抽取的样本集构造某种函数,该函数统计学中称为统计量。参数空间:概率密度形式已知,参数q q 未知,q q 可取值的集合称为参数空间,记为。点估计、估计量和估计值:构造一个统计量f(x1,xn)作为参数q 的估计量 。如果x1,xn属于某类,代入统计量f,就可得到该类具体的估计值。本章参数估计属于点估计。区间估计要求用区间(d1,d2)作为q 可能取值范围的一种估计。该区间称为置信区间。2 总体分布的参数估计1.极(最)大似然估计 基本原理 把参数q q 看成确定的(非随机)但取值未知,最好估计值是在样本x概率为最大条件下得到的。假设:按类别把样本集分成c个子集 x1,x2,xc,其中xj
4、中的样本是从概率密度为p(x|wj)的总体中独立抽取的。p(x|wj)形式已知,参数q qj未知,可写成p(x|wj,q qj)。不同类的参数独立,即xi不包含q qj信息(ij)这样每一类可单独处理,共处理c个独立问题。设某类有N个样本组成了样本集 xx1,x2,xN 样本是独立从该类抽取的,因此N个随机变量的联合概率密度 统计学中称p(x|q)为相对于样本集x的q 的似然函数l(q q)似然函数l(q q)给出了从总体中抽取的x1,x2,xN这N个样本的概率。极大似然估计值定义:令l(q q)为样本集x的似然函数,在的参数空间中能使l(q q)极大化的那个 值。极大似然法的主要思想:如果在
5、一次观察中一个事件出现了,则这个事件出现的可能性最大。事件xx1,x2,xN在一次观察中(即从总体中抽取N个样本)出现了,就可认为 p(x|q)达到极大值,即在参数空间中使似然函数极大化的 值。一个简单的例子:假设似然函数p(x|q q)对未知参数q q 是连续可微的,则 可由典型的求极值的方法求得。求极大值的必要条件 单个q q 的情况下:若q q 是向量,有s个分量q q=q1,qs T,则多变量的梯度算子对数似然函数H(q q)是单调的增函数,为计算方便,一般用对数似然函数。正态分布的极大似然估计 从总体中抽取N个样本 xk,观察下列不同情况:已知,均值向量m m未知,即q q=m m。
6、m的极大似然估计必须满足方程:未知均值的极大似然估计正是样本的算术平均。一维正态情况,两个参数均未知,设q1m,q2s 2,q qq1,q2 T。多维正态密度的情况。计算方法和形式完全类似,只是复杂些,计算结果:均值向量的极大似然估计是样本的均值,而协方差的极大似然估计是N个矩阵 的算术平均。这是一致估计。协方差矩阵的无偏估计为2.Bayes估计和Bayes学习 Bayes估计:根据样本集 x 确定总体某个参数q Bayes学习:利用样本集 x 确定概率密度函数p(x)Bayes估计 基本原理:把参数q当作具有某种先验分布p(q)的随机变量,对样本x观察使先验分布转化为后验分布p(q|x),据
7、此再修正原先的估计 。假设:把所有的样本按类别分成c个子集。每个子集有N个样本 x=x1,x2,xN。每类可单独处理。已知样本的分布形式p(x|q q),而参数q q 未知。q为随机变量,已知其先验概密函数p(q)。贝叶斯估计和最小风险贝叶斯决策可统一:Bayes估计:有一个样本集x,用来估计所属总体分布的某个参数,使带来的贝叶斯风险最小。Bayes估计最小风险 R为给定条件下某个估计量的期望损失,常称为条件风险。使条件风险最小的估计量q q,也就是贝叶斯估计。经推导(P.52定理3.1)使用平方误差损失函数时,得到估计量为条件期望:Bayes参数估计步骤:确定q 的先验概率密度函数p(q);
8、由样本集 x=x1,x2,xN计算样本的联合分布 ,它是 q 的函数;用Bayes公式求后验分布p(q|x)求样本的估计量q正态分布情况的Bayes估计举例 样本为一维正态分布 p(x|m)N(m,s 2),m未知 m是随机的,其先验概密 p(m)N(m0,s02)N个样本构成样本集 x=x1,x2,xN求m的估计量解:用Bayes公式求m的后验分布:a比例因子与无关根据上述假设:代入计算后验概密 p(|x)p(|x)是的二次函数的指数函数,仍是正态密度,写成 Bayes学习求概率密度函数p(x|X)从联合密度求条件概密函数 X由N个样本组成,X=x1,xN用Bayes公式计算q 的后验分布
9、p(q|X),根据独立性 其中 XN=x1,xN1,xN,XN1=x1,xN1 已知q 的先验概密 p(q|X0)=p(q),根据样本序列x1,xN按下式反复计算,得到概率密度的序列p(q),p(q|x1),p(q|x1,x2),,同时修改q,如果这个密度序列在估计值 附近产生一个陡峰,即d 函数,这种性质称为Bayes学习。Bayes学习步骤:前三步同Bayes估计。下面的步骤 读入第一个样本x1,计算得到得到后验概密p(q|x1),据此作为下一步计算的先验概率密度;读入样本x2,计算得到p(q|x1,x2);这样得到一个概率密度序列:这个过程称为参数估计的递归的Bayes方法。这个序列收敛
10、于一个q q0为中心的d 函数,则这个性质称 Bayes 学习。大多数密度函数有此性质。从前例 Bayes学习得到条件概率密度函数非监督参数估计方法所采用的也是这两种方法,但计算较复杂。就极大似然估计来说,由于样本的类别未知,因此定义c类样本组成的混合密度建立似然函数。3 总体分布的非参数估计根据训练样本集x=x1,x2,xN ,估计总体分布概率密度函数p(x|x1,x2,xN)形式。基本思想:每个样本对总体概率密度 分布都有贡献(如矩形a),N个样本的贡献叠加起来,得到概率密度估计,如虚线。也可认为每个样本在自己位 置上贡献增大,离得远贡献 小(如正态分布),同样叠加 得到概率密度估计(下图
11、)。直方图方法估计一维概率密度函数近似值:将x轴划分为长度为h的区间,样本x落在某个区间的概率就是这个区间的估计值。样本总数为N,落在某个区间的点数为kN,相应的概率近似于频数:P kN/N 概率密度在同一个区间为常数,近似等于 估计值收敛于真实值的条件:hN 0;kN;kN/N0。这三个条件表示对N的依赖型。理论上讲,要使 ,就必须使体积V趋于零,同时N和k 趋于无穷大。若体积V固定,样本取得越来越多,则k/N收敛,只能得到p(x)的空间平均估计若样本数N固定,使R不断缩小,V趋于零,会发生两种无意义情况:一是区域内不包含任何样本,p(x)=0;二是碰巧有一个样本,p(x)=。实际上样本是有
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 概率 密度 估计 近邻 PPT
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。