对应用统计方法评估核函数分类能力的研究.doc
《对应用统计方法评估核函数分类能力的研究.doc》由会员分享,可在线阅读,更多相关《对应用统计方法评估核函数分类能力的研究.doc(29页珍藏版)》请在咨信网上搜索。
1、应用记录方法应用记录方法综合综合评估核函数分类能力的研究评估核函数分类能力的研究*)*)王 泳1,2 胡包钢1,2 1(中国科学院自动化研究所模式辨认国家重点实验室 北京 100190)2(中国科学院研究生院 北京 100049)摘摘 要要 本文应用记录方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正反复取样 t 测试”引入到核函数选择中,通过其与k-折交叉验证、配对 t 测试等多种记录方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息增益的评估核函数模式辨认能力的定量评估准则,证明了该准则是传统评估准则的非线性函数.数值实验表白,不同模型评估准则
2、之间存在差异,但应用记录方法可以从这些差异中发现一些规律.同时,不同记录方法之间也存在显著差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才干对不同核函数的分类能力进行客观评估.关键词关键词 核函数选择;模式辨认;纠正反复取样 t 测试;信息增益;非线性函数 中图法分类号中图法分类号 TP391TP391 1 1 引言引言 在支持向量机(Support Vector Machines,SVMs)1方法中,核函数选择十分重要.研究表白1,针对同一分类问题,选择不同的核函数,分类性能也许会相差很大.这重要是由于构成核函数yx,K的非线性映射
3、x是隐函数,且这些隐函数的类型是多样可变的.所以当人们对特定问题没有任何先验知识的时候,很难拟定应当选择哪一类核函数进行计算.虽然运用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所相应的特性映射可以保证任意两个不连接的有界闭集在特性空间中线性可分2,但如何构造这类最优核至今却还缺少行之有效的方法.众多学者从不同的角度对核函数选择3,4和构造5-8问题进行了有益的探讨,但综合性的评估研究仍是缺少的.一般说来,核函数的评估指标可以分为两大类:一类来自实际数据的实验验证结果;一类来自理论分析所给出的界.根据记录学习理论,核函数推广能力的强弱与由该函数计算得到的分类超平面集合的 V
4、C 维(Vapnik-Chervonenkis dimension)相关,VC 维h,泛化误差和特性空间中训练样本集与超平面的最短距离之间存在以下关系1 1,min22nRh,22mRO (1)R是特性空间中包含所有训练样本的最小超球的半径,m是训练样本的个数,n是特性空间的维数.因此,VC 维越小,函数的推广能力越强.但遗憾的是,目前尚没有关于如何计算任意函数集的复杂性(VC 维)以及推广性界的一般性理论,可以得到的只是一些估计值1,7.所以在解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.根据有限数据的实验验证结果进行分类预测性能评估是机器学习领域的一个存在较多争
5、议的研究领域,这不仅是由于在分类模型预测性能评估体系中存在很多模型评估准则,并且还存在许多不同的模型评估方法(图 1).在实践中,应用 k-折交叉验证方法(k-fold Cross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种情况都合用9,特别是当拟定一个学习模型对某个具体问题的解决是否真的优于另一个学习模型,就需要证明模型之间的这种性能差别不只是评估过程中所产生的偶尔结果,这通常是一项给出置信边界的记录实验工作.模型评估方法 k|折交叉验证 配对t测试 纠正重复取样 t 测试 模型评估准则 准确率 精确率
6、 召回率 F测量 信息增益 分类分类模型预测性能评估体系模型预测性能评估体系 图 分类模型预测性能评估体系 文章的其它章节组织如下:第 2 节对模型预测性能评估的三种记录方法k-折交叉验证、配对 t 测试(paired t-test)10、纠正反复取样 t 测试(corrected resample t-test)11进行了对比分析,引入并讨论了纠正反复取样 t 测试对模型预测性能评估的合用性;第 3节提出了基于信息增益12的评估核函数模式辨认能力的定量评估准则,并证明了该准则在一定限度上可以填补其它评估准则的局限性;第 4 节是实验与分析;第 5 节对文章内容进行了总结并对进一步研究的方向进
7、行了展望.2 2 模型预测性能评估方法模型预测性能评估方法 k-折交叉验证折交叉验证 其基本思想是把样本集miiiyxD1,(其中RyRxini,)随机划分为 k 个不相交的子集kDDD,21,且每个子集都有km/个样本点.分类器 T 要迭代训练 k 次,每次都用集合tDD kt,2,1中的数据进行训练,而用集合tD中的数据进行验证.k-折交叉验证估计出的分类器T的泛化误差率DTErrCV,是k次验证误差率ttDTErr,的平均值.令 iD代表包含样本iiiyxv,的子集,iivDDT,代表分类器 T 对样本iv进行分类的结果,则 k-折交叉验证估计出的分类器 T 的泛化误差率是:Dviiik
8、iiiCViyvDDTmDTErrkDTErr,1,1,1 (2)jijiji01,(3)定理定理 1.给定样本集 D 和分类器 T,分类器 T 真实但未知的分类误差率是 p,假如在 k-折交叉验证中删除 D 中任意的样本并不影响估计出的分类器 T 的泛化误差率,则 k-折交叉验证评估出的泛化误差率是真实误差率的无偏估计.证明:由于删除 D 中任意的样本并不影响DTErrCV,的取值,所以 D 中样本是从样本空间D中随机选取且与 T 互相独立,所以 iiiyvDDT,是满足二项分布的随机变量,因此 01,1,pmpmpyvDDTEmpDTErrEDviiiCVi 证毕 但通常情况下,D 中样本
9、有限,因此很难保证分类器 T 与 D 互相独立,所以直接将交叉验证估计出的泛化误差率当作模型的真实误差率对模型预测性能进行评估是有误差的,但可以用置信区间(confidence interval)估计的方法对这种误差进行估计.根据中心极限定理,当5mp且51 pm时,随机变量DTErrCV,可以用p,mpp/12的正态分布近似.所以,为了得到的%1100a置信区间,m 的最小取值应满足下式:mWppzmmWppzmWzaaa121442/222/2222/(4)2/az是标准正态分布右尾被分割出2/面积的分割点处的z值,W是置信区间的宽度.配对配对 t 测试测试 虽然,增长样本数 m 可以增长
10、 k-折交叉验证的置信度,但这种数量的增长是有限度的.研究表白13,单纯增长 m 会导致交叉验证的渐进有偏.所以,要想保证 k-折交叉验证方法的有效性,关键是增长样本集 D 和分类器 T 之间的独立性.此外,应用 k-折交叉验证对学习模型进行评估仅考察了模型之间的均值差异,模型评估的另一个重要考察指标是模型之间的方差差异10,11,这可以用记录学中的配对 t 测试方法实现10.设第一组样本kxxx,21是学习模型 X 根据某种性能评估准则在不同的数据集上得到的估计值(所有数据集大小相同,且来源于同一个领域),第二组样本kyyy,21是学习模型 Y 根据同样的性能评估准则在同样的数据集上得到的估
11、计值,即1x和1y是使用相同的数据集产生的,2x和2y也是如此,依此类推.第一组样本的平均值用1来表达,第二组样本的平均值用2来表达,因此学习模型 X 和 Y 的比较就是要鉴定1和2是否有显著的差别,由于实验中两种学习模型在每个数据集上的实验都能获得配对的结果,因此这种记录测试被称为配对的 t 测试.表 1 列出了在小样本情况下配对 t 检查方法.当00D时就是对“两个均值相等”这一零假设的检查方法,即比较模型 X 和模型 Y学习性能是否同样的检查方法.表 1 小样本情况下配对 t 检查方法 双侧检查 左侧检查 右侧检查 假设形式 02110210:DHDH 02110210:DHDH 021
12、10210:DHDH 检查记录量 ksDdkDdtdd00,自由度:k-1 a 与拒绝域 12/ktta 1ktta 1ktta P 值决策准则 aP,拒绝0H 假定条件 1.差值总体的相对频数分布接近正态分布 2.配对差由差值总体随机选出 id:第 i 个配对样本数据的差值,即 kiyxdiii,1,;d:配对样本数据差值的平均值,即 2111kiidkd;ds:配对样本数据差值的准则差,即 kiidddks1211;d:配对样本数据差值的总体准则差,即 kd2122212;(1表达第一组样本数据的总体准则差,2表达第二组样本数据的总体准则差,表达两组样本的相关限度)a:置信度(显著性水平)
13、;P:观测到的显著性水平.改善的配对改善的配对 t 测试测试 标准配对 t 检查方法的假定条件 1 规定差值总体的相对频数分布接近正态分布,而配对数据越多,其差值总体的相对频数分布越接近正态分布,因此数据来源越多,检查所获得的结果越可靠.但在实践中,通常只有一个容量有限的数据集可用,虽然通过增长交叉验证的次数可以增长配对样本的数目,但反复运用原始数据集得出的交叉验证估计不是独立的,因此使得配对数据之间具有很强的相关性,导致配对 t 检查方法的假定条件 2 无法满足.事实上,通过增长交叉验证次数来增长样本数目,最终将导致产生明显差异,由于 t 记录量在毫无限制的增长着,而这种差异的产生是由于样本
14、的反复使用导致的,并没有真实反映出样本总体的性质.近年来提出的纠正反复取样 t 测试方法11可以很好地解决这个问题.该方法使用反复旁置法来代替交叉验证法,此时 k-折交叉验证只是一个特例.它将数据集进行不同的随机分割k次,每次用1n个样本训练,用2n个样本测试,差值id则根据在测试数据上的性能计算得出.纠正反复取样 t 测试使用经修改后的记录量:12012011nnksDdnnkDdtdd (5)可以看出,此时 t 记录量不再容易随着 k 值的增长而快速增长了.对于反复的 10 次 10 折交叉验证,k100,9/1/12nn,d则基于 100 个差值计算得到.3 3 模型预测性能评估模型预测
15、性能评估准则准则 信息增益信息增益准则准则 定义定义 1.假设数据集wiiiyxD1,(其中RyRxini,)中包含的 w 个样本属于不同的 K 类,由每类样本构成的集合KiyxDiwjiiji,2,1,1中包具有 wi个样本,则数据集 D 的信息量(熵)Dentropy为:KiiiKKwwwwwwwwwwentropyDDDentropyDentropy122121log,(6)Dentropy是对数据集 D 的不拟定性的度量.当数据集中样本都属于同一类别 k 时,wwk,属 于 其 它 类 别 的 样 本 数 都 为0,此 时 数 据 集D完 全 拟 定,0kDentropyDentrop
16、y(由于0loglim20ppp,所以定义00log02).当属于不同类别的样本数都相等时,不拟定性最大,所以对具有 K 类样本的数据集 D 来说:KDntropye2log0 (7)定义定义 2.假设通过度类模型 f 对数据集 D 进行分类,由分类结果可以构成新的数据集wiiiyxD1,(其中iy与iy不一定相等).根据分类结果中每类样本的分布情况,将数据集D划分为 K 个子集合,其中第 i 个子集合KiDDKjiji,2,11由被分为第 i类的样本组成,ijD表达由原本是第 j 类但却被分为第 i 类的样本组成的集合,集合中的样本数是 wij个.此时数据集D的信息量(熵)Dentropy为
17、:KDDDentropyDentropy,21 KjKjKjjKjjDDDntropye11211,KiKjijKjijDentropyww111 KiKjijijKjijijKjijwwwwww1K1j1211log KiKjKjijijijwwww1112log (8)定义定义 3.信息增益(information gain)fIG度量的是分类模型 f 从数据集 D 中挖掘出的知识多少,其定义为:DentropyDentropyfIG (9)任意分类数据集都可以当作是具有一定不拟定性的系统,一个好的分类器 f 应当表现出最大限度上减少了这个系统的不拟定性,而这种不拟定性的减少,从信息学的角
18、度看就是 f具有最大的信息增益,由此可以得出定义 4.定义定义 4.对于分类模型 f1和 f2,假如 21IGIGff,则 f1比 f2更能减少分类数据集的不拟定性.信息增益信息增益准则准则与其它与其它准则准则的对比的对比 针对模式辨认问题,实际中常用的模型评估准则有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F 测量(F-measure)等14.对一个 yes 和 no 的二类分类问题,一个预测也许产生四种不同的结果(表 2),对的的肯定 TP(True Positive)、对的的否认 TN(True Negative)、错误的肯定 FP(False P
19、ositive)和错误的否认 FN(False Negative).表 2 二类分类预测的不同结果 预测类 Yes No 对的的肯定 TP 错误的否认 FN Yes 真实类 错误的肯定 FP 对的的否认 TN No 准确率、精确率、召回率和 F 测量分别是根据它们的数值计算获得:准确率:FNFPTNTPTNTPA (10)精确率:FPTPTPP (11)召回率:FNTPTPR (12)F 测量:FNFPTPTP22RPPR2F (13)例例 1 1.应用不同分类模型解决二类分类问题,样本总量是 100 个,其中肯定类是 50 个,否认类是 50 个.根据不同模型的分类结果计算信息增益,并分析信
20、息增益与准确率、精确率、召回率和 F 测量的关系.表 3 根据不同模型的分类结果计算各种评估准则(基于例 1 正负样本比例相等的数据)Model TP FP TN FN Accuracy Precision Recall F Information Gain I 25 5 45 25 0.7 0.8333 0.5 0.625 0.1468 II 30 10 40 20 0.7 0.75 0.6 0.6667 0.1245 III 15 5 45 35 0.6 0.75 0.3 0.4286 0.0468 IV 15 45 5 35 0.2 0.25 0.3 0.2727 0.2958 V 12
21、 26 24 38 0.36 0.3158 0.24 0.2727 0.0611 VI 26 12 38 24 0.64 0.6842 0.52 0.5909 0.0611 00.20.40.60.8100.20.40.60.81准确率信息增益00.20.40.60.8100.20.40.60.81精确率信息增益(a)信息增益与准确率 (b)信息增益与精确率 00.20.40.60.8100.20.40.60.81反馈率信息增益00.20.40.60.8100.20.40.60.81F测量信息增益(c)信息增益与召回率 (d)信息增益与 F 测量 图 2 信息增益准则与其它准则的对比(基于例
22、1 正负样本比例相等的数据)例例 2 2.应用不同分类模型解决二类分类问题,样本总量是 100 个,其中肯定类是 20 个,否认类是 80 个.根据不同模型的分类结果计算信息增益,并分析信息增益与准确率、精确率、召回率和 F 测量的关系.表 4 根据不同模型的分类结果计算各种评估准则(基于例 2 正负样本比例不相等的数据)Model TP FP TN FN Accuracy Precision Recall F Information Gain I 5 35 45 15 0.5 0.125 0.25 0.1667 0.0177 II 8 38 42 12 0.5 0.1739 0.4 0.24
23、24 0.0026 III 16 76 4 4 0.2 0.1739 0.8 0.2857 0.0287 IV 16 80 0 4 0.16 0.1667 0.8 0.2759 0.0979 V 8 30 50 12 0.58 0.2105 0.4 0.2759 0.0003 VI 1 5 75 19 0.76 0.1667 0.05 0.0769 0.0003 00.20.40.60.8100.20.40.60.81准确率信息增益00.20.40.60.8100.20.40.60.81精确率信息增益(a)信息增益与准确率 (b)信息增益与精确率 00.20.40.60.8100.20.40.
24、60.81反馈率信息增益00.20.40.60.8100.20.40.60.81F测量信息增益(c)信息增益与召回率 (d)信息增益与 F 测量 图 3 信息增益准则与其它准则的对比(基于例 2 正负样本比例不相等的数据)例 1 和例 2 说明,不同模型在某个评估准则下的评估结果也许相同,但同时,总可以运用其它评估准则来分辨它们的优劣.同时,从图 2 和图 3 中还可以看出信息增益与准确率、精确率、召回率和 F 测量之间存在着复杂的非线性函数簇的关系.定理定理 2.针对两类分类问题,信息增益是准确率、精确率和召回率的非线性函数.证明:根据公式(10)(12)可知 TPFNRR1 (14)TPF
25、PPP1 (15)TPTNA1PRAPR-PRARAP (16)根据公式(8)和(9)可知两类分类问题中的信息增益可表达为 FNTNFNFNFPTNTPFNFNTNTNFNFPTNTPTNFPTPFPFNFPTNTPFPFPTPTPFNFPTNTPTPFNFPTNTPTNFPFNFPTNTPTNFPFNFPTNTPFNTPFNFPTNTPFNTP222222loglogloglogloglogIG (17)将公式(14)(16)带入公式(17)得 2PRPAR22PRRAP2APRPRARAP2A12P12R1222PRPARlog2PRRAPlogAPRPRARAPlogA1PRlogP1l
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计 方法 评估 函数 分类 能力 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。