KNN讲解资料.pptx
《KNN讲解资料.pptx》由会员分享,可在线阅读,更多相关《KNN讲解资料.pptx(34页珍藏版)》请在咨信网上搜索。
1、2024/9/6 周五1K K最近邻最近邻(K-NEAREST(K-NEAREST NEIGHBOR)NEIGHBOR)KNNKNN分类算法分类算法2024/9/6 周五2主要内容主要内容1 1 引引言言2 2 K K N N N N的的 基基 本本 思思 想想3 3 K K N NN N 算算 法法 的的 实实 现现4 4 K K N N N N的的优优缺缺点点5 5 K KN NN N的的 一一 些些 改改 进进 策策 略略6 6 K KN NN N在在实实际际问问题题中中的的应应用用2024/9/6 周五31 1 引言引言分分类类(ClassificationClassification
2、)是是数数据据挖挖掘掘领领域域中中的的一一种种重重要要的的技技术术,它它是是从从一一组组已已知知的的训训练练样样本本中中发发现现分分类类模模型型,并并且且使使用用这这个个分分类类模模型型来来预预测测待待分分类类样样本本。建建立立一一个个有有效效的的分分类类算算法法模模型型最最终终将将待待分分类类的的样样本本进进行行处处理理是是非常有必要的。非常有必要的。2024/9/6 周五4目目前前常常用用的的分分类类算算法法主主要要有有:朴朴素素贝贝叶叶斯斯分分类类算算法法(NaNave ve BayesBayes)、支支持持向向量量机机分分类类算算法法(Support Support Vector Ve
3、ctor MachinesMachines)、KNNKNN最最近近邻邻算算法法(k-Nearest(k-Nearest NeighboNeighbors)rs)、神神经经网网络络算算法法(NNetNNet)以以及及决决策策树树(Decision Decision TreeTree)等等。)等等。2024/9/6 周五59/6/20245KNNKNN算算法法是是一一个个理理论论上上比比较较成成熟熟的的方方法法,最最初初由由CoverCover和和HartHart于于19681968年年提提出出,其其思思路路非常简单直观,易于快速实现。非常简单直观,易于快速实现。因因此此,KNNKNN算算法法以以
4、其其实实现现的的简简单单性性及及较较高高的的分分类类准准确确性性在在中中文文文文本本自自动动分分类类等等领领域域得到了广泛应用。得到了广泛应用。2024/9/6 周五62 KNN2 KNN的基本思想的基本思想根根据据距距离离函函数数计计算算待待分分类类样样本本X X和和每每个个训训练练样样本本的的距距离离(作作为为相相似似度度),选选择择与与待待分分类类样样本本距距离离最最小小的的K K个个样样本本作作为为X X的的K K个个最最邻邻近近,最最后后以以X X的的K K个个最最邻邻近近中中的的大大多多数数所所属属的的类类别别作作为为X X的类别。的类别。KNNKNN可可以以说说是是一一种种最最直
5、直接接的的用用来来分分类类未未知知数数据的方法。据的方法。2024/9/6 周五7 简简单单来来说说,KNNKNN可可以以看看成成:有有那那么么一一堆堆你你已已经经知知道道分分类类的的数数据据,然然后后当当一一个个新新数数据据进进入入的的时时候候,就就开开始始跟跟训训练练数数据据里里的的每每个个点点求求距距离离,然然后后挑挑出出离离这这个个数数据据最最近近的的K K个个点点,看看看看这这K K个个点点属属于于什什么么类类型型,然然后后用用少少数数服服从从多多数数的的原原则则,给新数据归类。给新数据归类。2024/9/6 周五82024/9/6 周五93 3 KN KNN N算法的实现算法的实现
6、(1)(1)问题描述问题描述 数据集:数据集:iris.datairis.data标准数据集标准数据集-鸢尾花。鸢尾花。采采用用KNNKNN算算法法对对iris.datairis.data分分类类。为为了了操操作作方方便便,对对各各组组数数据据添添加加rowNorowNo属属性性,第第一一组组rowNo=1rowNo=1,共共有有150150组组数数据据,选选择择rowNorowNo模模3 3不不等等于于0 0的的100100组作为训练数据集,剩下的组作为训练数据集,剩下的5050组做测试数据集。组做测试数据集。2024/9/6 周五10初始化距离为最大值;初始化距离为最大值;计计算算未未知知
7、样样本本和和每每个个训训练练样样本本的的距距离离distdist;得得到到目目前前K K个个最最临临近近样样本本中中的的最最大大距距离离maxdistmaxdist;(2)(2)实现步骤:实现步骤:2024/9/6 周五11如如果果distdist小小于于maxdistmaxdist,则则将将该该训训练练样样本本作作为为K-K-最近邻样本;最近邻样本;重重复复步步骤骤2 2、3 3、4 4,直直到到所所有有未未知知样样本本和和所所有有训训练样本的距离都算完;练样本的距离都算完;统计统计K-K-最近邻样本中每个类标号出现的次数;最近邻样本中每个类标号出现的次数;选选择择出出现现频频率率最最大大的
8、的类类标标号号作作为为未未知知样样本本的的类类标号。标号。2024/9/6 周五124 KNN4 KNN的优缺点的优缺点u优点优点(1)(1)算法思路较为简单,易于实现;算法思路较为简单,易于实现;(2)(2)当当有有新新样样本本要要加加入入训训练练集集中中时时,无无需需重重新训练(即重新训练的代价低);新训练(即重新训练的代价低);(3)(3)计计算算时时间间和和空空间间线线性性于于训训练练集集的的规规模模(在一些场合不算太大)。(在一些场合不算太大)。2024/9/6 周五13u不足不足(1)(1)分类速度慢分类速度慢;KNNKNN算算法法的的时时间间复复杂杂度度和和存存储储空空间间会会随
9、随着着训训练练集集规规模模和和特特征征维维数数的的增增大大而而快快速速增增加加。因因为为每每次次新新的的待待分分样样本本都都必必须须与与所所有有训训练练集集一一同同计计算算比比较较相相似似度度,以以便便取取出出靠靠前前的的K K个个已已分分类类样样本本。整整个个算算法法的的时时间间复复杂杂度度可可以以用用O(m*n)O(m*n)表表示示,其其中中m m是是选选出出的的特特征征项项(属属性性)的的个个数数,而而n n是训练集样本的个数。是训练集样本的个数。2024/9/6 周五14(2)(2)各属性的各属性的权重相同权重相同,影响了准确率;,影响了准确率;当当样样本本不不平平衡衡时时,如如一一个
10、个类类的的样样本本容容量量很很大大,而而其其他他类类样样本本容容量量很很小小时时,有有可可能能导导致致当当输输入入一一个个新新样样本本时时,该该样样本本的的K K个个邻邻居居中中大大容容量量类类的的样样本本占占多多数数。该该算算法法只只计计算算“最最近近的的”邻邻居居样样本本,如如果果某某一一类类的的样样本本数数量量很很大大,那那么么可可能能目目标标样样本本并并不不接接近近这这类类样样本本,却却会会将将目目标标样样本本分分到到该该类类下下,影响分类准确率。影响分类准确率。2024/9/6 周五15(3)(3)样本库容量依赖性较强;样本库容量依赖性较强;(4)(4)K K值不好确定值不好确定;k
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- KNN 讲解 资料
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。