K-means算法的初始值选取问题的研究_姚蒙.pdf

上传人：自信****多点

文档编号：289755

上传时间：2023-07-07

格式：PDF

页数：5

大小：772.72KB

《K-means算法的初始值选取问题的研究_姚蒙.pdf》由会员分享，可在线阅读，更多相关《K-means算法的初始值选取问题的研究_姚蒙.pdf（5页珍藏版）》请在咨信网上搜索。

1、第 39 卷第 7 期福建电脑 Vol.39 No.7 2023 年 7 月 Journal of Fujian Computer Jul.2023 姚蒙，男，1988年生，主要研究领域为算法、数据结构、数据挖掘等。E-mail:。何鹏程，男，1991年生，主要研究领域为算法、数据挖掘。E-mail:。K-means 算法的初始值选取问题的研究姚蒙1 何鹏程2 1(信阳职业技术学院网络信息管理中心河南信阳 464100)2(信阳职业技术学院数学与信息工程学院河南信阳 464100)摘要随着数据爆发式的增长，数据挖掘算法的使用更加频繁，因此选取合适的数据挖掘算法进行数据分

2、析是非常有必要的。本文对确定 K-means 算法初始值的问题，提出了一种数据预处理的优化方案。通过对目标数据集进行 Canopy 算法处理，并对 Canopy 算法执行后的分组进行降噪、合并，以最终的分组个数作为 K-means 算法的分组 K 值，并以各分组的重心作为初始聚类重心，从而确定 K-means 算法的初始值。对比实验的结果显示，优化后的 K-means 算法具有更好的聚类效果。关键词数据挖掘；K-means 算法；Canopy 算法；聚类中心中图法分类号 TP301.6 DOI:10.16707/ki.fjpc.2023.07.011 Research on Initial

3、 Value Selection of K-means Algorithm YAO Meng1,HE Pengcheng2 1(Network information Management Center,Xinyang Vocational and Technical College,Xinyang,China,464000)2(Department of Mathematics and Information Engineering,Xinyang Vocational and Technical College,Xinyang,China,464000)Abstract As a fast

4、-moving consumer product,cigar products are also limited by tobacco monopoly laws and mainly sold offline,which makes it difficult for consumers to obtain data and cannot meet the demand for cigar consumption insights.The available cigar consumption data mainly includes search data that generate dem

5、and for cigars and evaluation data after cigar consumption.This paper aims to build a cigar Data dictionary with insight into cigar consumption demand.The visualization results indicate that the search data for Great Wall cigars increased by 5%in 2022,providing insight into the growth in consumer de

6、mand for Great Wall cigars.The associated term Cigar Express Network has emerged,revealing the emergence of a new model for cigar purchase.After marketing personnel conducted promotional training for retail customers,the local delivery model increased by 37.6%year-on-year.Keywords Data Mining;K-mean

7、s Algorithm;Canopy Algorithm;Cluster Center 1 引言聚类算法是用“物以类聚”的思想1，把性质相同或相近的数据划分到同一个分组，把性质差异较大的数据划分到不同的分组。K-means 算法是基于划分的一种迭代聚类算法2。该算法优点如下：（1）收敛速度快。这一特征在处理组别之间差距较大的凸面数据时体现得尤为明显。不同组别相似度低，组内数据相似度高，则在迭代计算时，速度会很快，聚类也会达到很好的效果3。（2）算法复杂度为 O=N*K*t，是线性关系。其中，N 是数据集总数据个数，K 即为分组个数，t是算法直到收敛总的迭代次数。在处理大数据集时的可伸缩性比较

8、强4。因算法复杂度低，执行效率较高，很适用于海量数据集的聚类处理。K-means 算法虽优点突出，但同时也存在着如下缺点：58 姚蒙等：K-means 算法的初始值选取问题的研究第 7 期（1）K 值确定存在困难。K-means 算法在执行时，分组数量 K 的值需要提前指定，目标数据集的不同会导致难以预先指定K 值。K 值的选取必须根据数据集本身的数据特征和实验期望通过处理所得到的分组数来共同决定。因此，K 值的选取存在困难，在处理数据集前很难确定该数据集最合适的分组数5。（2）初始聚类中心不易确定。算法的执行需要指定初始的聚类中心。K-means 算法的执行步骤就是根据初始中心分组，通过不

9、断的迭代，最终得到收敛结果。初始聚类中心的选取如同 K 值的选取一样，选取不同的聚类中心会导致聚类结果的不同6。因为 K-means 算法选取误差的平方和 SSE 作为度量聚类质量的目标函数，如式（1）所示：SSE=dist(Ci,x)2xiCiKi=1 (1)其中，dist 表示两个点的欧氏距离，Ci为 K 个分组中的任意一个，xi为 Ci分组中的数据。因该函数存在多个极小值，如果初始聚类中心选取不当，会使算法执行后的最终结果在某一极小值上，而并非全局最优解，导致聚类结果与实际偏差较大。（3）易受噪声点和孤立点的影响。在数据采集过程中，虽然会有一定程度的鉴别和筛选，但当数据集的规模到达一定程

10、度后，最终获取的结果难免会体现在数据收集过程中的过失。例如，出现错误的一些数据在进行聚类时会成为“噪声点”；一些数据虽未出错但与其他剩余数据差别较大，并存在于数据集中时，则在聚类中会成为“孤立点”。由于 K-means 算法的特性，所有数据都会在迭代计算中，导致分组的聚类中心有可能会因噪声点、孤立点的数据而使其偏离实际值，无法得到很好的聚类效果7。鉴于以上问题，本文提出了数据预处理的方法，以优化 K-means 算法的执行效果。通过数据预处理，确定K-means算法的初值K和初始聚类中心，使得 K-means 算法的执行结果更具参考意义。2 K-means 算法初值选取方法当前存在的数据预处

11、理方法较多，如选取低复杂度算法优先进行一次运算。本文基于这种方案，选取 Canopy 算法作为 K-means 算法的初始步骤8。整个数据预处理的过程分为三步：（1）执行 Canopy算法。（2）数据集“降噪”。（3）合并剩余分组并检验阈值的选取。2.1 获取Canopy初始分组当 Canopy 算法执行后，会生成多个 canopies（即 canopy 分组）。以图 1 为例，简要分析 Canopy处理后的结果，图 1 中出现了从 A 到 F 共 6 个分组。每个分组的中心为圆心，虚线部分小圆半径 D1，实线部分大圆半径为 D2。假设任意一点与圆心的距离为 dis，当 disD1 时，称该

12、点与当前分组为强关联点；当 D1disD2 时，该点与当前分组为弱关联点。图 1 Canopy 结果 2.2 数据集“降噪”通过图 1 的执行结果可以看出，Canopy 算法执行后会给出若干个分组（即 canopies）及每个分组的数据中心。若以 canopies 的数量作为 K-means 算法的K值，以各个canopies的数据中心作为K-means算法的初始聚类中心，Canopy 算法的执行结果可以直接作为 K-means 算法的初始值。这种做法在一定程度上减少了 K-means 算法初值选取的随机性，提高了 K-means 算法的处理精度。但为了使 K-means算法的精度更高，获得一

13、个更好的分组结果，就必须对 canopies 进行进一步处理。首先需要进行整个数据集的降噪。如图 1 中的分组 E，该分组中只包含了 1 个数据点，且距离该数据点 D2 范围内并不存在弱关联点。综合上述对数据集的分析，该点可作为两种对象分别进行处理：（1）将其作为噪声点，直接从数据集中删除。（2）将其作为孤立点，专门列出分组，在进行 K-means 算法时将其挑出，避免其干扰分组效果。对于是噪声点还是孤立点的判断，需要溯源到数据采集环节，根据实际情况加以2023 年福建电脑 59 判断。但不管是当作噪声点还是孤立点来处理，均为“降噪”过程。2.3 合并分组将分组 E 降噪处理后，再观

14、察 AD 及 F 等 5个 canopies 分组。首先观察 F 分组，所有的数据点都集合在以分组中心为圆心、D1 为半径的圆内，即所有点均和当前分组强关联。同时，与分组中心距离 dis 在 D1disD2 范围内并不存在任何数据点，即没有与当前分组若关联的数据。因此这个组无需跟其他任何分组进行合并，直接作为 K-means算法分组中的一个显然是非常合适的。接着分析分组 A、B 和分组 C、D。首先分析 A、B 分组，A 组中有 3 个弱关联的点在 B 组的强关联点中；同时，B 组中也有 3 个弱关联点在 A 组的强关联点中。这种过程在实际讨论中可以总结为两组存在弱关联交叉。通过分析可以得出，

15、这两组数据存在合并的可能性（分组之间的距离较近，组内数据的相似度较高）。C、D 两组中互为弱关联的数据点比 A、B 两组更多，同样存在合并分组的可能性。对于分组是否合并的问题，进行三种考虑：（1）直接判断两个分组中心点的距离。若中心点距离dis2D1 时，即认为两组相似度较高，合并分组。（2）采用阈值法，指定一个参考阈值 t，通过判断两个分组弱关联数据的多少，制定合并策略。例如，假设两个分组 Ci和 Cj，分别包含 P、Q 个数据，其中 Ci中有 p 个强关联的点在 Cj的弱关联的点中，Cj中有 q 个强关联的点在 Ci的弱关联的点中，则阈值可定义为 t=(p+q)/(P+Q)。若阈值运算结果

16、大于参考阈值，则两个分组合并，否则不合并。（3）引入 canopies 分组重心的概念，通过判断分组重心之间的距离来确定分组是否合并。由于 Canopy 算法执行后的分组中心比较随机，该点未必能够有效代表分组中的所有数据。因此需要找出分组中更加具有代表性的数据，这个数据用虚拟的重心点（计算出来的重心值未必存在于原数据集中）较为合适。首先计算出每个 canopies 的重心，假设 Canopy 算法执行后生成了 n 个分组，用 C1、C2、Cn表示，n 个分组分别包含 m1、m2、mn个数据点，则第i 个分组 Ci的重心 fi可以表示为式（2）。fi=1mixxci (2)其中，mi为该分组的数

17、据个数，x 为分组 Ci内的点。通过比较任意两个分组重心之间的距离 disij来判断是否合并分组。本文给出的方案是 disij2D1，按照分组合并方案，则 A、B 分组不合并。以 C、D 分组为例，以同样的方法可得 disCD2D1，（disCD 为 C、D 分组的重心距离）合并两个分组。2.4 验证Canopy阈值选取由于 Canopy 算法执行前的两个阈值 D1、D2也是需要指定的，而指定初始值会出现和 K-means算法同样的问题，难以确定。阈值选取的随机性也会导致算法运行的不可靠。因此，通过分组合并情况来讨论 Canopy 阈值选取的合理性。对于分组合并过多的情况，有理由怀疑其阈值选

18、取过小，直接导致较大的数据集分组被划分成了若干个小的分组，需要将阈值调大。对于分组合并较少的情况，需要适当的调小阈值，以获取更多的分组数量，再重新进行上述预处理的过程。阈值的调整过程虽然增加了数据的计算量，但可以使最终 canopy 分组的个数接近实际分组个数。3 实验及结果分析为了使实验数据更具代表性，实验的样本量不宜过大，且样本选择要相对密集（如果实验样本选取不当，如出现样本点均匀散步在抽象的多维空间上，则不论采取那种算法，聚类效果都会打折扣，更无法体现算法改良前后的效果对比）。因此，本文对比实验数据选取了 UCI 上的标准 Iris（鸢尾花）作为实验数据集。该数据集包含 150 个数据

19、样本，每个样本包含4 个数据（可将数据抽象为 4 维空间上的点），分别对应花瓣和花萼的长度和宽度。为了使实验结果看起来更加直观，将实验抽取花瓣和花萼的长度两组数据进行对比，使得每个数据对应为平面上的一个点，可以更清楚地看到聚类效果。60 姚蒙等：K-means 算法的初始值选取问题的研究第 7 期 3.1 对比实验设计 3.1.1 获取初始分组值（1）获取 Canopy 初始分组。通过数据集的最值分析，选取 Canopy 算法的初始初始值，D1、D2 分别为 0.3、0.6。经过算法的执行，一共生成了 11 组分组，对应的分组结果如表 1 所示。表 1 canopy 分组信息表组别 Can

20、opy 重心（保留两位小数）包含数据个数 1(5.24，1.49)31 2(4.68，1.41)19 3(6.39，4.90)25 4(5.68，3.99)20 5(5.98，4.58)18 6(4.20，3.40)4 7(6.34，5.50)11 8(6.50，5.80)3 9(6.86，5.71)9 10(7.55，6.38)9 11(4.90，4.50)1（2）数据集“降噪”。实验数据集采用的是标准数据集，不存在噪声点，但根据 canopy 后的结果可以看出，部分分组包含的数据点较小，如第 6、8 和第 11 组，数据点均不足 5 个，将这几个分组视为孤立点。将分组数量从原来的 11 个

21、降低为现在的 8 个。（3）合并分组。根据算法改良思想，需要对现存的 8 个分组进行分组合并的可行性分析和处理。这个步骤需要计算剩余数据分组的重心及两两重心间的距离。当距离在 0.6 以内时，可以合并两个分组。两两分组计算的结果一共有 28 个，因结果较多，表 2 只列举了需要合并的分组信息。表 2 合并分组信息表组别组别重心距离重心均值弱关联数据个数 1 2 0.56(4.95,1.45)19 3 5 0.51(6.18,4.74)20 6 7 0.56(6.60,5.60)8 通过上述信息表可知，需要合并的分组一共有3 对（1、2 组，3、5 组和 6、7 组）。分组合并后，可以

22、得到当前 K 值为 5。3.1.2 进行对比实验（1）改进前算法的执行结果。对比实验选取相同的 K 值 5，首先采用随机选取初始聚类中心的方法，执行 K-means 算法。本次实验迭代的次数为 17 次，得到的聚类结果如图 2所示。（2）改进后算法的执行效果。同样选取 K 值为 5，对于不需合并的分组，初始聚类中心采用 canopy 分组的重心，对于合并后的分组，初始聚类中心选用两个分组的重心均值。此次实验 K-means 算法迭代了 2 次。实验结果如图 3所示。图 2 改进前算法执行效果 2023 年福建电脑 61 图 3 改进后算法执行效果（3）算法执行效果对比。经过预处理后的数

23、据，不仅在分组上更加合理，而且算法的迭代次数相应地有所减少。在鸢尾花数据集中，有一组数据花瓣长度小于2。这组数据与其他数据点差别较大，应当视为一类数据。改进后的算法将该组数据划分到了一个分组中（图 3 的分组一），结果与数据集的实际情况相符。而改进前的算法将这组数据分成了 3 组（图2 的分组三、分组四、分组五）。这是由于改进前算法执行时随机选取的 5 个聚类中心，其中有 3 个都位于这个小集合中。由此可见，初始聚类中心选取的随机性导致了聚类结果的分组不理想，算法精度较低。通过对比，验证了改进后的算法分组更为合理，提升了算法的精度。为了验证优化后的算法减少了迭代次数，增加了 10 组对比实验，

24、并记录了改进前算法的迭代次数，结果为：17、13、11、12、15、9、17、13、10、14。3.2 实验效果分析从聚类分组效果上分析，改进后的算法在聚类效果上要优于改进前。改进后算法的分组中的数据点分布更加均匀、合理，聚类分组结果与数据的真实分组情况较为接近。随机选取初始聚类中心会导致聚类结果太过依赖初始值，导致每次实验的结果都不相同。实验结果较大的波动会造成实验结果的可信度较低。改进后算法的迭代次数也明显优于改进前，算法改进前的迭代次数较多。10 组随机实验，仅有一组迭代次数小于 10 次，其余均大于 10 次。实验论证了通过预处理的方法，在提高 K-means 算法的精度的同时优化了

25、算法的迭代次数。4 总结本文通过对 K-means 算法的研究，提出了使用数据预处理的方法，最终获取 K-means 算法的初始分组和聚类中心的算法改进思路，并通过对比实验论证了算法改进效果。在下一步的研究中，计划将改进后的算法进行并行化设计，让改进后的算法具备海量数据集的处理能力，让算法的适用性扩大到更广阔的领域中。参考文献 1 蔡志铃.聚类算法中图学习的若干方法研究博士学位论文.电子科技大学,成都,2022 2 何选森,何帆,徐丽,樊跃平.K-Means 算法最优聚类数量的确定.电子科技大学学报,2022,51(06):904-912 3 Nazeer K A A,Sebastia

26、n M P.Improving the Accuracy and Efficiency of the k-means Clustering Algorithm/Proceedings of the World Congress on Engineering,2009:1-3 4 Xiong H,Wu J,Chen J.K-means clustering versus validation measures:a data-distribution perspective.Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactions on,2009,39(2):318-331 5 董天宝,唐健,曾芳玲.基于 K 均值聚类的新型选星算法.计算机仿真,2022,39(11):22-26 6 程艳云,周鹏.动态分配聚类中心的改进 K 均值聚类算法.计算机技术与发展,2017,27(02):33-36 7 王森,刘琛,邢帅杰.K-means 聚类算法研究综述.华东交通大学学报,2022,39(05):119-126 8 张子璇,沙秀艳,肖霏,粟宝婵,隋雨陆,孟子宸.基于犹豫模糊 Canopy-K均值聚类算法的研究与应用.计算机与现代化,2022(11):17-21

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: means 算法初始值选取问题研究姚蒙

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。