分销赏收藏举报申诉 / 10

立即下载开通VIP

当前位置：首页 > 包罗万象 > 大杂烩 > 数据挖掘及其应用.pdf

数据挖掘及其应用.pdf

上传人：丰****

文档编号：4857945

上传时间：2024-10-15

格式：PDF

页数：10

大小：208.75KB

《数据挖掘及其应用.pdf》由会员分享，可在线阅读，更多相关《数据挖掘及其应用.pdf（10页珍藏版）》请在咨信网上搜索。

1、数据挖掘论文数据挖掘分类方法及其应用课程名称：数据挖掘概念与技术姓名学号：指导教师：2数据挖掘分类方法及其应用作者：来煜摘要：社会的发展进入了网络信息时代，各种形式的数据海量产生，在这些数据的背后隐藏这许多重要的信息，如何从这些数据中找出某种规律，发现有用信息，越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术，这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣，适合于不同的领域。目前随着新技术和新领域的不断出现，对分类方法提出了新的要求。关键字：数据挖掘；分类方法；数据分析引言数据是知

2、识的源泉。但是，拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中，从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息，然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流，但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去，我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而，由于知识工程师所拥有知识的有局限性，所以对于获得知识的

3、可信度就应该打个折扣。目前，传统的知识获取技术面对巨型数据仓库无能为力，数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出，人们希望在3对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理，但是目前所拥有的数据分析工具很难对数据进行深层次的处理，使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足，并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练，得到数据对象间的关系模式，这些模式反映了数据的内在特性，是对数据包含信息的更高层次的抽象。目前，在需要处理大数据量的科研领域中，数据挖掘受到越来越多的关注，同时，

4、在实际问题中，大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理，以节约时间，将更多的精力投入到更高层的研究中，从而提高科研工作的效率。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法，主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型，拟合输入数据中样本类别和属性集之间的联系，预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型，该模型能够准确地预测未知样本的类别。1 1数据挖掘概述数据挖掘概述

5、数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。数据挖掘是通过分析每个数据，从大量数据中寻找其规律的技术，主要有数据准备、规律寻找和规律表示 3 个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集；规律寻找是用某种方法将数据集所含的规律找出

6、来；规律表示是尽可能以用户可理解的方式（如可视化）将找出的规律表示出来。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣，适合于不同的领域。目前随着新技术和新领域的不断出现，对分类方法提出了新的要求。2 2数据挖掘分类算法介绍数据挖掘分类算法介绍分类是用于识别什么样的事务属于哪一类的方法，可用于分类的算法有决策4树、关联规则、神经网络、支持向量机和贝叶斯、k临近法、遗传算法、粗糙集以及模糊逻辑技术等。下面对若干分类问题进行简要分析。21 基于决策树的分类基于决策树的分类算法是数据挖掘中最为典型的分类算法。决策树是一个类似于流程图的树结构，其每个内部节点表示在一

7、个属性上的测试，每个分枝代表一个测试输出，每个叶节点代表类或类分布。211 决策树算法基本思想。开始时所有的训练样本在根部，基于最高信息增益自顶向下递归地划分数据集，生成决策树。当一个结点上所有样本都属于同一类或者没有剩余属性可以用来进一步划分样本时停止划分，形成一个叶结点。如果叶结点上的样本不属于同一类，则根据大多数样本的分类来确定叶结点的类别。创建决策树时，因数据中存在噪声和孤立点，许多分枝反映的是训练数据集中的异常。剪枝方法可以剪去不可靠的分枝，提高分类速度和分类的准确度。常用的剪枝方法有：先剪枝和后剪枝。前者通过提前停止树的构造而对树剪枝；后者在完全创建好的树上剪去分枝。212 典型的

8、决策树算法。最为典型的决策树学习算法是 ID3，它采用自顶向下不回溯策略，能保证找到一个简单的树。算法 c45 和 c50 是 ID3 的扩展，它们将分类领域从类别属性扩展到数值型属性。在决策树中，从根到树叶的每条路径以 IFTHEN 形式表示一条分类规则，沿着给定路径上的每个属性一值对形成规则前件的一个合取项，叶结点包含类预测，形成规则后件。213 优缺点。决策树很擅长处理非数值型数据，从决策树中可以方便地提取分类规则。其主要优点是描述简单，分类速度快，特别适合大规模的数据处理。不足之处是 ID3 算法偏向于选择属性较多的属性，而属性较多的属性往往不是最优的属性：学习简单的逻辑表达能力较差。

9、22 基于统计的分类贝叶斯分类算法是基于贝叶斯定理的一种统计学分类算法。它们可以预测类成员关系的可能性，如给定样本属于一个特定类的概率。如果出现类别重叠现象，贝叶斯分类算法采用两种方法处理这种情况：一是选择后验概率最大的类别，二是选择效用函数最大(或损失最小)的类别。贝叶斯分类也是一种常用的分类方法，它是一种对属性集和类变量的概率关系建模的方法。其理论基础是贝叶斯定理，可用式 221表示。p(cx)p(xc)p(c)/p(x)221其中 x 是类标号未知的数据样本。设 c 为某种假定，如数据样本 I 属于某特5定类民则 P(cx)为 c 成立的概率，也称为类 c 的先验概率；P(x)为 x

10、的支持度。P(cx)是规定数据样本 x，假定 c 成立的概率，称作类 c 的后验概率。P(xvc)是假定 c 成立的情况下，样本 x 的支持度，也称为类条件概率。准确估计类标号和属性值的每一种可能组合的后验概率非常困难，因为即便属性数目不是很大，仍然需要很大的训练集。此时，贝叶斯定理很有用，因为它允许我们用先验概率 P(c)、类条件概率 P(xc)和 P(x)来表示后验概率。在比较不同类 c 的后验概率时，分母 P(x)总是常数，因此可以忽略。先验概率 P(c)可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计。因此类 c 的后验概率 P(xc)的确定取决于对类条件概率 P(xc)

11、的估计。对类条件概率 P(xc)的估计，常使用两种贝叶斯分类方法来实现：朴素贝叶斯分类和贝叶斯信念网络。23 基于神经网络的分类 231 基本思想。经常用于分类的还有人工神经网络方法。神经网络3为解决大复杂度问题提供了一种相对来说比较有效的简单方法，它是模仿人脑神经网络的结构和某些工作机制而建立的一种非线形预测模型，经过学习进行模式识别的。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反馈神经网络、自组织神经网络等，在神经网络中，由权重和网络的拓扑结构决定了它所能识别的模式类型。神经网络分类过程可以分为训练和分类两个阶段。在训练阶段，首先定义网络的拓扑结构，再对训练样本

12、中的每个属性的值进行规范化预处理，然后用神经网络对已预处理的输入进行学习。训练完毕后，用训练好的神经网络对标识样本进行分类。最流行的神经网络学习算法是后向传播算法。后向传播算法是在多层前馈神经网络上进行学习的。这种神经网络具有一个输入层和一个输出层，在两者之间可能包含多个中间层，这些中间层叫做隐藏层。后向传播通过迭代地处理一组训练样本，将每个样本的网络预测与实际知道的类标号比较，进行学习。对于每个训练样本，修改权值，使得网络预测和实际类之间的均方误差最小。这种修改后向进行，即由输出层，经由每个隐藏层，到第一个隐藏层。一般的，权将最终收敛，学习过程停止。算法的每一次迭代包括两个阶段：前向阶段和后

13、向阶段。在前向阶段，使用前一次迭代所得到的权值计算网络中每一个神经元的输出值。计算是向前进行的，先计算第 k 层神经元的输出，再计算第 k1 层的输出。在后向阶段，以相反的方向应用权值更新公式，先更新 k1 层的权值，再更新第 k 层的权值。232 优缺点。神经网络法的优点是有较强的抗噪能力，对未经训练的数据也具有较好的预测分类能力。神经网络的主要缺点是用加权链连结单元的网络所6表示的知识很难被人理解、学习时间较长，仅适用于时间容许的应用场合；对于如网络结构等关键参数，通常需要经验方能有效确定。24 基于源自关联规则挖掘概念的分类 241 基本思想。关联规则聚类系统是基于聚类挖掘关联规则，然后

14、使用规则进行分类。挖掘形如 Aquan1Aquan2Acat 的关联规则；其中，Aquan1，Aquan2 是在量化属性区间上的测试，为给定训练数据的分类属性指定一个类标号。关联规则画在 2-D 栅格上。算法扫描栅格，搜索规则的矩形聚类。由ARCS 产生的聚类关联规则用于分类，其准确率与 C45 差不多，精确度比 C45高一点。关联分类挖掘形如 condsety 的规则，condset 是项属性一值对的集合，y是类标号。若给定数据集中的样本 s包含 condset 并且属于类 y，则规则的支持度为 s。若规则满足预先指定的最小支持度，则该规则是频繁；若给定数据集中包含 conset 的样本 c

15、属于类 y，则规则的置信度为 c；若满足最小置信度，则该规则是精确的。如果一个规则项集具有相同的 condset，则选择具有最高置信度的规则作为可能规则，代表该集合。242 关联分类方法由两步组成。第一步是找出所有频繁的、精确的 PR 集合。算法使用迭代方法，类似 Apriori。第二步使用一种启发式方法构造分类，发现的规则按支持度和置信度递减的优先次序组织，用满足新样本满足该样本的第一个规则对其分类。CBA 是关联分类的经典算法，该方法比 c45 更精确。25 其他分类方法用于数据分类的方法还有：基于案例的推理分类法、遗传算法等。251 基于案例的推理分类法。基于案例的推理分类法是基于要求

16、的，其存放的样本是复杂的符号描述。当给定一个待分类的新案例时，基于案例的推理首先检查是否存在一个同样的训练案例。如果找到一个，则返回附在该案例上的解。如果找不到同样的案例，则基于案例的推理将搜索具有类似于新案例成分的训练案例，这些训练案例可视为新案例的邻接者。252 遗传算法。遗传算法结合了自然进化的思想。遗传学习开始时创建了一个由随机产生的规则组成的初始群体，每个规则可以用一个二进制位串表示。根据适者生存的原则，形成由当前群体中最适合的规则组成的新群体，以及这些规则的后代。后代通过使用诸如交叉和变异等遗传操作来创建。由先前的规则群体产生新的规则群体的过程继续进化，直到群体中每个规则满足预先指

17、定的适合度值73数据挖掘的应用数据挖掘技术已应用于许多领域，如在学校、银行、电信、股市、保险、交通、零售等领域已得到广泛的应用。31 数据挖掘技术在高校中的应用随着招生规模的扩大，高校的学生人数就达到上万人，甚至几万人，考试成绩达到几十万个数据，还有大量的学习成绩以外的影响因素，传统的学习成绩分析方法已不能完全满足需要，对此引入数据挖掘技术以找到影响学生成绩的真实原因，制定相应的措施，提高教育教学质量。32 数据挖掘技术在金融企业中的应用 321 数据挖掘技术在证券行业中得到广泛应用，数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。322 数据挖掘技术也应用于银行业，数据挖

18、掘可以从大量的历史记录中发现或挖掘出这种关联关系更深层次的、更详尽的方面。323 数据挖掘技术也应用于保险业保险金的确定:对受险人员的分类有助于确定适当的保险金额度。通过数据挖掘可以得到对不同行业的人、不同年龄段的人、处于不同社会层次的人的保险金该如何确定。险种关联分析:分析购买了某种保险的人是否同时购买另一种保险。预测什么样的顾客会购买新险种。33 数据挖掘技术在零售企业中的应用从超市销售管理系统、客户资料管理及其他运营数据中，可以收集到关于商品销售、客户信息、库存及超市店面信息等的信息资料。数据从各种应用系统中采集，经按不同条件分类，存放到数据仓库，允许管理人员、分析人员、采购人员、市场人

19、员和客户访问，利用数据挖掘工具对这些数据进行分析，为管理者提供高效的科学决策工具。4数据挖掘应用实例41 提出问题。一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息，计划将广告册和礼品投递给这些会员。但是投递广告册是需要成本的，不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传，有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可8能购买自行车。42 自行车厂商首先从所有会员中抽取了 1000 个会员，向这些会员投递广告册，然后记录这些收到广告册的会员是否购买了自行车。数据如表

20、1 所示。表 1 会员实例模型数据事例列会员编号12496141772438125597婚姻状况MarriedMarriedSingleSingle性别FemaleMaleMaleMale收入40000800007000030000孩子数1500教育背景BachelorsPartial CollegeBachelorsBachelors职业Skilled ManualProfessional ProfessionalClerical是否有房YesNoYesNo汽车数0210上班距离0-1 Miles2-5 Miles5-10 Miles 0-1 Miles区域EuropeEuropePacif

21、icEurope输入列年龄42604136预测列是否购买自行车NoNoYesYes 在分类模型中，每个会员作为一个事例，居民的婚姻状况、性别、年龄等特征作为输入列，所需预测的分类是客户是否购买了自行车。43 训练数据集填充模型使用 1000 个会员事例训练模型后得到的决策树分类如图 1 所示：9图 1 会员事例训练模型后得到的决策树分类431 图中矩形表示一个拆分节点，矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量，颜色越深包含的事例越多，如全部节点包含所有的 1000 个事例，颜色最深。经过第一次基于年龄的拆分后，年龄大于 67 岁的包含 36 个事例，年龄小于 32 岁的 13

22、3 个事例，年龄在 39 和 67 岁之间的 602 个事例，年龄 32 和 39 岁之间的 229 个事例。所以第一次拆分后，年龄在 39 和 67 岁的节点颜色最深，年龄大于 67 岁的节点颜色最浅。节点中的条包含两种颜色，红色和蓝色，分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄=67”节点中，包含 36 个事例，其中 28 个没有购买自行车，8 个购买了自行车，所以蓝色的条比红色的要长。表示年龄大于 67的会员有 7462%的概率不购买自行车，有 2301%的概率购买自行车。432 在图中，可以找出几个有用的节点：1年龄小于 32 岁，居住在太平洋地区的会员有 7275%

23、的概率购买自行车；2年龄在 32 和 39 岁之间的会员有 6842%的概率购买自行车；3年龄在 39 和 67 岁之间，上班距离不大于 10 公里，只有 1 辆汽车的会员有 6608%的概率购买自行车；4年龄小于 32 岁，不住在太平洋地区，上班距离在 1 公里范围内的会员有5192%的概率购买自行车；44 模型训练后，还无法确定模型的分类方法是否准确。可以用模型对 300个会员的检验集进行查询，查询后，模型会预测出哪些会员会购买自行车，将预测的情况与真实的情况对比，评估模型预测是否准确。如果模型准确度能满足要求，就可以用于对新会员进行预测。45 在得到了分类模型后，将其他的会员在分类模型中

24、查找就可预测会员购买自行车的概率有多大。随后自行车厂商就可以有选择性的投递广告册。105结束语本文总结了数据挖掘的定义、目标、相关领域及其一般方法，基于数据挖掘技术数据资料之丰富，现在在论文中提到的相关领域已有了一些数据挖掘技术的模型，限于篇幅不再一一列举。作为一个新兴的研究领域，数据挖掘仍然有许多问题需要进行深入研究。例如:从同一个数据库的不同层次上提取相应的规则;确定一种方便、实用、统一的语言表达数据挖掘的结果;应用数据挖掘技术，基于动态数据库、面向对象技术、多媒体数据库及从国际互连网上抽取新的、有用的规则。当然，数据挖掘技术同样应该包括对于所抽取规则的准确性及数据的安全性、私密性的保护等

25、领域的研究。数据挖掘技术是一个发展十分快的领域，随着对数据挖掘技术在各领域日益广泛的应用，实现了数据资源共享及技术发展的跨域，从而大大提高了工作效率，并带来巨大的成功。21 世纪是信息时代的社会，“信息不仅是资源，更是财富”，要实现经济的腾飞，需依赖高新尖科技的发展，故利用提供的信息，充分进行数据挖掘，则将为数据库的应用开辟了广阔的前景，也为人类的文明开辟了一个崭新的时代。参考文献参考文献1.苏新宁，杨建林，江念南。数据仓库和数据挖掘M.2006；2.谭建豪。数据挖掘技术M.2009；3.david hand，heikiki manrlla 等著。宋俊，廖丽等译M.2003；4.数据挖掘讨论组，数据挖掘资料汇编；5.朱明，数据挖掘.合肥：中国科技大学出版社2002，5；6.张春阳，周继恩，刘贵全，蔡庆生.基于数据仓库的决策支持系统的构建，计算机工程.2002(4)：249-252；7.Jiawei Han,Miecheline Kamber 著。范明，孟小峰译。数据挖掘概念与技术。机械工业出版社。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

7 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘及其应用

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【丰****】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：数据挖掘及其应用.pdf
链接地址：https://www.zixin.com.cn/doc/4857945.html

丰****

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手