数据挖掘及其应用.pdf
《数据挖掘及其应用.pdf》由会员分享,可在线阅读,更多相关《数据挖掘及其应用.pdf(10页珍藏版)》请在咨信网上搜索。
1、数据挖掘论文数据挖掘分类方法及其应用课程名称:数据挖掘概念与技术 姓 名 学 号:指导教师:2数据挖掘分类方法及其应用作 者:来 煜摘要:社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏这许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术和新领域的不断出现,对分类方法提出了新的要求。关键字:数据挖掘;分类方法;数据分析 引言数据是知
2、识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得知识的
3、可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在3对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,
4、在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法,主要有决策树、关联规则、神经网络、支持向量机和贝叶斯、k临近法、遗传算法、粗糙集以及模糊逻辑技术等。大部分技术都是使用学习算法确定分类模型,拟合输入数据中样本类别和属性集之间的联系,预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型,该模型能够准确地预测未知样本的类别。1 1数据挖掘概述数据挖掘概述
5、数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示 3 个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出
6、来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术和新领域的不断出现,对分类方法提出了新的要求。2 2数据挖掘分类算法介绍数据挖掘分类算法介绍 分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策4树、关联规则、神经网络、支持向量机和贝叶斯、k临近法、遗传算法、粗糙集以及模糊逻辑技术等。下面对若干分类问题进行简要分析。21 基于决策树的分类 基于决策树的分类算法是数据挖掘中最为典型的分类算法。决策树是一个类似于流程图的树结构,其每个内部节点表示在一
7、个属性上的测试,每个分枝代表一个测试输出,每个叶节点代表类或类分布。211 决策树算法基本思想。开始时所有的训练样本在根部,基于最高信息增益自顶向下递归地划分数据集,生成决策树。当一个结点上所有样本都属于同一类或者没有剩余属性可以用来进一步划分样本时停止划分,形成一个叶结点。如果叶结点上的样本不属于同一类,则根据大多数样本的分类来确定叶结点的类别。创建决策树时,因数据中存在噪声和孤立点,许多分枝反映的是训练数据集中的异常。剪枝方法可以剪去不可靠的分枝,提高分类速度和分类的准确度。常用的剪枝方法有:先剪枝和后剪枝。前者通过提前停止树的构造而对树剪枝;后者在完全创建好的树上剪去分枝。212 典型的
8、决策树算法。最为典型的决策树学习算法是 ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法 c45 和 c50 是 ID3 的扩展,它们将分类领域从类别属性扩展到数值型属性。在决策树中,从根到树叶的每条路径以 IFTHEN 形式表示一条分类规则,沿着给定路径上的每个属性一值对形成规则前件的一个合取项,叶结点包含类预测,形成规则后件。213 优缺点。决策树很擅长处理非数值型数据,从决策树中可以方便地提取分类规则。其主要优点是描述简单,分类速度快,特别适合大规模的数据处理。不足之处是 ID3 算法偏向于选择属性较多的属性,而属性较多的属性往往不是最优的属性:学习简单的逻辑表达能力较差。
9、22 基于统计的分类 贝叶斯分类算法是基于贝叶斯定理的一种统计学分类算法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。如果出现类别重叠现象,贝叶斯分类算法采用两种方法处理这种情况:一是选择后验概率最大的类别,二是选择效用函数最大(或损失最小)的类别。贝叶斯分类也是一种常用的分类方法,它是一种对属性集和类变量的概率关系建模的方法。其理论基础是贝叶斯定理,可用式 221表示。p(cx)p(xc)p(c)/p(x)221其中 x 是类标号未知的数据样本。设 c 为某种假定,如数据样本 I 属于某特5定类民则 P(cx)为 c 成立的概率,也称为类 c 的先验概率;P(x)为 x
10、的支持度。P(cx)是规定数据样本 x,假定 c 成立的概率,称作类 c 的后验概率。P(xvc)是假定 c 成立的情况下,样本 x 的支持度,也称为类条件概率。准确估计类标号和属性值的每一种可能组合的后验概率非常困难,因为即便属性数目不是很大,仍然需要很大的训练集。此时,贝叶斯定理很有用,因为它允许我们用先验概率 P(c)、类条件概率 P(xc)和 P(x)来表示后验概率。在比较不同类 c 的后验概率时,分母 P(x)总是常数,因此可以忽略。先验概率 P(c)可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计。因此类 c 的后验概率 P(xc)的确定取决于对类条件概率 P(xc)
11、的估计。对类条件概率 P(xc)的估计,常使用两种贝叶斯分类方法来实现:朴素贝叶斯分类和贝叶斯信念网络。23 基于神经网络的分类 231 基本思想。经常用于分类的还有人工神经网络方法。神经网络3为解决大复杂度问题提供了一种相对来说比较有效的简单方法,它是模仿人脑神经网络的结构和某些工作机制而建立的一种非线形预测模型,经过学习进行模式识别的。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反馈神经网络、自组织神经网络等,在神经网络中,由权重和网络的拓扑结构决定了它所能识别的模式类型。神经网络分类过程可以分为训练和分类两个阶段。在训练阶段,首先定义网络的拓扑结构,再对训练样本
12、中的每个属性的值进行规范化预处理,然后用神经网络对已预处理的输入进行学习。训练完毕后,用训练好的神经网络对标识样本进行分类。最流行的神经网络学习算法是后向传播算法。后向传播算法是在多层前馈神经网络上进行学习的。这种神经网络具有一个输入层和一个输出层,在两者之间可能包含多个中间层,这些中间层叫做隐藏层。后向传播通过迭代地处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进行学习。对于每个训练样本,修改权值,使得网络预测和实际类之间的均方误差最小。这种修改后向进行,即由输出层,经由每个隐藏层,到第一个隐藏层。一般的,权将最终收敛,学习过程停止。算法的每一次迭代包括两个阶段:前向阶段和后
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 及其 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。