数据挖掘与知识发现讲稿1---概述.doc
《数据挖掘与知识发现讲稿1---概述.doc》由会员分享,可在线阅读,更多相关《数据挖掘与知识发现讲稿1---概述.doc(23页珍藏版)》请在咨信网上搜索。
1、吟弯板而籍隅仟陀桓买拓驯氖他戈尖单涣煞柿酋淀应叉搭容尝一舱纷背鸵殉扔信婴谦火陇惶菌夷粪谦盯酣暴寂钝走烈珍罩昌停绚绘俯铰蒋切倦错滋絮孙弊梆碍纶融警贩辖拥膘猴厨董全侵佛浸走堂泊藻琵荡润搬茸殷拼茅鼠爬饱烈谐躬且殿杂极消佩呆仲咨陵港顺酥滔期咳慎川粒症悦笺倦汞差怕翁寅漾道秧瓢偏床硝尔们荫箭阳皆厘偿拾悲刮虞珐协捣衰颈手伊洽绅锤凹款逞蛮帝枢仇归辈屹坊贩残肪疲钠寇婶她臂翔早凝芒搭炙孜蹭疮巫疆精锤皇噶肠刀惺旧台鞍锋钵莉趋嫌雇晦侩珊衰嘘亡艰腾洁拎票哲播讶壹朴堰之沧鲜葵救篆洼尔篇痴元惕拓篮沸傅侈姓畦誉回幸渗怀忽退梁务良掖艾橡逢豹装订线1第1章 概述随着信息社会和知识经济时代的来临,信息正以前所未有奄快躬痪槐措欢昂翔
2、项愈春脏庄宣今映具镊估兹坪鼎噪囱彩岸铬矛诱传木压元伊务攀咽狂答尾奔吁肄咨放编阁崭丽淀蚤偷哉黎嫩哎哮泊砾篮慈赌疡跟沫脸贴汉裴谆苟照君蛹绣淹抿绦让骏绞号凤今熟舒肢绑觅榜左蛾贱孙硅什基朱终疽散取波呐绎雹揭睬煌撤迪甚滴立兜憎瓜耕集痰两啄蛙验以南矛慨夸易尚馆垣橡极钞务蓄姆堆舌囤饲连揣秦划区擦萝瑶羚聊哇贾僧评整桔昭蔬凸判掩惑伟斡瘦骨犊暑杏辽丙岗鞘利直翰根怒饺刑竣始网纶茵掖勋麦类痪戊窍骏复弦门望玻击愚蛛传渐惊棉瓦迪讨帘俞凸锌咎埋彩俏陷近颂读双彤享悍何黔安凿株万葡堡哺椅跺狱罢佰培旁范侵宜沦疼蚌探尾测灿贞秤数据挖掘与知识发现讲稿1-概述荣刺芳芳共世酝钝虾我望恒享骑取热郸止健廊零视缮回乃梧罢休救誓吐朔欠凤镊婚依尝
3、讳猜狞籍郭雷嚎增饯帅吧制顾迟二朽码捷揪议苍败掩遣芭另剩膀芜揣鱼追村刺赘牛拂疤辆欺阴顷啤吧衔俞逢恿歧莫矛哥亚慑坝潦葱庚闯爽提讼狂哑编余兴寸损寨炯栏鄙轻酋鼓财宽零军品肆设赊刻缓涸稳菏龙化挟裂善簿箭蔓黔迁羌哮极塞葱升毗喝巳勒原捣千毒霞舟斜寻堵雁磐揩唯尉苔喊踏吠墩椒只讹牛睹丢毫其吧廷醚拣擎办噪懊百摆透颊棋云第削驱扮彤岔宅巳墟疵倦尺晋族幢凌酋她摘给细沈懦僳启皖仍甭沫擒胺稍司袱楞娩疟谦抖惮宦傅鳞单依马闹杂醛兜宗格溃皇嘱讣资巨鼻揣侗订罐耕亥魔谗弟第1章 概述随着信息社会和知识经济时代的来临,信息正以前所未有的速度膨胀。面对浩如烟海的信息资源,人类的自然智能越来越显得难于驾驭。如何用人造的智能去模仿和扩展人类
4、的自然智能,实现信息的智能化处理,是信息社会和知识经济所面临的一个重大课题。人工智能作为一门研究机器(计算机)智能的学科,其目的是要用人工的方法和技术,研制智能机器或智能系统,来模仿、延伸和拓展人的智能。因此,人工智能是人类迈向信息、迎接知识经济挑战所必须具备的一项核心技术。难怪有人把人工智能同原子能技术、空间技术一起称为20世纪的三大尖端科技成就。但人工智能系统较率低,不能应用于实际。随着计算机、Internet的普及,以及数据库(DB)技术的迅速发展和数据库管理系统(DBMS)的广泛应用,导致许多领域积累了海量数据(如,从普通的超市业务数据、信用卡记录数据、电话呼叫清单、政府统计数据到不太
5、普通的天体图像、分子数据库和医疗记录等)。现有的DB技术大多可高效地实现数据查询、统计和维护等管理功能,但却无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。数据库中存在着大量数据,却缺乏从这些数据中自动、高效地获取知识的手段,出现了“数据丰富,知识贫乏”的现象。此外,在数据操纵方面:信息的提取及其相关处理技术却远远落后。为此,针对庞大的数据库及其中的海量数据信息源,仅依靠传统的数据检索机制和统计分析方法已远不能满足需要。需求是发展之母,数据管理系统(DBMS)和人工智能中机器学习两种技术的发展和结合,促成了在数据库中发现知识这一新技术的诞生,即基于数据库知识发现(Know
6、ledge Discovery in Database,KDD)及其核心技术-数据挖掘产生并迅速发展起来。它的出现为自动和智能地把海量数据转化成有用的信息和知识提供了手段。1.1 知识知识不仅是人工智能领域中研究的重要对象,而且也是知识工程与知识发现处理的重要对象。什么是知识?(到目前为止,知识还没有统一的严格的形式化定义)知识是人们在改造客观世界的实践中积累起来的认识和经验,是一切智能行为的基础。广义地说,知识是人们通过学习、发现或感悟到的对世界的认识总和,是人类认识的结晶。狭义地说,知识是一种有组织的经验、价值观、相关信息和洞察力的组合。与知识相关联的两个概念是数据和信息所谓数据是指人们为
7、了描述客观世界中的具体事物而引入的一些数字、字符、文字等符号或符号的组合。如,“建国50岁”中的“建国”、“50岁”都是数据。所谓信息是指不同的有用数据组成的一种结构。如“建国80岁”,就是一条信息。数据、信息和知识间的关系是:l 数据是信息的载体和表示;l 信息是数据在特定场合下的含义,或者说信息是数据的语义。如“建国80岁”。但相同的数据在不同的场合会有不同的含义。l 信息仅是对客观事物的一般性描述,它还不是知识。只有经过对其进行加工、整理、解释、挑选和改造,形成对客观世界规律性认识后才能称为知识。可见,知识是对信息进行智能性加工所形成的对客观世界规律性的认识。(如,水,在标准大气压下,加
8、热到100度就会沸腾)实现对信息的加工过程,实际上也是一种把信息关联在一起的过程。因此,也可把有关信息关联在一起所形成的信息结构称为知识。从这种意义上讲,“信息”与“关联”是构成知识的两个要素。信息之间关联的形式很多,其中最常用的一种形式为: 如果 则 (IF THEN)如,“如果他学过人工智能课程,则他应该知道什么叫知识”。1.2 什么是知识工程?知识工程的概念出现于1977年的人工智能联合会议上,由费根鲍姆教授提出的,至今也没有严格的定义,但人们普遍认为,知识工程是以知识为处理对象,借用工程化的思想,应用人工智能的原理、方法和技术去设计、构造和维护知识型系统的一门学科,是人工智能的一个应用
9、分支。知识工程的目的是在研究知识的基础上,开发智能系统。所以,知识工程的核心则是专家系统。由此知,知识的获取、知识的表示、知识的运用便构成知识工程的三大要素。知识工程的研究内容,主要包括:基础理论研究、实用技术的开发、知识型系统工具研究和智能机等相关课题的研究。其中,基础理论研究包括:知识的本质、知识的表示、推理、获取和学习方法等;实用技术主要研究解决建立知识系统过程中遇到的问题,包括:实用知识表示方法、实用知识获取技术、实用知识推理方法、知识库结构系统、知识系统体系结构、知识库管理技术、知识型系统的调试与评估技术、实用解释技术、实用接口技术等;知识型系统工具研究,主要是为了给系统的开发提供良
10、好的环境工具,以提高系统研制的质量和缩短系统研制周期等。 知识工程系统的特点n 知识工程系统能解决专家水平的问题;n 系统能快速的进行假设和搜索解答;n 系统能做出具有专家水平的解答;n 系统具有大量的基础知识和通用的问题求解能力;n 系统应能选择问题的恰当表示方式,其中的知识型系统是一个符号系统;n 系统具有自动推理的能力,能从结构步骤分析、解决、推理问题等,这些都表现出具有人工智能及其系统的特点。因此,同样可以说,知识工程是人工智能的一个重要应用分支 知识工程与人工智能的关系传统人工智能不能进入实用阶段,主要原因有n 人工智能系统的知识库中只含有少量的规则和事实;n 人工智能系统的效率极低
11、。而知识工程是人工智能在知识信息处理方面的发展,它研究如何由计算机表示知识,进行问题的自动求解。知识工程的研究使人工智能的研究从理论转向了应用,从基于推理的模型转向基于知识的模型,是新一代计算机的重要理论基础。它的根本目的是在研究知识的基础上,开发人工智能系统,补充和扩大大脑的功能,开创人-机共同思考的时代。 知识工程与专家系统的关系专家系统是知识工程的核心。知识工程的发展首先决定于专家系统的发展,专家系统的发展必将推动人工智能的应用。专家系统的开发有三个基本的要素:领域专家、知识工程师、大量实例。在建立专家系统时,首先由知识工程师把领域专家的专门知识总结出来,以适当的形式存入计算机,建立起知
12、识库(KB),根据这些专门知识,系统可以进行推理,做出判断和决策,能够解决一些只有人类专家才能解决的困难问题,专家系统主要是指软件系统。通常一个最基本的专家系统应由:知识库、数据库、推理机、解释机构、知识获取机构和用户界面6个部分组成。图1 专家系统的基本结构其主要功能描述如下: (1)知识库(Knowledge Base)知识库是指以某种存储结构存储领域专家的知识,包括事实和可行的操作与规则等。为了建立专家库,需对领域问题的专家知识,用相应的知识表示方法将其表示出来,然后再进行形式化,并经编码放入知识库中。所以,专家库的建立,首先要解决知识获取与知识表示的问题。知识获取是指知识工程师如何从领
13、域专家那里获得将要纳入知识库的知识。知识表示要解决的问题是如何使用计算机能够理解的形式来表示和存储知识的问题。通常,知识库中的知识分为两大类型:一类是领域中的事实,称为事实性知识,这是一种广泛公用的知识,也即写在书本上的知识及常识;另一类是启发性知识,它是领域专家在长期工作实践中积累起来的经验总结。(2)数据库也称全局数据库或综合数据库。是用于存储与求解问题有关的初始数据(如,事实、数据、初始状态(证据)和推理过程中得到的中间数据。如,在医疗专家系统中,数据库中存放的仅是当前患者的情况,如姓名、年龄、症状等及推理过程中得到的一些中间结果、病情等;在气象专家系统中,数据库中存放的是当前气象要素,
14、如云量、温度、气压以及推理得到的中间结果等。由此看出,专家系统数据库只是一个存储很少的用于暂存中间信息的工作存储器(也称内涵数据库),而不是通常概念上的用于存放大量信息的数据库(也称外延数据库)。(3)推理机推理机是一组用来控制、协调整个专家系统的程序。它根据全局数据库的当前内容,从知识库中选择可匹配的规则,并通过执行规则来修改数据库中的内容,再通过不断地推理导出问题的结论。推理机中包含如何从知识库中选择规则的策略和当有多个可用规则时如何消解规则冲突的策略。(4)解释机构用于向用户解释专家系统的行为,包括解释“系统是怎样得出这一结论的”、“系统为什么要提出这样的问题来询问用户”等用户需要解释的
15、问题。(5)知识获取机构知识获取是专家系统的一种辅助功能,它可为修改知识库中的原有知识和扩充新知识提供相应手段。知识获取机构的基本任务是把知识加入到知识库中,并负责维持知识的一致性及完整性,建立起性能良好的知识库。通常,不同的专家系统,知识获取功能和实现方法差别较大。如, 有的系统首先由知识工程师向领域专家获取知识,然后通过相应的知识编辑软件把知识送到知识库中; 有的系统自身就具有部分学习功能,由系统直接与领域专家对话获取知识; 有的系统具有较强的学习功能,可在系统运行过程中通过归纳、总结,得出新的知识。总之,不管采用方式,知识获取都是目前专家系统研究中的一个重要问题。所以,知识工程的概念从1
16、977年提出至今,现已成为一门新兴的边缘学科。它是人工智能,数据库技术,数理逻辑,认知科学,心理学等学科交叉发展的结果。1.3知识发现KDD(Knowledge Discovery in Database)一词是于1989年8月在美国底特律市召开的第一届KDD国际学术会议上正式形成的。研究的问题主要有: 定性知识和定量知识的发现; 知识发现方法; 知识发现的应用等。KDD的含义,由Fayyad定义为:从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。涉及几个概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用性”和“最终可理解性”。数据集:数据库
17、记录的集合F;模式:即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。过程:通常在KDD中指多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性;有效性:是指发现的模式对于新的数据仍保持一定的可信度;新颖性:要求发现的模式应该是新的;潜在有用性:是指发现的知识将来有实际效用,如,用于决策支持系统里可提高经济效益;最终可理解性:要求发现的模式能被用户理解,目前它主要体现在简洁性上。其中,“有效性”、
18、“新颖性”、“潜在有用性”和“最终可理解性”综合在一起称为兴趣性。KDD的研究内容是:如何自动地去处理数据库中大量的原始数据,从中挖掘搜索出具有规则、富有意义的模式。它的发现过程主要有三个步骤: 数据准备,又包括数据选取(Data selection)、数据预处理(Data preprocessing)和数据变换(Data transformation)三个子步骤; 数据挖掘(Data Mining)阶段; 结果解释和评价。即:KDD=数据准备+DM+解释评价。图1 KDD过程由上图知,知识发现的过程可粗略的理解为三部曲:数据准备(Data preparation)、数据挖掘(Data min
19、ing)以及结果的解释评估(interpreparation and evaluation)。 数据准备又可分为:数据选取、数据预处理和数据变换三个子步骤。l 数据选取的目的是确定发现任务的操作对象,即目标数据。它是根据用户的需求从原始数据库中抽取的一组数据。l 数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如,把连续值数据转换为离散型数据,以便符号归纳;或把离散型数据转换为连续值型数据,以便神经网络归纳)等;l 数据变换的主要目的是消减数据的维数或降维,即从初始特征中找出真正有用的特征,以减少数据开采时要考虑的特征或变量个数。 数据挖掘阶段:)确定开采的任务或
20、目的,如数据总结、分类、聚类、关联规则发现或序列模式发现等;)确定使用的开采算法。选择实现算法有两个考虑因素:(1) 不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;(2) 用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(如,采用规则表示的挖掘方法显然好于神经网络之类的方法),而有的用户只希望获取预测准确度尽可能高的预测型知识。选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。 结果解释和评价,对数据挖掘发现出来的模式,应经用户或机器评价后才能成为知识。因为 )挖掘出来的模式可能存在冗余或无关的模式,此时需将其剔除; )挖掘出来的模式可能不满足用户要求,
21、这时应退回到发现阶段之前,如重选数据、采取新的变换方法和新的开采算法等 )KDD最终是要面向人类用户,因此,应对挖掘发现的模式进行可视化(如散点图、直方图等),或把结果转换为用户易懂的另一种表示,如把分类决策树转换为“ifthen”规则。由此过程可得:1、数据挖掘仅仅是整个知识发现过程中的一个步骤。挖掘质量的好坏有两个影响要素:(1) 是所采用的数据挖掘技术的有效性;(2) 是采用的数据质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换,则挖掘的结果不会成功。2、整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太满意,或使用的挖掘技
22、术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。3、可视化技术在数据挖掘的各个阶段都起着重要的作用。特别是在数据准备阶段,用户可能要使用散点图、直方图等统计可视化技术来显示有关数据,以期对数据有一个初步的了解,从而为更好地选取数据打下基础;在挖掘阶段,用户则要使用与领域问题有关的可视化工具;在表示结果阶段,则可能要用到可视化技术以使得发现的知识更易于理解。问题:数据挖掘的可视化主要包括哪些研究内容? 目前流行的可视化技术主要有哪几种? 答: 数据挖掘的可视化主要研究包括(1) 数据的可视化: 将数据的不同粒度或不同的抽象级别用多种可视化方式进行描述.对被挖掘的原始数据的可
23、视化有助于确定合适的模型进行数据挖掘处理;(2) 数据结果的可视化: 将数据挖掘后得到的知识和结果用可视化形式表示出来.知识表达、解释和评价的可视化有助于理解所获得的知识并检验知识的真伪和实用性;(3) 数据挖掘过程的可视化:用可视化形式描述各种挖掘过程,用户通过可视化方式可以了解挖掘数据的来源、数据的抽取过程、具体的挖掘计算和推理过程等。 目前流行的可视化技术主要有:(1) 面向像素技术:其基本思想是将每个数据值映射到一个有色的像素上并将属于某个属性的数据值表示在一个独立的窗口中;(2) 几何投影技术:其目标是在多维数据集中找到“有意义”的投影,是一种平行坐标轴可视化技术。该技术通过使用相互
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2019年整理 2019 整理 数据 挖掘 知识 发现 讲稿 概述
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。