数据挖掘与数据仓库-知识点总结.doc
《数据挖掘与数据仓库-知识点总结.doc》由会员分享,可在线阅读,更多相关《数据挖掘与数据仓库-知识点总结.doc(7页珍藏版)》请在咨信网上搜索。
1、1、数据仓库定义:数据仓库是一种新的数据处理体系结构,它与组织机构的操作数据库分别维护,允许将各种应用系统一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,为企业决策支持系统提供所需的集成信息。设计和构造步骤:1)选取待建模的商务处理;2)选取商务处理的粒变;3)选取用于每个事实表记录的维;4)选取事实表中每条记录的变量系统结构:(1)底层是仓库数据服务器,总是关系数据库系统.(2)中间层是OLAP服务器,有ROLAP和MOLAP,它将对多维数据的操作映射为标准的关系操作(3)顶层是前端客户端,它包括查询和报表工具、
2、分析工具和数据挖掘工具2、数据仓库的多维数据模型:(1)星形模式:在此模型下,数据仓库包括一个大的包含大批数据并且不含冗余的中心表,一组小的附属表,维表围绕中心事实表显示的射线上.特征:星型模型四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。每个维表都有自己的属性,维表和事实表通过关键字相关联。【例子:sales数据仓库的星形模式,此模式包含一个中心事实表sales,它包含四个维time, item, branch和location。(2)雪花型模式:它是星形模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中.特征:雪花模型通过最大限度地减少数据存储量和
3、联合较小的维表来改善查询性能,增加了用户必须处理的表数量和某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。【例子同上,只不过把其中的某些维给扩展了。(3)事实星座形:复杂的应用可能需要多个事实表共享维表,这种模式可看作星形模式的汇集。特征:事实星座模型能对多个相关的主题建模。例子:有两个事实表sales和shipping,它们可以共享维表time, item和location。3、OLAP:即联机分析处理,是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支持服务。特点:1.实时性要求不是很高。2。数据量
4、大。3。因为重点在于决策支持,所以查询一般是动态的,也就是说允许用户随机提出查询要求.OLAP操作:上卷:通过沿一个维的概念分层向上攀登,或者通过维归约,对数据立方体进行类聚。下钻:是上卷的逆操作,它由不太详细的数据得到更详细的数据,下钻可以通过沿维的概念分层向下或引入附加的维来实现。切片:对给定方体的一个维进行进行选择,导致一个子立方体。切块:通过对两个或多个维执行选择,定义子立方体。转轴:是一种可视化操作,它转动数据的视角,提供数据的替代表示。OLTP:即联机事务处理,是以传统数据库为基础、面向操作人员和低层管理人员、对基本数据进行查询和增、删、改等的日常事务处理。OLTP的特点有:a.实
5、时性要求高;b。数据量不是很大.C.交易一般是确定的,是对确定性数据进行存取。d.并发性要求高且严格的要求事务的完整性,安全性。OLTP和OLAP的区别:1)用户和系统的面向性:OLTP面向顾客,而OLAP面向市场;2)数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据;3)数据库设计:OLTP系统采用实体联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型;4)视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据;5)访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是
6、复杂的查询。7、PageRank算法原理:1)在初始阶段:构建Web图,每个页面初始设置相同的PageRank值,通过迭代计算,会得到每个页面所获得的最终PageRank值.2)在一轮中更新页面PageRank得分的计算方法:每个页面将其当前的PageRank值平均分配到本页面包含的出链上。每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。缺点:1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降
7、低.2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。5、分类:指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类.过程:在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。分类的方法有哪些,给出你所了解的评估分类器的方法和特点?分类方法:用基于归纳的学习算法,k-最近邻分类,人工神经网络法、粗糙集法和遗传算法。用判定树归纳分类;贝叶斯分类;后向传播分类;基于规则的分类;关联分类,SVM支持向量机等。分类和预测的评估方法:预测的准确率、速度、强壮性
8、、可规模性、可解释性。评估方法:(1)保持方法,给定数据随机地划分成两个独立的集合:训练集和测试集.通常,三分之二的数据分配到训练集,其余三分之一分配到测试集.使用训练集导出分类法,其准确率用测试集评估.评估是保守的,因为只有一部分初始数据用于导出的分类法.(2)交叉确认:在k-折交叉确认中,初试数据被划分成 k 个互不相交的子集或“折S 1,S 2,.。.,S k,每个折的大小大致相等。训练和测试进行 k次。在第 i次迭代,S i用作测试集,其余的子集都用于训练分类法。其它方法包括解靴带(bootstrapping)和留一。前者使用一致的、带放回的选样,选取给定的训练实例;后者是 k-折交叉
9、确认,这里 k 为初始样本数 s。一般地,建议使用调整的 10折交叉确认,因为它具有相对低的偏置和方差.(3)袋装:给定 s 个样本的集合 S,对于迭代 t ( t = 1,2,。,T ),训练集 S t采用放回选样,由原始样本集 S 选取。由于使用放回选样,S 的某些样本可能不在 St中,而其它的可能出现多次。由每个训练集 S t学习,得到一个分类法 C t.为对一个未知的样本 X 分类,每个分类法 C t返回它的类预测,算作一票。装袋的分类法 C统计得票,并将得票最高的类赋予 X。通过取得票的平均值,而不是多数,装袋也可以用于连续值的预测。(4)推进:每个训练样本赋予一个权。学习得到一系列
10、分类法。学习得到分类法 Ct后,更新权,使得随后的分类法 C t+1 “更关注 C t的分类错误.最终的推进分类法 C组合每个分类法的表决,这里每个分类法的表决是其准确率的函数。推进算法也可以扩充到连续值预测。应用领域:是数据挖掘领域中研究和应用最为广泛的技术之一,许多分类算法被包含在统计分析工具的软件包中,作为专门的分类工具来使用。分类问题在商业、银行业、生物学、文本挖掘、因特网筛选等领域都有广泛应用.例如在因特网筛选中,分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。8、决策树归纳算法及其优缺点决策树定义:是用样本的
11、属性作为结点,用属性的取值作为分支的树结构.它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性.决策树的叶结点是样本的类别值。归纳算法过程:创建节点N,若划分D中所有元组属于同一个类C,返回N,并用C标记若属性表为空,返回N并以D中多数类标记 从属性表中找到最优属性a,标记节点N 如果a是离散的且允许多路划分,则从属性表中删除a 对属性a在D上的每个划分Dj,若Dj为空,则加一个树叶到N并标记D中的多数类,否则递归调用本算法处理Dj,返回的节点加到N 返回N优点:更高的准确性可
12、以生成可理解的规则计算量不是很大可以处理连续和种类字段可以清晰显示哪些字段比较重要容易转化成分类规则:只要沿着树根向下一直走到叶子,沿途的分裂条件就能够唯一的决定一条分类的谓词缺点:缺乏伸缩性,由于进行深度优先搜索,所以算法受内存大小限制,难于处理大训练集为了处理大数据集的种种算法(离散化、取样)不仅增加了分类算法的额外开销,而且降低了分类的准确性。6。聚类分析的功能,主要的聚类方法及其特点。聚类:【不知道数据的分类,甚至连分成几类也不知道】将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类.由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的
13、对象相异。是无指导的学习。聚类与分类的主要区别:和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定.聚类分析是研究如何在没有训练集的条件下把样本划分为若干类.在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。主要的聚类方法:1)划分方法:给定n个对象或数据元组的数据库,划分方法构建数据的K个划分,每个划分表示一个簇,k=n。构建不同划分.如K均值、K中心点算法等。缺点是需要穷举所有可能划分,适用于中小规模数据库2) 层次方法:对给定数据库对象进行层次分解,如Diana,Agnes、BIRCH、ROCK、CAMELEON等,缺点在于一旦一个
14、步骤(合并或分裂)完成,就不能撤销3) 基于密度的方法.基于连接和密度函数,如DBSCAN和OPTICS4) 基于网格的方法,基于多层粒度函数,如STING、WaveCluster、CLIQUE等,把对象空间量化为有限个单元,形成网格结构,聚类都在网格上进行。处理速度快,处理时间依赖于量化空间每一维的单元数目5) 基于模型的方法,为每个簇假定一个模型,寻找数据对给定模型的最佳拟合,如EM、SOM、COBWEB算法等6) 基于频繁模式的聚类:从频繁出现的维数自己中提取不同的频繁模式。7) 基于约束的聚类:结合用户指定或面向应用的约束进行聚类.应用领域:是数据挖掘应用的主要技术之一,它可以作为一个
15、独立的工具来使用,将未知类标号的数据集划分为多个类别之后,观察每个类别中数据样本的特点,并且对某些特定的类别作进一步的分析。此外,聚类分析还可以作为其他数据挖掘技术(例如分类学习、关联规则挖掘等)的预处理工作。4、人工神经网络:是一个函数,主要在于这个函数的自学习过程,在学习过程中,它根据正确结果不停的校正自己的网络结构.分类方法:1.依学习策略分类主要有:监督式学习网络为主、无监督式学习网络、混合式学习网络、联想式学习网络、最适化学习网络2。依网络架构分类主要有:前向式架构、回馈式架构、强化式架构优点:预测准确性高、对噪声数据的高承受力(训练样本差错时仍可工作)、输出离散值、快速评估目标 缺
16、点:1、需要很长的训练时间 2、难以与域知识合作3、可解释性差BP网络:是一种按误差逆传播算法训练的多层前馈网络。BP网络能学习和存贮大量的输入输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。BP算法由数据流的前向计算(正向传播)和误差信号的反向传播两个过程构成。BP神经网络的学习过程:神经网络在外界输入样本的刺激下不断改变网络连接的权值,阈值。以使网络的输出不断地接近期望的输出.学习的本质:对各连接权值、阈值的动态调整。学习规则:权值、阈值调整规则,即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则BP学习算法的步骤: 选定学习的数据,p=1,,P, 随机确定初始权矩
17、阵W(0);用学习数据计算网络输出;反向修正,直到用完所有学习数据。BP神经网络算法步骤:1初始化,依据实际问题给出网络连接结构,随机设置所有连接权值。2提供训练样本,如果输入变量为n个,输出变量为m个,则每个训练样本形式为(x1,x2,xn;t1,t2,,tm)。这里t1,t2,tm是输入为x1,x2,,xn的期望输出。3计算实际输出,利用非纯属函数逐级计算各层节点的输入值。4权值调整,用递归方法从输出节点开始返回到隐层节点。5返回第二步,重复执行,直到达到满意误差。BP网络的缺点:易陷入局部最小点;收敛速度慢;学习过程容易出现震荡;9、提升Adaboost:在提升方法中,权重赋予每个训练元
18、组。迭代地学习k个分类器序列。学习得到分类器Mi之后,更新权重,使得其后的分类器Mi+1“更关注”Mi误分类的训练元组。最终提升的分类器M组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。过程:给定数据集D,包含d个类标记的元组(X1,y1),(X2,y2),,(Xd,yd),其中,yi是元组Xi的类标号.Adaboost对每个训练元组赋予相等的权重1/d。在第i轮中:从D中元组抽样,形成大小为d的训练集Di。每个元组被选中的机会由它的权重决定。从训练元组Di导出分类模型Mi。使用Di作为检验集计算Mi的误差。调整训练元组D的权重:如果元组不正确地分类,则它的权重增加。如果元组正确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 数据仓库 知识点 总结
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【w****g】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【w****g】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。