数据挖掘部分作业答案.doc
《数据挖掘部分作业答案.doc》由会员分享,可在线阅读,更多相关《数据挖掘部分作业答案.doc(6页珍藏版)》请在咨信网上搜索。
一、概述 数据挖掘概念:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程. 数据仓库:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。 数据立方体:允许以多维对数据建模和观察.由维和事实组成.其中事实是数值的度量. 分类:就是通过学习获得一个目标函数f, 将每个属性集x映射到一个预先定义好的类标号y. 分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例.用元组(X,y)表示,其中,X 是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性). 信息检索:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。 知识发现(KDD):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 OLAP:OLAP是针对特定问题的联机数据访问和分析. 通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察. 维:是人们观察数据的特定角度. 企业常常关心产品销售随着时间推移而产生的 变化的情况,这时企业是从时间的角度来观察产品的 销售,所以时间就是一个维(时间维). 企业也常常关心自己的产品在不同地区的销售分布 情况,这时企业是从地理分布的角度来观察产品的销 售,所以地理分布也是一个维(地理维). 上卷: --通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,也称为聚合操作. 下卷: --是上钻的逆操作.它由不太详细的数据到更详细的数据.钻取可以通过沿维的概念分层向下或引入新的维来实现. 切片:--设有(维1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维I,…,维n,观察变量)在维i上的一个切片. 切块:--将完整的数据立方体切取一部分数据而得到的新的数据立方体. 在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块. 二、简述 1、KDD的主要过程 KDD过程是多个步骤相互连接、反复进行人机交互的过程。 主要包括以下步骤: 1.问题的理解和定义:数据挖掘人员与领域专家合作.对问题进行深入的分析.以确定可能的解决途径和对学习结果的评测方法。 2.相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。 3.数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。 4.数据工程:对数据进行再加工.主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配.这个步骤可能反复多次。 5.算法选择:根据数据和所要解决的问题选择合适的数据挖掘算法.并决定如何在这些数据上使用该算法。 6.运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。 7.结果的评价:对学习结果的评价依赖于需要解决的问题.由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是KDD 过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。 2、操作数据库系统与数据仓库的区别 OLTP和 OLAP的主要区别概述如下: 用户和系统的面向性:OLTP 是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。OLAP 是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。 数据内容:OLTP 系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。 数据库设计:通常,OLTP 系统采用实体-联系(ER)模型和面向应用的数据库设计。而 OLAP 系统通常采用星形或雪花模型和面向主题的数据库设计。 视图:OLTP系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,OLAP 系统常常跨越数据库模式的多个版本。OLAP 系统也处 理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,OLAP 数据也存放在多个存储介质上。 访问模式:OLTP 系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。然而,对 OLAP 系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。 OLTP 和 OLAP 的其它区别包括数据库大小、操作的频繁程度、性能度量等。 OLTP系统和 OLAP 系统的比较 特性 OLTP OLAP 特征 操作处理 信息处理 面向 事务 分析 用户 办事员、DBA、数据库专业人员 知识工人(如经理、主管、分析员) 功能 日常操作 长期信息需求,决策支持 DB 设计 基于E-R,面向应用 星形/雪花,面向主题 数据 当前的;确保最新 历史的;跨时间维护 汇总 原始的,高度详细 汇总的,统一的 视图 详细,一般关系 汇总的,多维的 工作单位 短的、简单事务 复杂查询 存取 读/写 大多为读 关注 数据进入 信息输出 操作 主关键字上索引/散列 大量扫描 访问记录数量 数十个 数百万 用户数 数千 数百 DB规模 100MB到GB 100GB到TB 优先 高性能,高可用性 高灵活性,端点用户自治 度量 事务吞吐量 查询吞吐量,响应时间 其中:OLTP指联机事务处理 OLAP指联机分析处理 3、如果面对学校数据库,你认为数据挖掘的目标是什么? 4、比较星型模式,雪花模式和事实星座模式 5、你了解的信息检索模型幷简要叙述其思想 6、数据挖掘的相关领域及主要的数据挖掘方法 数据挖掘的相关领域: 1. 金融数据分析的数据挖掘 · 为多维数据分析和数据挖掘设计和构造数据仓库 · 贷款偿还预测和顾客信用政策分析 · 针对定向销售的顾客分类和聚类 · 洗黑钱和其他金融犯罪的侦破 2. 零售业的数据挖掘 · 基于有效数据挖掘的数据仓库的设计和构造 · 销售,顾客,产品,时间和地区的多维分析 · 促销活动的有效性分析 · 顾客保持力――顾客忠诚度分析 · 产品推销和产品的交叉推动 3. 电信业的数据挖掘 · 电信数据的多维分析 · 盗用模式分析和异常模式识别 · 多维关联和序列模式分析 · 移动通信服务 · 电信数据分析中可视化工具的使用 4. 生物学数据分析的数据挖掘 · 异构分布基因组和蛋白质组数据库的语义集成 · 多核苷、蛋白质序列的对比、索引,相似性搜索和比较分析 · 结构模式的发现、遗传网络和蛋白质路径的分析 · 关联和路径分析:识别同时出现的基因序列、把基因与疾病的不同阶段链接 · 基因数据分析中的可视化工具 5. 其他科技应用的数据挖掘 · 数据仓库和数据库预处理 · 挖掘复杂数据类型 · 基于图的挖掘 · 可视化工具和特定领域知识 数据挖掘的方法: 可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。 7、数据挖掘涉及的数据类型- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 部分 作业 答案
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【xrp****65】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【xrp****65】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【xrp****65】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【xrp****65】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文