数据仓库与数据挖掘技术复习资料.doc
《数据仓库与数据挖掘技术复习资料.doc》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术复习资料.doc(9页珍藏版)》请在咨信网上搜索。
1、数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部分 ( C ) A数据、模型、技术 B算法、技术、领域知识 C数据、建模能力、算法与技术 D建模能力、算法与技术、领域知识2.关于基本数据的元数据是指: ( D )A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。3. 关于OLAP和OLTP的说法,下列不正确的是: ( A)AOLAP事务量大,但事务内容比较简单且重复率高BO
2、LAP的最终数据来源与OLTP不一样COLTP面对的是决策人员和高层管理人员DOLTP以应用为核心,是应用驱动的4将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5下面哪种不属于数据预处理的方法? ( D )A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6. 在ID3 算法中信息增益是指( D ) A.信息的溢出程度 B.信息的增加效益C.熵增加的程度最大 D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. AN
3、N8. 以下哪项关于决策树的说法是错误的( C )A冗余属性不会对决策树的准确率造成不利的影响B子树可能在决策树中重复多次C决策树算法对于噪声的干扰非常敏感D寻找最佳决策树是NP完全问题9. 假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间0,1,若采用最大最小数据规范方法,计算结果是( A )A. 0.25 B. 0.375 C.0.125 D. 0.5 10. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样 B.无放回的简单随机抽样C.分层抽样 D.渐进抽样11. 当不知道数据所带标签时,可以使用
4、哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B) A. 分类 B.聚类 C. 关联分析 D. 隐马尔可夫链12. 设X=1,2,3是频繁项集,则可由X产生( C )个关联规则。A.4 B.5 C.6 D.713.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。 AMIN(单链) BMAX(全链) C组平均 DWard方法14. 只有非零值才重要的二元属性被称作:( C )A.计数属性 B.离散属性C.非对称的二元属性 D.对称属性15. 在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。A.曼哈顿距离
5、B.平方欧几里德距离 C.余弦距离 D.Bregman散度16. 下面关于数据粒度的描述不正确的是: ( C )A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细,粒度就越小,级别也就越高C. 数据综合度越高,粒度也就越大,级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量17. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( B ) A.聚类 B.关联规则发现 C.分类 D.自然语言处理18. OLAP技术的核心是: ( D )A.在线性 B.对用户的快速响应 C. 互操作性 D.多维分析19下面哪种不属于数据
6、预处理的方法? ( D )A.变量代换 B.离散化 C. 聚集 D.估计遗漏值 20. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等深划分时,15在第几个箱子内? ( B )A.第一个 B.第二个 C.第三个 D.第四个21. 上题中,等宽划分时(宽度为50),15又在哪个箱子里? ( A )A.第一个 B.第二个 C.第三个 D.第四个 22. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: ( B )A.1bit B.2.6bit C.3.2b
7、it D.3.8bit23. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( D )A.0.821 B.1.224 C.1.458 D.0.71624. 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:( A )A. 18.3 B
8、. 22.6 C. 26.8 D.27.925.给定两个对象,分别用元组(22,1,42,10)和(20,0,36,8)表示,则这两个对象之间的曼哈坦距离为:( ) A.5 B.11 C.2.92 D.2.2426. 概念分层图是( B )图。A.无向无环 B.有向无环 C.有向有环 D.无向有环27. 假设A为事件“产品合格”,B为“机器工作正常”,现给出以下概率:机器工作正常,生产产品合格的概率为P(A|B)=0.95;机器不正常工作时,生产产品合格的概率为=0.1;机器正常工作的概率,即P(B)=0.9。已知生产了一个不合格品,机器不正常工作的概率,即是( )。A.0.90 B.0.33
9、3 C.0.667 D.0.05二、填空题1数据仓库是面向主题的、( 集成的 )、( 具有特性的 )、稳定的数据集合,用以支持经营管理中的决策制定过程。2OLAP的基本多维分析操作有(聚类 )、切片、切块以及( 旋转 )等。3.多维数据集通常采用 ( 星型 )或雪花型架构,以( 事实 )为中心,连接多个( 维表 )。4.空缺值数据的处理方法主要有使用默认值、(属性平均值)、(同类样本平均值)和预测最可能的值等。5平均互信息等于( 信息 )熵减( 条件 )熵,表示不确定性的消除。6.神经网络的学习方式有3种:( 监督学习 )、( 非监督学习 )和再励学习(强化学习)。7.聚类分析的数据通常可分为
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 数据 挖掘 技术 复习资料
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。