分享
分销 收藏 举报 申诉 / 11
播放页_导航下方通栏广告

类型数据分析与应用模拟试卷期末考试卷带答案测试卷.docx

  • 上传人:w****g
  • 文档编号:3266857
  • 上传时间:2024-06-27
  • 格式:DOCX
  • 页数:11
  • 大小:105KB
  • 下载积分:8 金币
  • 播放页_非在线预览资源立即下载上方广告
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 分析 应用 模拟 试卷 期末 考试卷 答案 测试
    资源描述:
    模拟试卷 一、 单项选择题(本大题共15小题,每小题2分,共30分) 1、下列用来描述一组数据的平均水平的是 [ ] A.均值 B.标准差 C.偏度 D.峰度 2、下列用来描述数据的波动程度的是 [ ] A.中位数 B.均值 C. 方差 D.偏度 3、在SPSS中双定性变量适合绘制下面那种图形 [ ] A.堆积百分比图 B.箱线图 C. 直方图 D.散点图 4、在SPSS中双定量变量适合绘制下面那种图形 [ ] A.堆积百分比图 B.箱线图 C. 直方图 D.散点图 5、在SPSS中一个定性变量、一个定量变量适合绘制下面那种图形 [ ] A.堆积百分比图 B.箱线图 C. 直方图 D.散点图 6、下列属于定性变量的是 [ ] A.年龄 B.驾龄 C.性别 D.销量 7、以下不属于定量变量的是 [ ] A.婚姻 B.收入 C.工龄 D.体重 8、以下哪个变量适合做线性回归的因变量 [ ] A.是否购买 B.是否出险 C.是否恋爱 D.房价 9、以下哪个变量适合做逻辑回归的因变量 [ ] A.客户是否流失 B.酒店价格 C.二手房价 D.以上都不正确 10、因子分析的作用是 [ ] A.分类 B.降维 C.回归 D.以上都不正确 11、关于聚类分析,下列说法错误的是 [ ] A.聚类就是把“类似”的对象聚到一起 B.聚类分析首先要确定特征指标 C.聚类分析中刻画相似度方法只有欧式距离 D.层次聚类法是聚类分析的一种 12“物以类聚,人以群分”与下列哪个模型特征相似 [ ] A.线性回归 B.逻辑回归 C.聚类分析 D.因子分析 13、以下哪个因变量可以用线性回归模型进行分析 [ ] A.大学生薪资影响因素分析 B.信用卡是否逾期 C.某用户是否患胃病的预测 D.明天是否降雨的预测 14、线性回归模型的整体评价,不包括以下哪一项 [ ] A.F检验的结果 B.调整的R方 C.AUC值 D.R方的大小 15、关于聚类分析的要点,错误的是 [ ] A.根据不同的特征指标聚出的类是不同的 B.定义什么是“相似的研究对象” C.层次聚类就是k均值聚类 D.如何归类 二、多项选择题(本大题共5小题,每小题4分,共20分)在每小题列出的五个备用选项中至少有两个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选、少选或未选均无分。 16、SPSS可以实现以下哪些分析? [ ] A.频率分析 B. 线性回归分析 C.因子分析 D.聚类分析 E.逻辑回归分析 17、关于线性回归模型,描述正确的是 [ ] A.模型简单 B.可解读性较高 C.在实际数据分析中很常用 D.因变量是定性数据 E.解决的是分类问题 18、以下关于直方图,描述正确的是 [ ] A.一般用于定性数据 B.反映数据的分布情况 C.显示数据的对称性 D.纵轴可表示频数 E.一般用于定量数据 E.明确要研究的问题,指出可能的商业价值 19、以下属于线性回归基本假设的有 [ ] A. 误差项ε的期望为0 B. 误差项ε的方差相等 C. 误差项ε相互独立 D. 误差项ε服从正态分布 E.以上都不对 20、以下场景可以利用逻辑回归的有 [ ] A.NBA球员薪资影响因素 B.顾客是否购买某产品 C.火锅团购订单数分析 D.学生对本课程是否满意 E.判断信用卡用户是否逾期 三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。 21、当变量较多,且相关性较强时比较适合使用因子分析。 [ ] 22、中位数是排序后位于中间的一位数或两位数的平均值。 [ ] 23、K均值聚类法就是一层一层地聚。 [ ] 24、二分类问题一般可以使用逻辑回归分析。 [ ] 25、逻辑回归预测出来的是Y=0的概率。 [ ] 四、简答题(本大题共2小题,每小题5分,共10分) 26、茶及茶文化是大众生活中不可缺少的重要内容,但在电商平台上不同的茶叶销量差异很大,现想对影响茶叶销量的影响因素进行分析。以某电商在售茶叶数据为例(见表1),请根据茶叶数据回答以下问题。 表1:茶叶数据样例 标题 价格 销售量 好评率 品牌 产品毛重 商品产地 2017新茶云雾绿茶4盒共500克一杯香茶叶明前春茶毛尖 86 96000 100% 一杯香 125 云南省 乐品乐茶 2017新茶 茶叶 绿茶 雀舌茶 59 32000 97% 乐品乐茶 210 安徽省 买2件送精美西施砂壶 印象堂茶叶 39.8 40000 97% 印象堂 100 云南省 立顿(Lipton) 茶叶 红茶 黄牌精选红茶100包 200g (新老包装随机发货) 39.9 82000 97% 立顿 280 安徽省 乐品乐茶 2017新茶 茶叶 绿茶 99 26000 97% 乐品乐茶 450 安徽省 【首件26元买2送1再送杯】安溪铁观音茶叶散装 40 20000 95% 蓝翼 250 福建省 …… …… …… …… …… …… …… (1) 请围绕问题说明数据中的因变量和自变量。 (2) 请说明数据中的定量变量和定性变量。 27、收集了北京二手房数据,并对影响房价的影响因素进行分析,请根据北京二手房房价的描述分析图回答以下问题: (1)对北京二手房价的直方图进行解读,房价单位:元/平米。 频率 房价 图1:二手房价直方图 (2)对箱线图进行解读。 房价 城区 图2:城区与单位房价的箱线图 五、案例分析(本大题共3小题,每小题10分,共30分) 28、北京市房地产市场是我国最为发达、最具代表性的房地产市场之一。因此以北京二手房为研究对象,通过线性回归分析探究了学区、地铁、房屋面积等相关因素对二手房价(单位:万元/平米)的影响作用,建立了线性回归模型,得到模型结果见表2。 表2:线性回归模型结果 变量 回归系数 p值 备注 截距项 3.315 <0.001 城区-丰台 0.131 0.002 基准组:石景山区 城区-朝阳 0.875 <.001 城区-东城 2.443 <.001 城区-海淀 2.191 <.001 城区-西城 3.705 <.001 学区房 1.183 <.001 基准组:无学区 地铁房 0.672 0.003 基准组:不邻近地铁 楼层-中层 0.152 <.001 基准组:高层 楼层-低层 0.198 <.001 客厅-有 0.163 <.001 基准组:无客厅 卧室数 0.111 0.611 房间面积 -0.002 <.001 F检验 p值<0.0001 调整的R2 0.7901 请根据以上建模结果回答如下问题。 (1) 在5%的显著性水平下,对模型整体显著性和模型拟合效果进行解读。 (2) 在5%的显著性水平下,哪些自变量对因变量是有显著影响的,并说明原因。 (3) 在5%的显著性水平下,分别对学区房、楼层、房间面积这3个变量的回归系数进行解读。 29、伴随着信用卡的普及,持卡人的消费、还款等信用卡使用行为已经成为个人征信的重要依据。本案例以是否逾期为因变量建立了逻辑回归模型,模型结果见表3。 表3:逻辑回归模型结果 变量 回归系数 P值 备注 截距项 -0.137 <0.001 性别-女性 -0.268 <0.001 基准组:男性 信用卡使用率 0.544 <0.001 信用卡额度 -0.477 <0.001 房贷-有贷款 -0.430 <0.001 基准组:无房贷 历史逾期行为-有逾期 1.624 <0.001 基准组:无历史逾期 开户行为-有开户 0.015 0.058 基准组:无开户行为 全模型似然比检验 p值<0.001 同时,绘制了模型的ROC曲线,并计算AUC值为:0.755。基于逻辑回归模型的结果,得到如下混淆矩阵,见表4。 表4:混淆矩阵 预测值 真实值 未逾期 逾期 总计 未逾期 2491 727 3218 逾期 1845 3308 5153 总计 4336 4035 8371 请根据上面案例分析结果回答如下问题。 (1) 在5%的显著性水平下,模型整体是否显著,说明原因。 (2) 在5%的显著性水平下,哪些变量对逾期有显著影响。 (3) 在5%的显著性水平下,对有显著影响的变量系数进行解读。 (4) 根据混淆矩阵的结果,计算整体错判率、TPR、FPR。 30、当前有8个裁判对300名选手打分,最低分为1分,最高分为10分;希望对8个裁判进行聚类,以识别出裁判的风格类型。得到聚类树状图见图3。 图3:聚类树状图 根据图中数据回答以下问题: (1) 请写出如何将图1的裁判聚类树状图按照编号划分为3类; (2) 请根据(1)中的类别,分别写出这三类裁判的编号。 模拟试卷答案 二、 单项选择题(本大题共15小题,每小题2分,共30分) 1-5 ACADB 6-10 CADAB 11-15 CCACC 二、多项选择题(本大题共5小题,每小题4分,共20分) 16 ABCDE 17 ABC 18 BCDE 19 ABCD 20 BDE 三、判断题(本大题共5小题,每小题2分,共10分)请在每小题的对应的括号内填写,正确的涂写T,错误的涂写F。 21-25 TTTTF 四、简答题(本大题共2小题,每小题5分,共10分) 26(1)因变量:销售量;自变量:价格、好评率、品牌、产品毛重、商品产地。 (2)定量变量:销售量、价格、好评率、产品毛重。 定性变量。品牌、商品产地。 27(1)图中横坐标表示房价分布,纵左边表示频数。北京二手房价主要集中在40000-50000元/平米之间,平均房价为61151元/平米,分布呈现右偏分布,即存在少量的高价房。 (2)图中横坐标表示城区,纵左边表示了房价。从箱线图可以看出不同城区的平均房价有明显差异,西城区的平均房价最高、丰台区的平均房价最低。 五、案例分析(本大题共3小题,每小题10分,共30分) 28(1) 整体检验:F检验p<0.05 模型整体显著 拟合效果:调整后的R2为0.7901,拟合效果较好,表示解释变量能解释因变量变异程度的79.01%。 (2)显著的变量:城区、学区房、地铁房、楼层、客厅、房间面积。或者写:除去卧室数其他变量都显著。 因为这些自变量所对应的P值小于0.05 。 (3)在控制其他因素不变的情况下, 学区房:学区房比无学区的房价贵,平均每平米贵1.183万元。 楼层:高层的房价最低,底层的房价贵高。中层的房子平均每平米比高层贵0.152万元,低层的房子平均每平米比高层贵0.198万元。 房间面积:房屋面积越大,房价越低。房屋面积每增加1平米,房价平均降0.002万元。 29、(1)整体检验:似然比检验p<0.05 模型整体显著。 (2)有显著影响的变量:性别、信用卡使用率、信用卡额度、房贷、历史逾期行为。 (3)在5%的显著性水平下,控制其他因素不变: 性别:女性逾期可能性比男性低。 信用卡使用率:信用卡使用率越高逾期可能性越大。 信用卡额度:信用卡额度越大,逾期可能性越小。 房贷:有贷款的比没有贷款的逾期可能性小。 历史逾期行为:有逾期行为的比没有历史逾期行为的逾期可能性大。 (4)错分率:(727+1847)/8371=30.72% TPR:3308/5153=64.19%; FPR:727/3218=22.59%。 30、(1)在横坐标等于0.2处用垂直的一条线与谱系聚类图相交,总共有3个交点,可将数据分为3类; (2)第一类:8 第二类:5、3、7 第三类:1、6、2、4
    展开阅读全文
    提示  咨信网温馨提示:
    1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
    2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
    3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
    4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
    5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
    6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

    开通VIP折扣优惠下载文档

    自信AI创作助手
    关于本文
    本文标题:数据分析与应用模拟试卷期末考试卷带答案测试卷.docx
    链接地址:https://www.zixin.com.cn/doc/3266857.html
    页脚通栏广告

    Copyright ©2010-2026   All Rights Reserved  宁波自信网络信息技术有限公司 版权所有   |  客服电话:0574-28810668    微信客服:咨信网客服    投诉电话:18658249818   

    违法和不良信息举报邮箱:help@zixin.com.cn    文档合作和网站合作邮箱:fuwu@zixin.com.cn    意见反馈和侵权处理邮箱:1219186828@qq.com   | 证照中心

    12321jubao.png12321网络举报中心 电话:010-12321  jubao.png中国互联网举报中心 电话:12377   gongan.png浙公网安备33021202000488号  icp.png浙ICP备2021020529号-1 浙B2-20240490   


    关注我们 :微信公众号  抖音  微博  LOFTER               

    自信网络  |  ZixinNetwork