大数据基础与实务(商科版)Python软件操作手册1.docx
《大数据基础与实务(商科版)Python软件操作手册1.docx》由会员分享,可在线阅读,更多相关《大数据基础与实务(商科版)Python软件操作手册1.docx(25页珍藏版)》请在咨信网上搜索。
实训操作手册 完成模型建模后,输出模型的性能指标,运行后得出模型准确率为0.89, 总体来说预测准确性还是比较高的,也就是说设置的参数是合理的。 5,结果可视化 通过绘制散点图,将实际的类别与预测类别进行可视化呈现,在图中可以看 出,红色区域为类别0的红酒,绿色区域为类别1的红酒,绿色区域为类别2 的红酒,。整体来说,类别之间别介划分比较明确,类别0和1的红酒几乎没有 划分错误,整体来说分类效果还是不错的。 Classifier:(k = 15, weights = 'distance') (二)具体操作: 操作方法与“任务一 逻辑回归应用之泰坦尼克生还分析"的操作一致,在此不再赘述。注意:操作时,需在“任务二基于“KNN”分类算法的红酒分 类"中操作,不然会导致实训内容不正确。 任务三 基于“线性回归”的房价分析 点击任务三按钮,进入“任务三基于“线性回归”的房价分析"任务,如 图 1-8。 2 2 2 2 心猫述 图1-8基于“线性回归”的房价分析 在该任务中,以波士顿房价数据集的线性回归为例,通过模型训练,分析影 响房价的因素。 (一)实验设计: 1. 导入库和数据 代码模板已自动加载在服务器中的"boston_house_prices”数据集,请在 开始实验前查看下发的数据集,预先了解数据特征。 属性 属性含义 属性类型 CRIM 城镇人均犯罪率 连续 ZN 住宅用地所占比例 连续 INDUS 城镇中非住宅用地所占比例 连续 CHAS 虚拟变量 连续 NOX 环保指数 连续 RM 每栋住宅的房间数 连续 AGE 1940年以前建成的自主单位 的比例 连续 DIS 距离5个波士顿的就业中心的 加权距离 连续 RAD 距离高速公路的便利指数 连续 TAX 每一万美元的不动产税率 连续 PTRATIO 城镇中的教师学生比例 连续 B 城镇中的黑人比例 连续 LSTAT 地区中有多少房东所属低收 入人群 连续 MEDV 均价 连续 2. 数据可视化 将"boston_house_prices"数据集加载到power bi中,在"报表"中添加 散点图,将“Medv”作为图的y轴,剩余字段分别作为图的X轴,数值不求和。 境&上佟向 2 ® Gs 。E d& 15组Q2通过图分析,可知RM' , LSTAT, , 'PTRATIO'特征与房价的具有明显线性相关性。 3, 数据处理 (1)异常数据处理 通过绘制散点图可知,数据集中有16个目标值值为50.0的数据点需要被移 除,根据散点图分析,通过图分析,可知RM' , LSTAT' , 'PTRATIO'特征与房 价的具有明显线性相关性。所以,将其余不相关特征移除。 (2)数据分割 数据集基本行列确定后,进行数据分割,将20%的数据集作为测试集。 (3)数据归一化 通过上面的散点图可得,每个特征的数据范围相差较大,为了加快梯度下降 求最优解的速度,将它们进行归一化处理,均转化为0~1之间的数据。 4, 模型训练和评估 (1)采用线性回归模型进行训练 (2)使用R2_score对模型评估 r2_score()函数计算R“2,即确定系数,可以表示特征模型对特征样本预测的好坏。 :件名:xxhgLpng模型评估得分:o. 7091901425426 模型最终得分为0.71,说明模型建模效果还可以,一般认为达到0.7即认 为模型效果是可接受的。 5, 折线图可视化 绘制折线图,查看预测房价和实际价格的差别,从下图可知实际价格与预测 价格曲线之间走向还是比较吻合。 波士顿房屋的预测价格和实际价格 波士顿房屋的预测价格和实际价格 波士顿房屋的预测价格和实际价格 波士顿房屋的预测价格和实际价格 1.0- 0.8 - 0.6- 0.2 - 0.0 - 0 20 40 60 80 100 冬 0.4 - (二)具体操作: 操作方法与“任务一 逻辑回归应用之泰坦尼克生还分析”的操作一致, 在此不再赘述。注意:操作时,需在“任务三基于“线性回归"的房价分析" 中操作,不然会导致实训内容不正确。 任务四 基于“关联规则"的购物篮分析(数据探索分析) 点击任务四按钮,进入“任务四基于“关联规则"的购物篮分析(数据探索分析)"任务,如图l-9o图1-9任务四基于“关联规则"的购物篮分析(数据探索分析) 根据任务背景与实训要求,对超市的销售数据进行分析,分析热销商品、商 品结构。 (一)实验设计: 1. 导入库和数据 代码模板已自动加载在服务器中的"GoodsOrder"和"GoodsTypes"数据集, 其中请在开始实验前查看下发的数据集,预先了解数据特征。其中“GoodsOrder" 数据集存储了销售出去的商品,“GoodsTypes"数据集存储了商品的类目。 2. 数据探索分析 (1)分析热销商品 商品热销情况分析是商品管理不可或缺的一部分,热销情况分析可以助力于 商品优选。计算销量排行前10商品的销量及占比,并绘制条形图显示销量前10 商品的销量情况。 商品的销量T0P10比5. 795%;其次是其他蔬菜、面包卷和苏打,占比分别为4. 388%>4. 171%.3. 955%。 (2)分析商品结构 对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略 和位置,若是某类商品较为热销,商场可以把此类商品摆放到商场的中心位置, 方便顾客选购。或者放在商场深处位置,使顾客在购买热销商品前经过非热销商 品,增加在非热销商品处的停留时间,促进非热销产品的销量。 原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重 叠,故再次对其进行归类处理。分析归类后各类别商品的销量及其占比,并绘制 饼图显示各类商品的销量占比情况。 每类商品销量占比 通过分析各类别商品的销量及其占比情况可知,非酒精饮料、西点、果蔬三 类商品销量差距不大,占总销量的50%左右,同时,根据大类划分发现和食品相 关的类的销量总和接近90%,说明了顾客倾向于购买此类产品,而其余商品仅为 商场满足顾客的其余需求而设定,并非销售的主力军。 进一步查看销量第一的非酒精饮料类商品的内部商品结构,并绘制饼图显示 其销量占比情况。 非酒精饮料内部各商品的销量占比水果/蔬菜汁 通过分析非酒精饮料内部商品的销量及其占情况可知,全脂牛奶的销量在非 酒精饮料的总销量中占比超过33%,前3种非酒精饮料的销量在非酒精饮料的总 销量中占比接近70%,说明了大部分顾客到店购买的饮料为这三种,需要时常注 意货物的库存,定期补货必不可少。 (二)具体操作: 操作方法与“任务一逻辑回归应用之泰坦尼克生还分析”的操作一致, 在此不再赘述。注意:操作时,需在“任务四 基于“关联规则"的购物篮分 析(数据探索分析)”中操作,不然会导致实训内容不正确。 任务五 基于“关联规则"的购物篮分析(关联分析) 点击任务五按钮,进入进入“任务五 基于“关联规则”的购物篮分析(关联分析)"任务,如图l-10o SpartRlBK分番 | MahcxrtBW® I S^rk V!遇:阪开SSH: Python ■ Witt «/F ★行 注HI岌&辱出BT#图1-10任务五基于“关联规则”的购物篮分析(关联分析) 根据任务背景与实训要求,使用apriori算法,设定关联规则的最小支持度 和可信度,对超市的销售数据进行关联规则查找。 (一)实验设计: 1. 导入库和数据 代码模板已自动加载在服务器中的"GoodsOrdcr”和“GoodsTypcs”数据集, 其中请在开始实验前查看下发的数据集,预先了解数据特征。其中“GoodsOrdcr” 数据集存储了销售出去的商品,“GoodsTypes"数据集存储了商品的类目。 2. 数据预处理 对待分析数据进行处理,根据id对“Goods"列合并,使用“,”将各商品 隔开,对合并的商品列转换为列表的数据格式,并分割商品名为每个元素。 3. 数据处理模型构建 模型主要由输入、算法处理、输出3个部分组成。输入部分包括:建模样本 数据的输入;建模参数的输入。算法处理部分是采用Apriori关联规则算法进行 处理。 模型具体实现步骤为:首先设置建模参数最小支持度、最小置信度,输入建 模样本数据;然后采用Apriori关联规则算法对建模的样本数据进行分析,以模 型参数设置的最小支持度、最小置信度以及分析目标作为条件,如果所有的规则 都不满足条件,则需要重新调整模型参数,否则输出关联规则结果。 目前,如何设置最小支持度与最小置信度,并没有统一的标准。大部分都是 根据业务经验设置初始值,然后经过多次调整,获取与业务相符的关联规则结果。 本案例经过多次调整并结合实际业务分析,选取模型的输入参数为:最小支持度 0.02、最小置信度0. 35O 根据运行结果,我们得出了 23个关联规则。根据规则结果,可整理出购物 篮关联规则模型结果,如下图所示。 ,支持~. 0 074835. ■信度:*. 0 386758.*. 1 513634)(frozenMt((JKV)*l). —frozemet((-全IB牛«)1). •支Mft*. 0 05^024. ■<*«: *. 0 401603.*. 1.571735) •椎圣矣;! =*->•. ffOzenwtCC全福牛WI).'支持度,0 04W07. I信度:・.0. 448694 .,/2值为:*. 1.756031)(frweriMtdfeczwiMt«-MfeaS I). ,支椅* 0 047382. ■信度:\ 0 434701.*. 2 246605)SozssU「热带木是1).・一)."ozssUr仝,牛灿 1)..支椅度'.0 042298. ■信度:\ 0.403101. liftttAi *. 1.577S95) (frozcAMtCCfl^'D.・一>・.frozemet((-全IB牛奶)).•支Hft*. 0 0JJ249. '■[信度:0 373714.1.462W7)(froztctetCl MV)a,l). •->*. fro2en*ct(C全曜牛奶”)・.夏妫AT 0 032232. •置信度:二 0 449645. 为:*. 1. 7W7M) (frw^s«t((•—>*.frez«nm(r全版牛灿})・'支拎度’0 030503.■信度:\ 0 36B55为:二 1 442377)("<«5皿((.仁H类水JTD.->•.frc^wiMtCC全版牛奶}).•支».«,0 030097.■信度;・.0 397849值为;・. 1.557043) (frozenMtd"ozssUr 全Itt牛奶")・.支椅度’.0 O2W5. * I信度:\ 0.472756.*. 1- MO2O3)奶话 一〉.. fscnseUJUMWrn. ^JMT. 0 028876. Itta: 0.402837. I.ftfll为:\ 2 O«1W4)(frozectetd—>*. frozenwtfC全曜牛奶 J)・•支特flT. 0 027SS5.置信度:,0 497248.1.946053)MSit ».」>,. froientetd-全壬牛时}). 支椅度0.02664, |信度:\ 0 368495*, 1 44216)(frW«nMt(( »511). —>\ froz««Mt(C全®i牛VH).’支持It'. 0 026131. '■信度L. 0 4W58.\ 1.91948DSozssU(“面包。).•—>*. frMtnMt(C^®4WI). •支M4*. 0 025216. 1<2«: *. 0 388715. W”值为L. 1.52183) SnssUC 人适黄"|)・fn>zsst((・全 IB 牛州|).,支待度、0 024199. 1 信度:*. 0. 413194.,为:*. 1.6170W)(frozectetCC 全曜牛奶,.崔芟笑•->*. frozentet (CI).'支椅AT. 0 023183. «fS 度:*. 0.474012. •I.ftfll 为:\2. 44^77) (frwenMt(( KW.'全ii牛«T)).froztnttt(rMtta« D. 1 支持度.0 022267. ■«!; •. 0 397459. Mift值为:\ 2.054131)•—>・.frozem^t((-全■牛奶)).•支持It'. 0 022166. •■信度:*. 0 38448.\ 1.50471?)->•. frozem«t((-M<ta® J). •支0 021667. !«!«: *. 0 375661,1.941476)SozssU(牛打)).->•, froiemet((-全曜牛敏】)・•支拊AT 0 021251. •■信度:二 0 405039.值为:*. 1.58S18) (frw«^Mt(C冷冻离盆")・.一>・. frw^MtCC全IB牛WI). •支MS* 0 020437. - ■信度:*. 0 424947.*. 1 669094)(frW^Mt(( MA D.0 020031. •■信度;二 0 361468.*. 1.8«1?2) 根据上图中的输出结果,对其中4条进行解释分析如下。 (1) {‘其他蔬菜'}=>{'全脂牛奶',}支持度为7.48%,置信度最大为38. 68%0 说明同时购买酸奶,其他蔬菜和全脂牛奶这3种商品的概率达38.68%,而这种 情况发生的可能性为7. 48%。 (2) {'酸奶'}=>{'全脂牛奶'}支持度最大为5.60%,置信度为40.16%。 说明同时购买其他蔬菜和全脂牛奶这2种商品的概率达40. 16%,而这种情况发 生的可能性为5. 60%o (3) ('根茎类蔬菜'}=>{'全脂牛奶'}支持度为4. 89%,置信度为44. 87%O 说明同时购买根茎类蔬菜和全脂牛奶这三种商品的概率达44. 87%,而这种情况 发生的可能性为4. 89%o (4) ('根茎类蔬菜'}=>{'其他蔬菜'}支持度为4. 74%,置信度为43.47%。 说明同时根茎类蔬菜和其他蔬菜这2种商品的概率达43. 47%,而这种情况发生 的可能性为4. 74%o 综合上图的输出结果分析,顾客购买黄油时候会同时购买全脂牛奶,其置信 度最大达到49. 72%0其他蔬菜、根茎类蔬菜和全脂牛奶同时购买的概率较高。 对于模型结果,从购物者角度进行分析:现代生活中,大多数购物者为家庭煮妇,目录一、“案例三单项实训-数据挖掘”1任务一 逻辑回归应用之泰坦尼克生还分析1 图1-1逻辑回归应用之泰坦尼克生还分析1 (一)实验设计:1 (二)系统操作:2 图1一2 添加项目2 2.参数填写2 图1-3数据向导3 图1-4数据向导/输入参数3 图1-5代码执行4 图1-6 查看结果4任务二 基于“KNN"分类算法的红酒分类4 图1-7基于“KNN"分类算法的红酒分类5 (一)实验设计:5 (-)具体操作:5任务三 基于“线性回归"的房价分析5 图1-8基于"线性回归"的房价分析6 (一)实验设计:6 (二)具体操作:7任务四 基于“关联规则"的购物篮分析(数据探索分析)7 图1-9任务四 基于“关联规则"的购物篮分析7 (一)实验设计:7 (二)具体操作:10任务五 基于“关联规则"的购物篮分析(关联分析)10 图1-9任务四 基于“关联规则"的购物篮分析10 (一)实验设计:10 (二)具体操作:11任务六 基于“聚类模型"的RFM客户分层(k值分析)12 图1-9任务四 基于“关联规则"的购物篮分析12 (一)实验设计:12 (-)具体操作:12任务七 基于“聚类模型"的RFM客户分层(聚类分析)12 图1-9任务四 基于“关联规则"的购物篮分析13 (一)实验设计:13 (二)具体操作:13任务八 基于“层次聚类"的主要进出口国家及地区分析13 图1-9任务四 基于“关联规则"的购物篮分析14 (一)实验设计:14 (二)具体操作:14 购买的商品大部分是食品,随着生活质量和健康意识的增加,其他蔬菜、根茎类 蔬菜和全脂牛奶均为现代家庭每日饮食所需品,因此,其他蔬菜、根茎类蔬菜和 全脂牛奶同时购买的概率较高符合现代人们的生活健康意识。 (二)具体操作: 操作方法与“任务一 逻辑回归应用之泰坦尼克生还分析”的操作一致,在此不再赘述。注意:操作时,需在“任务五基于“关联规则”的购物篮分析 (关联分析)”中操作,不然会导致实训内容不正确。 任务六 基于“聚类模型"的RFM客户分层(k值分析) 点击任务六按钮,进入“任务六 基于“聚类模型”的RFM客户分层(k值 分析)"任务,如图l-llo任务六: . .一奋有二著拜多/成皎BfiffiS RtfttW 塞明BtWIg■与分 fi ERM分忻|心瑚08»震| a・ 开发语言:Python , 断it 保存 蜘行 注盼■各号由歌事 图1-11任务六基于“聚类模型"的R叫客户分层(k值分析) 在该任务中,需对客户进行聚类,首先确定聚类模型的k的个数。 (一)实验设计: 1. 导入库和数据 代码模板已自动加载在服务器中的“用户消费数据”数据集,其中请在开始 实验前查看下发的数据集,预先了解数据特征。 RFM是一种对用户质量进行聚类的模型,对应于三个指标。R(Recency):用 户最近一次消费的时间间隔,衡量用户是否存在流失可能性;F (Frequency):用 户最近一段时间内累计消费频次,衡量用户的粘性。M (Money):用户最近一段 时间内累计消费金额,衡量用户的消费能力和忠诚度。 此模型一般通过三个指标的均值将用户进行聚类。 2. 数据标准化 通过对每个指标数据分布情况进行分析,其数据的取值范围如下表所示。从 表中数据可以发现,三个指标的取值范围数据差异较大,为了消除数量级数据带 来的影响,需要对数据进行标准化处理。 属性名称 R F M 最大值 24.33 193 235687 最小值 0. 03 2 368 3. 选择合适的K值 采用3个指标综合判定聚类质量:CH、轮廓系数和inertia分数,第1和第 3均是越大越好,轮廓系数是越接近于1越好,从下面图标综合来看,聚为3类 效果比较好。 (二)具体操作: 操作方法与“任务一 逻辑回归应用之泰坦尼克生还分析”的操作一致, 在此不再赘述。注意:操作时,需在“任务六 基于“聚类模型"的RFM客户 分层(k值分析)”中操作,不然会导致实训内容不正确。 任务七 基于“聚类模型"的RFM客户分层(聚类分析) 点击任务七按钮,进入“任务七 基于“聚类模型"的RFM客户分层(聚类分析)"任务,如图l-12o图1-12任务七基于“聚类模型”的RFM客户分层(聚类分析) 在该任务中,通过聚类挖掘技术对用户进行深度挖掘分析,从价值角度对用 户进行细分,分析不同价值群体的用户特征。 (一)实验设计: 1. 导入数据集 代码模板已自动加载在服务器中的"用户消费数据"数据集,其中请在开始 实验前查看下发的数据集,预先了解数据特征。 2. K均值建模 客户价值分析模型构建主要由两个部分构成,第一个部分根据客户的R、F、 M指标数据,对客户作聚类分群。第二部分结合业务对每个客户群进行特征分析, 分析其客户价值,并对每个客户群进行排名。 采用K-Means聚类算法对客户数据进行客户分群,聚成三类。 3. 输出聚类结果 对数据进行聚类分群的结果如下表所示类别0数目:3879类别1数目:960类别2数目:161 类别为0、1和2的用户数分别为为3879、960个161。 4. 根据划分的类画散点图 针对聚类结果进行特征分析,绘制客户分群散点图,查看三类客户在消费金额和消费频次、消费金额和最近消费距今时间的表现,如下图所示。 k-means聚类 F-Mk-means聚类 R-M 根据以上特征分析的图表,说明不同用户类别的表现特征显著不同。基于该 特征描述,本案例定义3个等级的客户类别:重要保持客户,重要发展客户,重 要挽留客户,一般与低价值客户。 (1)重要保持客户(类别为2的客户群图):这类客户最近购买过本商城 商品(R较小),消费的次数(F)和金额(M)较高。他们是商城的高价值客户, 是最为理想的客户类型,对商城的贡献最大,所占比例却较小。应该优先将资源 投放到他们身上,对他们进行差异化管理和一对一营销,提高这类客户的忠诚度 与满意度,尽可能延长这类客户的高水平消费。 (2)重要发展客户。这类客户最近有购买过本商城商品(R居中),消费 的次数(F)和金额(M)较平均。他们是商城的潜在价值客户。虽然这类客户的 当前价值并不是很高,但却有很大的发展潜力。商城要努力促使这类客户增加在 本公司的消费,也就是增加客户的钱包份额。通过客户价值的提升,加强这类客 户的满意度,提高他们转向竞争对手的转移成本,使他们逐渐成为商城的忠诚客 户。 (4) 一般与低价值客户。这类客户最近没购买过本商城商品(R较大), 消费的次数(F)和金额(M)较低。他们是商城的一般用户与低价值客户,可能 是在打折促销时,才会购买本商城商品。 结合各个群体的数量分析可知,目前商城的重要保持客户数量占比非常少, 占比最多的是重要发展客户,为了保障商城的持续应收,应将运营重点放在重要 发展客户群体。 (二)具体操作: 操作方法与“任务一 逻辑回归应用之泰坦尼克生还分析"的操作一致, 在此不再赘述。注意:操作时,需在“任务七 基于“聚类模型"的RFM客户 分层(聚类分析)"中操作,不然会导致实训内容不正确。 任务八 基于“层次聚类"的主要进出口国家及地区分析 点击任务八按钮,进入“任务八基于“层次聚类”的主要进出口国家及地 区分析"任务,如图1-130任务八:■于.Sdwr的主wa出口ram咬分析 B_®~~®_•_•"-®眄唾依痊萱伺 RttttW ItWttW 教■与分析 SparkRMK)折| Spark M 虹淮 W 开发语合:Python .新・ 保存 晚行B出歌胸I*图1-13任务八基于“层次聚类"的主要进出口国家及地区分析 通过对主要合作国家和地区货物进出口金额、增长速度及其比重进行建模分 析,将合作伙伴进行分类。 (一)实验设计: 1. 导入数据 代码模板已自动加载在服务器中的“层次聚类"数据集,请在开始实验前查 看下发的数据集,预先了解数据特征。 2. 数据标准化处理 通过查看数据集可知,数据的量纲不同,用sklearn库的preprocessing 对数据进行标准化处理。由于数据矩阵小数位太多,看起来比较繁琐,对数据进 行四舍五入,保留3位小数。 3. 层次聚类 使用scipy库的cluster模块进行层次聚类建模,计算距离矩阵,使用余弦 距离作为距离计算度量,并根据距离矩阵聚类。 4. 将聚类结果可视化 通过构建树状图对聚类结果进行可视化。 层次聚类 由聚类图可知,欧盟,东盟,韩国,美国,日本(顺序不为排序)为一类, 是2019年我国的主要进出口国家及地区,而中国香港、中国台湾、俄罗斯、巴 西、印度、南非(顺序不为排序)为另一类,进出口额及增长情况低于第一类。 (二)具体操作: 操作方法与“任务一 逻辑回归应用之泰坦尼克生还分析”的操作一致, 在此不再赘述。注意:操作时,需在“任务六 基于“关联规则"的购物篮分 析(关联分析)”中操作,不然会导致实训内容不正确。 、“案例三单项实训-数据挖掘"任务一 逻辑回归应用之泰坦尼克生还分析 在【案例选择】下拉列表中,选择“案例四单项实训-数据挖掘(2)", 点击任务一按钮,进入“逻辑回归应用之泰坦尼克生还分析,如图1-1。 图1-1逻辑回归应用之泰坦尼克生还分析 在任务一中,对泰坦尼克号的乘客数据进行建模分析,分析乘客生存与否的 影响因素,并评估模型的准确性。 (一)实验设计: 1. 导入训练与测试数据集 代码模板已自动加载在服务器中的“泰坦尼克号"数据集,请在开始实验前 查看下发的数据集,预先了解数据特征。 数据集分为train和test两张表,分别用于训练与测试,可通过wps表格 或者excel表格的打开方式打开数据集,表中的字段说明如下: Passengerld:乘客 id Survived:存活,0代表没有生存1代表生存 Pclass :船舱等级,1最高,3最低。 Name:乘客姓名 Sex:性别 Age:年龄 SibSp:同行的兄弟姐妹或者朋友的数量 Parch:同行的父母或子女的数量 Ticket :船票号 Fare:船票价格 Cab in:客舱号码 Embarked:登船港口 2. 特征选取 通过对数据集进行简要分析可知,我们要分析的目标“乘客是否生存"这一 预测量与乘客id、乘客姓名、船票号码、船舱号等关系不大,可忽略它们,将 剩余列作为后续模型训练的特征。 3. 数据预处理 (1)缺失值处理 查看数据集可以看出,元数据集中有不少缺失值(例如id为6的乘客的年 龄数据缺失),在此选用最简单的缺失值处理办法,将包含缺失值的行全部舍弃。 PassengeiSurvived Pclass NaaeSexAge SibSp Parch Ticket ?arcCabin Embarked 10 3 Braund, Ifaale 22 1 0A/5 21171 7. 25 s 21 1 Cuiiings, female 38 1 OFC 17599 71. 2833 C85 c 31 3 Heikkinerfenale 26 0 0 ST0N/02. 7. 925 s 41 1 Futrelle, female 35 1 0113803 53.1 C123 s 50 3 Allen, Kinale 0 0373450 8. 05 s 60 3 Moran, Nimale 0 0330877 8. 4583 Q 70 1 McCarthy, nale 54 1 0 017463 51. 8625 E46 S 80 3 Palsson, male 2 3 1349909 21. 075 S 91 3 Johnson, fenale 27 0 2347742 11. 1333 s 101 2 Nasser, Wfeaale 14 1 0237736 30. 0708 c 11 1 3 Sandstronfemale 4 1 1 PP 9549 16. 7 G6 s 121 1 Bonnell, feaale 58 0 0113783 26. 55 C103 s 130 3 Saunderc<nale 20 0 0A/5. 2151 8.05 s (2)离散特征处理 在选取的特征中,pclass表示船票等级为有序分类变量,数值型数据;sex 和embarked为无序分类变量,字符型数据;age、sibsp、parch、fare为连续 变量。模型训练所需数据为数值型,因此要将sex和embarked转化为数值型。 4. 分割训练集和测试集 数据集基本行列确定后,进行数据分割,将30%的数据集作为测试集。 5. 连续特征处理 为了保证模型快速收敛,使用标准化方法对数据集中连续的数据列进行缩 放,然后将处理好的数据列再次拼接。 6. 建模和预测 使用sklearn中逻辑回归分类器进行训练与预测。 7. 逻辑回归分析 逻辑回归模型完成后,输出决策边界系数,分析目标与选取特征关系。其中, 系数是正表示正相关,负为负相关,绝对值越大说明相关性越强,可以看出生存 与否与船舱等级、性别相关性非常强,最后可以得出结论是:女性且船舱等级越 高的乘客更容易存活下来。 列名决策系数0123456789 0123456789 0123456789 0123456789 columns Pc I ass Age SibSp Parch Fare Sex_femaIe Sex_maIe Embarked_C Embarked_Q Embarked_S coef 8, 模型评估 完成模型分析后,输出模型的性能指标,运行后得出模型准确率为0. 77o 分析到此,基于逻辑回归来预测泰坦尼克号乘客存货基本就完成了,模型准确率 为77%,即结论的可靠程度在77%。 模型评估得分:0.7663551401869159 (二)系统操作: 1. 添加项目 ①点击【新建】按钮,新增项目,系统加载一个“未命名"项目。②单击选 中项目,鼠标右键,对项目进行【重命名】设置,③完成后点击保存按钮,保存项目,如图l-2o 项目,如图l-2o 项目,如图l-2o 项目,如图l-2o Bfisn mtiitw 氏时计n 歌■抡■与分制 开发语言:Pythoo,Qit 未轮]@ IN埃 奁g果 13 frca p)*cnco t^cct BmfdZliant fr(a P7My?Ql i^oct Comection t — 入口方"名•僵勿雄改・「 d&f mirijiandlet <ew«t ccrrtext >! ■注朗:・ecc16爆务云迁按僵侵陶[汹砌 代・・DATABASE] 9■会自行定义,•金在・作月谓使雨只■遇行代■使用• •g■务表占梧玄宥部清使用如皿]代・・x&ane义・套谷菱用,女学驾、敢学• 9RIM宣传兴踞&谓健用(gt£old«P・th)代■・ t周户又件夷眼R5径僵”用UfcerFoldeiPmhHtlt, 9 日UruoWIS号茬用妣 acc(odHJri - * (SEmTRj* CBY^oXOntBlinft ■3 dkn«t<l wrt <*cncodbCi a) ,F而力2白行的仅肖.•・ ,击义胃户又件关不的89片女骨踣技学守部 (lb«cFoldtxPath)/^ W* Ukr^oWft^Md Us«rT*blr-r. (EATAZU£).ut«z 日SoXfl临入幼我 u-r山・:1,、~・:・尊三} f|...«.vt.—A.、 图1-2添加项目 2, 参数填写 ①点击【任务描述】预计根据下发的教案,完成数据等挖掘。②点击【数据 向导】,弹出关键词替换弹窗,如图1-3。③对每一关键词填入正确的参数,④ 然后点击确认,将参数传入系统代码模板中,如图l-4o⑤点击【保存】按钮,保存代码数据。 图1-3数据向导 开发语言:Python ■ 注»W« 10 12 13 15 16 1? 18 19 20 SMitW u^on PSVlM M pd la^ort ■Mplot hh pylab ar pH fcai PH upcct 1>S laaxeForrt, I*aceTrtv fraa xkla»m.lxnnr_B0d*l import Lo(iztidU<re«xxon froi skleurwwxlel.selecticn uport train_te5t_split fccm xklnxFuptvjcoccsxirc xapcul St mdacdScalec 9这丽行代码嶙关pit中文U示的柯息 plt.rvPtfwrfaM.sw-wnf ] = rSuritei'l « WM正髯辰象毛文& pit. rcPaxaafC ■tM.umco4»^iinttt,) - Falat 9 用在正旅导示负。 dtf *»injurvfl«c Uwnt, ecrtcct): t path = , (X>MaFol<texPMh)/trwvciv, p«th2 f , l^BtaFold9rFathl/t««t.cfv* < =p«l iefed_cr/<pMh) df2 - pd. re»d_Gfv<peth?) t df - df. <^*nd(df?r icror«_indar*Trv«) 图1-4数据向导/输入参数 3. 代码执行 完成参数填写且保存后,即可提交代码至服务器进行执行,点击【执行】按 钮,系统提示“已执行,请稍后查看执行结果”。 WttttM宝刁计HSr■粉■与分忻 Sp»tRn®>ef IMahoutBWWI I SMhbfiS 加 G 开发语言:Python , Wtt 保mfy注 nssBKAW部ttlBTIK ®aew盼析1 import pandu u pd :• import aatplotliU p/lab ar pit 3 frca PIL lappet !>", IfFortt. 2>M<^x»v 4 from rklwir* 1 inwr.»c-le) sport Ucisticftecregion 6 fxca r>lMxn.»odel.icl«cticti lancet 6 T frcm fklfrWtaprejffocwsirc iiport ftandirdScalw 1 • t谊两行代四薪土 pit中文!!元0 —、 ♦ pit. rcParwt f e. - < - mf »>/) BtWi .•• W 10 it pit. rcPariM (' 12 13 f jwamn 14 <S»f min.hxvD«t (■ vant9 en»l«xt>: 16 ie p«th ・'(PstiFoldv^sthl/trairucvr* n P«th2 = * (E>ataFoUtcPath]/t*Jt.civ, IS df - pcL re«d.crr(pst>0 19 dT2 - i «*4.civ<p«th2) 20 21 dTdf. <f«rd (df?v icnor«_xr«Set Ttua> 一 图1-5代码执行 4, 查看结果 执行代码后,①鼠标单击选中项目然后鼠标右键,②点击【查看结果】,弹 出结果查看弹窗,如图1-6。 ttrr 白■峪* g: (】)女行名:Vhgl png COlums 0 Pc Iass 1 Age 2 SibSp 3 P«r ch 4 Fare 5 Sex.fcflnale 6 S«x_Mle 7 EftMrked_C 8 Enb^rked_0 9 EiiMrked.S coef (2 )文件名:网2 pncj US(评估棉分 0 7663551401869159 ■atittw KrtrtW・・陀■■分•BBRV> 图1-6查看结果 任务二 基于“KNN”分类算法的红酒分类 点击任务二按钮,进入“任务二 基于“KNN"分类算法的红酒分类”任务,如图1-70matt* gt RBWMFr I| spjrk •/ .bl;更理. 开发诊台:Python • Ait图1-7基于“KNN”分类算法的红酒分类 本任务旨在通过对打上类别的红酒数据进行建模,通过构建分类模型训练各 个类别的特征空间,并分析分类的准确性。 (一)实验设计: 1. 导入数据 代码模板已自动加载在服务器中的“wine"数据集,请在开始- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基础 实务 商科版 Python 软件 操作手册
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文