Python数据分析与应用全书教案.docx
《Python数据分析与应用全书教案.docx》由会员分享,可在线阅读,更多相关《Python数据分析与应用全书教案.docx(71页珍藏版)》请在咨信网上搜索。
《Python数据分析与应用: 从数据获取到可视化》 全书教学设计完整版 课程名称: Python数据分析 授课年级: 2018年级 授课学期: 2018学年第一学期 教师姓名: 某某老师 2018年09月09日 课题 名称 第1章 数据分析概述 计划学时 2学时 内容 分析 近些年,随着网络信息技术与云计算技术的快速发展,网络数据得到了爆发性地增长,人们每天都充斥在庞大的数据群体中,这一切标志着人们进入了大数据时代。在大数据环境的作用下,能够从数据里面发现并挖掘有价值的信息变得愈发重要,数据分析技术应运而生。 数据分析可以通过计算机工具和数学知识处理数据,并从中发现规律性的信息,以做出具有针对性的决策。 教学目标及基本要求 1、 了解数据分析的背景及应用场景 2、 掌握什么是数据分析以及数据分析的流程 3、 会创建Python环境,使用Anconda管理Python包 4、 会使用Jupyter Notebook 5、 认识常见的数据分析工具 教学 重点 1、 掌握什么是数据分析以数据分析的流程 2、 会创建Python环境,使用Anconda管理Python包 3、 会使用Jupyter Notebook 教学 难点 1、 会创建Python环境,使用Anconda管理Python包 2、 会简单使用Jupyter Notebook 教学 方式 教学采用教师课堂讲授为主,使用教学PPT讲解 教 学 过 程 第一课时 (了解数据分析的背景及应用场景、掌握什么是数据分析以及数据分析的流程,会创建Python环境、使用Anconda管理Python包) 一、创设情境,导入数据分析应用场景 (1) 教师通过提问学生问题,引出数据分析应用场景。 教师提问学生问题,例如问题是:大家知道哪些场合用到了数据分析?它们对数据进行怎样的分析?教师进行总结:在营销、医疗、零售等方面都会经常使用数据分析,通过对大量的数据进行分析得出数据的具体特征。 (2) 什么是数据分析? 数据分析是指从大量看似杂乱无章的数据中提炼出有用的数据,以找出研究对象的内在规律。 (3) 明确本节课的学习目标,让学生带着目标去听课。 l 要求学生了解数据分析的背景和应用场景 l 要求学生熟悉数据分析的基本流程 l 要求学生熟悉Anconda的安装和管理Python包 二、进行重点知识的讲解 (1) 教师根据课件,讲述数据分析的背景和应用场景。 当产生海量的数据后,使用数据分析可以从中获取潜藏的有价值信息,在营销、医疗、零售等方面经常使用数据分析对数据进行潜在价值的挖掘。 (2) 教师根据课件,讲述数据分析的流程。 数据分析是基于商业目的,有目的地进行收集、整理、加工和分析数据,提炼出有价值的信息,整个过程大致可以分为:1.明确目的和思路、2.收据收集、3.数据处理、4.数据分析、5.数据展现。 (3) 教师根据课件,介绍Anconda的安装及使用。 Anconda是一个可以便捷获取和管理包,同时对环境可以统一管理的发行版本,它包含了conda、Python在内的超过180个科学包及其依赖项。 三、归纳总结,布置作业/随堂练习 (1)回顾上课前的学习目标,并对本节课的重要知识点进行总结。 带领学生总结本课内容:了解数据分析的背景及应用场景、掌握什么是数据分析以及数据分析的流程、会安装使用Anconda。 (2) 教师安排学生课上完成章节课后习题,并针对一些难以理解的题目进行讲解。 (3)使用博学谷系统下发课后作业。 第二课时 (Jupyter Notebook的使用、认识常见的数据分析工具) 一、回顾上节课的内容,继续讲解本课时的Anconda的使用 (1) 教师对学生们的疑问进行统一答疑。 (2) 教师根据课件,讲解Jupyter Notebook的使用。 在上一节中已经讲解了如何Anconda,接下来,我们可以使用Anconda中自带的Jupyter Notebook进行数据分析操作。 (3) 教师根据课件,讲解其他常见的数据分析工具。 Python本身的数据分析功能并不强,需要安装一些第三方的扩展库来增强它的能力。我们的课程用到的库包括NumPy、Pandsa、Matplotlib、Seaborn、NLTK等。 (4) 明确学习目标 l 要求学生会使用Jupyter Notebook l 要求学生熟悉其他的数据分析工具 二、进行重点知识的讲解 (1) 教师根据课件,讲述如何启动Jupyter Notebook。 (2) 教师根据课件,对Jupyter Notebook进行界面介绍。 (3) 教师根据课件,介绍Jupyter Notebook的基本使用。 (4) 教师根据课件,其他常见的数据分析工具。 三、归纳总结,布置作业/随堂练习 (1) 回顾上课前的学习目标,并对本节课的重要知识点进行总结。 教师提问学生本节课需要掌握的知识点,包括Jupyter Notebook的使用、其他数据分析工具,并对学生的回答进行补充和总结。 (2) 教师安排学生课上完成章节课后习题,并针对一些难以理解的题目进行讲解。 (3) 使用博学谷系统下发课后作业。 思考题和习题 见教材第1章配套的习题 教 学 后 记 《Python数据分析与应用: 从数据获取到可视化》 教学设计 课程名称: Python数据分析 授课年级: 2018年级 授课学期: 2018学年第一学期 教师姓名: 某某老师 2018年09月09日 课题 名称 第2章 科学计算库NumPy 计划学时 5学时 内容 分析 NumPy作为高性能科学计算和数据分析的基础包,它是本书介绍的其它重要数据分析工具的基础,掌握NumPy的功能及其用法,将有助于后续其他数据分析工具的学习。 教学目标及基本要求 6、 认识NumPy数组对象,会创建NumPy数组 7、 熟悉ndarray对象的数据类型,并会转换数据类型 8、 掌握数组运算方式 9、 掌握数组的索引和切片 10、 会使用数组进行数据处理 11、 熟悉线性代数模块和随机数模块的使用 教学 重点 4、 认识NumPy数组对象,会创建NumPy数组 5、 创建NumPy数组 6、 ndarray对象的数据类型 7、 整数索引和切片的基本使用 8、 布尔型索引的基本使用 9、 数组的转置和轴对称 10、 将条件逻辑转为数组运算 11、 检索数组元素 12、 随机数模块 教学 难点 3、 花式索引的基本使用 4、 布尔索引的基本使用 5、 将条件逻辑转为数组运算 教学 方式 教学采用教师课堂讲授为主,使用教学PPT讲解 教 学 过 程 第一课时 (认识NumPy数组对象,创建NumPy数组、ndarray对象的数据类型) 一、 创设情境,引入Numpy (1)教师通过介绍科学计算库,引出NumPy数组对象 通过对NumPy的介绍,引出NumPy数组对象ndarray。同时介绍ndarray对象中常用的属性,如ndarray.shape (2)教师根据课件,讲解如何创建NumPy数组。 对数组对象进行介绍完之后,带领学生使用array()、zeros()、ones()、empty()、arange()函数实现创建NumPy数组。 (3)教师根据课件,介绍ndarray对象的数据类型。 使用name属性获取ndarray对象的数据类型,然后罗列出NumPy中的数据类型,最后讲解使用astype()方法转换类型 (4)明确学习目标 l 要求学生了解NumPy的数组ndarray对象 l 要求学生掌握如何创建NumPy数组 l 要求学生掌握如何查看数据类型及转换数据类型 二、 进行重点知识的讲解 (1) 认识NumPy数组对象 NumPy中最重要的一个特点就是其N维数组对象,即ndarray对象,该对象具有矢量算术能力和复杂的广播能力,可以执行一些科学计算。不同于Python标准库,ndarray对象拥有对高维数组的处理能力,这也是数值计算中缺一不可的重要特性。 (2) 使用不同的方法创建NumPy数组 首先使用array()函数创建第一个NumPy数组,并对该数据进行简单讲解,接着分别使用zeros()、ones()、empty()、arange()函数创建NumPy数组。 (3) ndarray对象的数据类型 在创建NumPy数组之后,使用name属性查看数组对象的数据类型,并演示使用astype()方法将该对象的数据类型进行转换。 三、归纳总结,布置课后作业 (1) 回顾上课前的学习目标,并且对本节课需要掌握的知识点进行总结。 教师带领学生总结本节课的内容,包括什么数组对象、创建NumPy的方法、ndarray的数据类型。 (2) 布置随堂练习,检查学生掌握情况。 根据博学谷和随堂练习资源,给学生布置随堂练习,检测学生的掌握程度,并对学生出现的问题进行解决。 (3) 使用博学谷系统下发课后作业。 第二课时 (数组运算、ndarray的索引和切片) 一、 回顾上节课讲解的知识,继续讲解本节课的知识 (1) 教师讲解上一课时的课后作业。 (2) 回顾上节课所学习的知识,由上一课时的知识点引出本课时内容。 在上一节中介绍了如何创建NumPy数组、如何查看数据类型以及转换数据类型。接下来,引出对NumPy数组进行更深入的讲解,数组的运算和nadarray的索引和切片操作。 (3) 明确学习目标 l 要求学生熟悉数组运算的规则 l 要求学生掌握ndarray索引和切片的操作 二、 进行重点知识的讲解 (1) 教师根据课件,讲述数组运算常见的操作。 在数组运算中常见的操作有矢量化运算、数组广播、数组与标量间的运算。 (2) 教师根据课件,讲述矢量化运算的规则。 在NumPy中,大小相等的数组之间的任何算术运算都会应用到元素级,即只用于位置相同的元素之间,所得的运算结果组成一个新的数组。 (3) 教师根据课件,讲述数组广播的规则。 数组在进行矢量化的运算时,要求数组的形状是相等的。当形状不相等的数组执行算术计算的时候,就会 出现广播机制,该机制会对数组进行扩展,使数组的shape属性值一样,这样就可以进行矢量化运算。 (4) 教师根据课件,讲述数组与标量间的运算规则。 大小相等的数组之间的任何算术运算都会将运算应用到元素级,同样,数组与标量的算术运算也会将那个标量值传播到各个元素。 (5) 讲解ndarray的索引和切片并引出整数索引和切片的基本使用。 ndarray对象支持索引和切片操作,并通过简单的示例演示ndarray对象使用整数索引和切片。 (6) 教师根据课件,讲述花式索引的基本使用。 花式索引是NumPy的一个术语,是指用整数数组或列表进行索引,然后再将数组或列表中的每个元素作为下标进行取值。 (7) 教师根据课件,讲述布尔型索引的基本使用。 布尔型索引值的是将一个布尔数组作为数组索引,返回的数据是布尔数组中True对应位置的值。 三、归纳总结,布置课后作业 (1)回顾课前学习目标,对本节课的内容进行总结。 教师带领学生总结本节课要掌握的内容:数组运算的几种规则,ndarray的索引和切片操作。 (2)布置随堂练习,检查学生学习状况。 根据博学谷和随堂练习资源,给学生布置随堂练习,根据学生的完成情况,了解学习的学习理解状况,根据学生反映的问题,进行解答。 (3)使用博学谷系统下发课后作业。 第三课时 (数组的转置和轴对称、NumPy通用函数、利用NumPy数组进行数据处理) 一、 回顾上节课讲解的知识,继续讲解本节课的知识 (1) 教师讲解上一课时的课后作业。 (2) 回顾上节课所学的知识,由上一课时知识点引出本课时内容。 回顾上节中的数组运算与ndarray的索引和切片,在本节中将会讲解数组的转置和轴对称、NumPy通用函数、利用NumPy数组进行数据处理。 (3) 明确学习目标。 l 要求学生掌握数组转置和轴对称 l 要求学生熟悉NumPy的通用函数 l 要求学生掌握利用NumPy数组进行数据处理 二、 进行重点知识的讲解 (1) 教师通过示例演示数组的转置和轴对称。 数组的转置是指将数组中的每个元素按照一定的规则进行位置变换。 (2) 教师通过示例演示NumPy通用函数。 示例举出几个常用的函数进行演示,并对教材中罗列的函数进行简单说明。 (3) 教师通过示例演示,NumPy常用的数据处理操作。 NumPy中常用的数据处理操作有将条件逻辑转为数组运算(where()函数)、数组统计计算(sum、max….)、数组排序(sort()方法)、检索数组元素(all()、any()函数)、唯一化及其他集合逻辑(unique()函数) 三、归纳总结,布置课后作业 (1)回顾数组的转置和轴对称、NumPy的通用函数以及使用NumPy数组进行数据处理,最后本节课的内容进行总结。 (2)使用博学谷系统下发课后作业。 第四课时 (线性代数模块、随机数模块) 一、 回顾上节课讲解的知识,继续讲解本节课的知识 (1) 教师讲解上一课时的课后作业。 (2) 回顾上节课所学的知识,由上一课时知识点引出本课时内容。 回顾上节中的数组转置和轴对称、NumPy通用函数以及使用NumPy数组进行数据处理。 (3) 明确学习目标。 l 要求学生熟悉线性代数模块 l 要求学生掌握随机数模块 二、 进行重点知识的讲解 (1) 教师通过示例演示线性代数模块。 线性代数是数学运算中的一个重要工具,它在图形信号处理、音频信号处理中起非常重要的作用。numpy.linalg模块中有一组标准的矩阵分解运算已经诸如逆和行列式之类的东西。 (2) 教师通过示例演示随机数模块的使用。 与Python的random模块相比,NumPy的random模块功能更多,它增加了一些可以高效生成多种概率分布的样本值的函数。 三、归纳总结,布置课后作业 (1)对本节课的内容进行总结。 (2)使用博学谷系统下发课后作业。 第五课时 (上机练习) 上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的熟练程度。 上机一:(练习教材中示例代码) 形式:单独完成 上机二:(完成案例—酒鬼漫步) 形式:单独完成 思考题和习题 见教材第2章配套的习题 教 学 后 记 《Python数据分析与应用: 从数据获取到可视化》 教学设计 课程名称: Python数据分析 授课年级: 2018年级 授课学期: 2018学年第一学期 教师姓名: 某某老师 2018年09月09日 课题 名称 第3章 Python常用语句 计划学时 7 课时 内容 分析 Pandas是一个基于NumPy的Python库,专门为了解决数据分析任务而创建的,它不仅纳入了大量的库和一些标准的数据模型,而且提供了高效操作大型数据集所需的工具,被广泛地应用到很多领域中,包括经济、统计、分析等学术和商业领域。 教学目标及基本要求 1、 Pandas的数据结构分析 2、 Pandas索引操作及高级索引 3、 算术运算与数据对齐 4、 数据排序 5、 统计计算与描述 6、 层次化索引 7、 读写操作 8、 案例—北京高考分数线统计分析 教学 重点 1、 Pandas的数据结构分析 2、 Pandas索引操作及高级索引 3、 算术运算与数据对齐 4、 数据排序 5、 统计计算与描述 6、 层次化索引 7、 读写操作 教学 难点 1、 Pandas的数据结构分析 2、 Pandas索引操作及高级索引 3、 层次化索引 4、 读写操作 教学 方式 教学采用教师课堂讲授为主,使用教学PPT讲解 教 学 过 程 第一课时 (Series,DataFrame,索引对象) 一、创设情境,导入Pandas (1) 教师介绍新的数据分析工具Pandas,并引出Pandas索引操作。 Pandas是一个基于NumPy的Python库,专门为了解决数据分析任务而创建的,它不仅纳入了大量的库和一些标准的数据模型,而且提供了高效操作大型数据集所需的工具,被广泛的应用到很多领域中,包括经济、统计、分析等学术和商业领域。 (2) 教师根据课件,介绍Pandas中常用的两种数据结构。 在Pandas中常用的两种数据结构分别是Series和DataFrame,Series是一种一维的数据结构,而DataFrame是一种二维的数据结构。 (3) 教师根据课件,介绍Pandas索引对象。 Pandas中的索引都是Index类对象,又称为索引对象,该对象是不可以进行修改的,以保障数据的安全。 (4) 明确学习目标 l 要求学生掌握Series l 要求学生掌握DataFrame l 要求学生熟悉索引对象 二、进行重点知识的讲解 (1) 教师根据课件,介绍Series Series是一个一维数组对象,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据与之相关的索引两部分构成。 (2) 教师根据课件,介绍DataFrame DataFrame是一个二维数组对象,它每列的数据可以是不同的数据类型,与Series的结构相似,DataFrame的结构也是由索引和数据组成的,不同的是,DataFrame的索引不仅有行索引,还有列索引。 (3) 教师根据课件,介绍索引对象 Pandas中的索引对象都是Index类对象,又称为索引对象,该对象是不可以进行修改的,以保障数据的安全。 三、归纳总结,布置作业/随堂练习 (1) 回顾上课前的学习目标,并对本节课的内容进行总结。 教师总结本节课需要掌握的知识点,包括Series、DataFrame、索引对象。 (2) 使用博学谷系统下发课后作业。 第二课时 (重置索引、索引操作、算术运算与数据对齐) 一、回顾上节课的内容,继续讲解本课时的索引操作和算术运算与数据对齐 (5) 教师对学生们的疑问进行统一答疑。 (6) 通过示例代码,回顾总结上节课内容,继续讲解本节内容。 (7) 明确学习目标 l 要求学生掌握重置索引 l 要求学生掌握索引操作 l 要求学生熟悉算术运算与数据对齐 二、进行重点知识的讲解 (5) 教师根据课件,讲述重置索引操作。 Pandas中提供了一个重要的方法是reindex(),该方法的作用是原索引和新索引进行匹配,也就是说,新索引含有原索引的数据,而原索引数据按照新索引排序。如果新索引中没有原索引数据,那么程序不仅不会报错,而且会添加新的索引,并将值填充为NaN或者使用fill_value()填充其他值。 (6) 教师根据课件,讲述Series和DataFrame其他的索引操作。 通过索引位置获取数据、通过索引名称获取数据、使用切片获取数据、获取不连续数据。 (7) 教师根据课件,讲述算术运算与数据对齐。 Pandas执行算术运算时,会先按照索引进行对齐,对齐以后进行相应的运算,没有对齐的位置会用NaN进行补齐。其中,Series是按行索引对齐的,DataFrmae是按行索引、列索引对齐的。 三、归纳总结,布置作业 (1) 回顾学习目标,对本节课的内容进行总结。 教师带领学生总结本节课需要掌握的内容,包括重置索引和索引操作。 (2) 布置随堂练习,检查学生掌握情况。 根据博学谷和随堂练习资源,给学生布置随堂练习,检测学生的掌握程度,并对学生出现的问题进行解决。 (3) 使用博学谷系统下发课后作业。 第三课时 (按索引排序、按值排序、常用的统计计算、统计描述) 一、回顾上节课内容,继续讲解本节课的内容 (1) 教师对学生们的疑问进行统一答疑。 (2) 回顾总结上节课内容,讲解数据排序和统计计算与描述知识。 在上节课中,介绍了Pandas的索引操作和算术运算与数据对齐,接下来,将介绍数据排序和统计计算与描述。 (3) 明确学习目标 l 要求学生掌握按索引排序 l 要求学生掌握按值排序 l 要求学生熟悉常用的统计计算 l 要求学生熟悉统计描述 二、进行重点知识的讲解 (1) 教师根据课件,讲述数据排序——按索引排序。 Pandas中按索引排序使用的sort_index()方法,该方法可以用行索引或者列索引进行排序。 (2) 教师根据课件,讲述数据排序——按值排序。 Pandas中按值排序使用的sort_values()方法。 (3) 教师根据课件,讲述常用的统计描述计算。 通过几个简单的示例演示常用的统计描述方法,如max、min、sum等。 (4) 教师根据课件,讲述统计描述。 如果希望一次性输出多个统计指标,比如平均值、最大值、最小值、求和等,则我们可以调用describe()方法实现,而不用再单独地逐个调用相应的统计方法。 三、归纳总结,布置作业 (1) 回顾学习目标,对本节课的内容进行总结 教师带领学生总结数据排序的方法。 (2) 布置随堂练习,检查学生掌握情况。 根据博学谷和随堂练习资源,给学生布置随堂练习,检测学生的掌握程度,并对学生出现的问题进行解决。 (3) 使用博学谷系统下发课后作业。 第四课时 (认识层次化索引、层次化索引操作、读写文本文件) 一、回顾上节课内容,讲解本节内容 (1) 教师讲解上节课作业,并对学生的疑问进行统一答疑。 (2) 回顾上节课的内容,讲解本节课新的知识点。 本节课主要的新内容有认识层次化索引,层次化索引操作,以及读写文本文件。 (3) 明确学习目标 l 要求学生熟悉层次化索引 l 要求学生掌握层次化索引的操作 l 要求学生掌握读写文本文件操作 二、进行重点知识的讲解 (1)教师通过图例引出什么层次化索引。 当Pandas的Series或DataFrame对象只有一层索引时,可称其为单层索引,而层次化索引则可以理解为单层索引的延伸,即在一个轴方向上具有多层索引。 根据示例,讲解创建层次化索引的几种方法(from_tuples()、from_arrays()、from_product())。 (2)教师根据课件,讲解层次化索引的操作? 常用的层次化索引操作有选取子集操作、交换分层顺序、排序分层。 (3)教师讲解完层次化索引的知识,讲解Pandas读写数据操作。 在对数据分析时,通常不会将需要分析的数据写入到程序中,而是以文件或数据库的形式保存,所以接下来介绍Pandas中的读写操作。 在本节中主要讲解Pandas的读写文本的操作to_csv、read_csv、read_table 三、归纳总结,布置作业 (1)回顾学习目标,对本节课的内容进行总结。 教师带领学生总结本节课的内容,内容包括了解层次化索引、掌握层次化索引的操作、以及文本文件的读写操作。 (2)使用博学谷系统下发随堂练习,检测学生对课堂内容的掌握情况。 第五课时 (读写Excel文件、读取HTML表格数据、读写数据库) 一、回顾上节课内容,讲解本节内容 (1) 教师讲解上节课作业,并对学生的疑问进行统一答疑。 (2) 回顾上节课的内容,继续讲解读写数据的其他操作。 本节课主要的新内容有读写Excel文件、读取HTML表格数据、读写数据库、案例实现。 (3) 明确学习目标 l 要求学生掌握读写Excel文件 l 要求学生掌握读取HTML表格数据 l 要求学生掌握读写数据库 二、进行重点知识的讲解 (1)教师通过介绍excel文件的格式,引出使用Pandas读写Excel文件。 Pandas中提供了对Excel文件进行读写操作的方法,分别为to_excel()和read_excel()。 (2)教师根据课件,讲解读取HTML表格数据。 通过以网上某个表格数据进行实时读取引出使用read_html()读取表格数据。 (3)教师根据课件,讲解读写数据库数据。 对于存储在数据库中的数据,Pandas提供了read_sql()函数用来读取,同时也提供了用于写入数据库的to_sql()方法,教材中以mysql为例演示使用to_sql和read_sql 读取数据库数据。 三、归纳总结,布置作业 (1)回顾学习目标,对本节课的内容进行总结。 教师带领学生总结本节课的内容,内容包括掌握读写Excel、读取HTML表格数据、读写数据库。 (2)使用博学谷系统下发随堂练习,检测学生对课堂内容的掌握情况。 第六课时 (上机练习) 上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的熟练程度。 上机一:( 练习教材中的示例代码) 形式:单独完成 第七课时 (上机练习) 上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的熟练程度。 上机一:(练习教材中的示例代码) 形式:单独完成 上机二:(完成案例—北京高考分数线统计分析) 形式:单独完成 思考题和习题 见教材第3章配套的习题 教 学 后 记 《Python数据分析与应用: 从数据获取到可视化》 教学设计 课程名称: Python数据分析 授课年级: 2018年级 授课学期: 2018学年第一学期 教师姓名: 某某老师 2018年09月09日 课题 名称 第4章 数据预处理 计划学时 6 课时 内容 分析 前期采集到的数据,或多或少都存在一些瑕疵和不足,比如数据缺失、极端值、数据格式不统一等问题。因此,在数据分析之前需要对数据进行预处理,包括数据的清洗、合并、重塑与转换。Pandas中专门提供了用于数据预处理的很多函数与方法,用于替换异常数据、合并数据、重塑数据等。 教学目标及基本要求 1、 掌握数据清洗 2、 掌握数据合并 3、 掌握数据重塑 4、 掌握重命名轴索引 5、 熟悉离散化连续数据 6、 了解哑变量处理类别型数据 7、 完成案例—预处理部分地区信息 教学 重点 1、 掌握数据清洗 2、 掌握数据合并 3、 掌握数据重塑 4、 掌握重命名轴索引 5、 完成案例—预处理部分地区信息 教学 难点 1、 掌握数据清洗 2、 掌握数据合并 3、 掌握数据重塑 4、 掌握重命名轴索引 教学 方式 教学采用教师课堂讲授为主,使用教学PPT讲解 教 学 过 程 第一课时 (空值和缺失的处理、重复值的处理、异常值的处理) 一、创设情境,导入为什么要使用数据清洗 (5) 教师通过生活中的举例,引出数据清洗的知识。 例如问卷调查信息,在获取这些数据后并不能立即用于分析,而是需要将这些数据进行一些清洗操作。 (6) 数据清洗常用的操作 常的数据清洗操作包括空值和缺失值处理、重复值的处理、异常值的处理等。 (7) 明确学习目标 l 要求学生掌握空值和缺失值的处理。 l 要求学生掌握重复值的处理 l 要求学生掌握异常值的处理 二、进行重点知识的讲解 (4) 教师根据课件,讲述空值和缺失值的处理。 Pandas提供了一些用于检查或处理空值和缺失值的函数,其中,使用isnull()和notnull()函数可以判断数据集中是否存在空值和缺失值,对于缺失数据可以使用dropna()和fillna()方法对缺失值进行删除和填充。 (5) 教师根据课件,讲述重复值的处理。 Pandas提供了两个函数专门用来处理数据中的重复值,分别为duplicate()和drop_duplicates()。其中,前者用于标记是否有重复值,后者用于删除重复值,它们的判断标准是一样的,即只要两条数据中所有条目的值完全相等,就判断为重复值。 (6) 教师根据课件,讲述异常值的处理。 异常值指样本中的个别值,其数值明显偏离它所属样本的其余观测值,这些数值是不合理的或错误的。要想确认一组数据中是否有异常值,常用的检测方法有3σ原则和箱形图,对于检测出的异常值可以使用replace方法进行替换。 三、归纳总结,布置作业/随堂练习 (3) 回顾上课前的学习目标,并对本节课的内容进行总结。 教师总结本节课需要掌握的知识点,包括空值和缺失值的处理、重复值的处理、异常值的处理。 (4) 使用博学谷系统下发课后作业。 第二课时 (更改数据类型、轴向堆叠合并、主键合并数据) 一、回顾上节课的内容,继续讲解本课时的知识 (8) 教师对学生们的疑问进行统一答疑。 (9) 回顾总结上节课内容,继续介绍本课时的内容。 上节课介绍了数据清洗的内容,接下来,本节课继续介绍数据清洗内容以及数据合并操作。 (10) 明确学习目标 l 要求学生掌握更改数据类型的方法 l 要求学生掌握轴向堆叠合并 l 要求学生掌握主键合并数据 二、进行重点知识的讲解 (8) 为什么要更改数据类型? 在处理数据时,可能会遇到数据类型不一致的问题,例如通过爬虫采集到的数据都是整型的数据,在使用数据的时希望保留两位小数点,这时需要将这些数据的类型转换为浮点型。针对这种问题,既可以在创建Pandas对象明确指定数据类型,也可以使用astype和to_numberic进行转换。 (9) 教师根据课件,讲解数据合并——轴向堆叠数据的操作。 在对数据进行整合时,经常会用到数据合并。接下来,介绍常用的几种数据合并操作。 concat()函数可以沿着一条轴将多个对象进行堆叠,其使用方式类似数据库中的数据表合并。 (10) 教师根据课件,讲解数据合并——主键合并数据的操作。 主键合并类似于关系数据库库的连接方式,它是根据一个或多个键将不同的DataFrmae对象连接起来,大多数是将两个DataFrame对象中的列作为合并键,Pandas主键合并方式使用merge()函数实现。 三、归纳总结,布置作业 (2) 回顾学习目标,对本节课的内容进行总结。 教师带领学生总结本节课需要掌握的内容,包括更改数据类型、轴向堆叠数据、主键合并数据。 (3) 布置随堂练习,检查学生掌握情况。 根据博学谷和随堂练习资源,给学生布置随堂练习,检测学生的掌握程度,并对学生出现的问题进行解决。 (4) 使用博学谷系统下发课后作业。 第三课时 (根据行索引合并数据、合并重叠数据、重塑层次化索引) 一、回顾上节课内容,继续讲解数据合并内容以及数据重塑中的重塑层次化索引 (4) 教师对学生们的疑问进行统一答疑。 (5) 回顾总结上节课内容,继续介绍数据合并的知识以及数据重塑的知识。 在上节课中,介绍了更改数据类型的方法以及数据合并的两种方法。 (6) 明确学习目标 l 要求学生掌握根据行索引合并数据、 l 要求学生掌握合并重叠数据 l 要求学生掌握重塑层次化索引 二、进行重点知识的讲解 (5) 教师通过示例代码,讲述join()方法的使用。 join()方法能够通过索引或指定列来连接DataFrame。 (6) 教师通过示例代码,讲述combine_first()方法的使用。 在处理数据的过程中,当一个DataFrame对象中出现了缺失数据,而这些缺失数据我们希望使用其它DataFrame对象中的数据填充,这时可以通过combine_first()方法为缺失数据填充。 (7) 教师通过示例代码,讲述stack()和unstack()方法的使用。 Pandas中重塑层次化索引操作主要是stack()和unstack(),前者表示将数据的列“旋转”为行,后者表示将数据的行“旋转”为列。 三、归纳总结,布置作业 (1) 回顾学习目标,对本节课的内容进行总结 教师带领学生总结join()、combine_first()、stack()、unstack()的使用方法。 (2) 布置随堂练习,检查学生掌握情况。 根据博学谷和随堂练习资源,给学生布置随堂练习,检测学生的掌握程度,并对学生出现的问题进行解决。 (3) 使用博学谷系统下发课后作业。 第四课时 (轴向旋转、重命名轴索引、离散化连续数据、哑变量处理类别数据) 一、回顾上节课内容,继续讲解本节课的内容 (1) 教师讲解上节课有难度的作业,并对学生的疑问进行统一答疑。 (2) 回顾上节课的内容,继续介绍数据重塑的操作以及数据转换的部分操作。 在上节课中,介绍了数据合并和数据重塑的操作,接下来,继续介绍数据重塑的操作以及数据转换的操作。 (3) 明确学习目标 l 要求学生掌握轴向旋转操作 l 要求学生掌握重名轴索引的操作 l 要求学生熟悉离散化连续数据 l 要求学生了解哑变量处理类别数据 二、进行重点知识的讲解 (1) 教师通过教材中的示例,引出轴向旋转的操作。 在Pandas中pivot()方法会根据给定的行索引或列索引重新组织一个DataFrame对象。 (2) 教师通过设定需求,引出重命名轴索引的使用。 Pandas中提供一个rename()方法来重名列索引或行索引。 (3) 教师通过教材中的示例,引出离散化连续数据。 有时候我们会碰到这样的需求,例如,将有关年龄的数据进行离散化(分桶)或拆分为“面元”,直白来说,就是将年龄分成几个区间。 Pandas 的 cut()函数能够实现离散化操作。 (4) 教师根据课件,讲解哑变量处理类别型数据。 哑变量又称虚拟变量、名义变量,从名称上看就知道,它是人为虚设的变量,用来反映某个变量的不同类别。使用哑变量处理类别转换,事实上就是将分类变量转换为哑变量矩阵或指标矩阵,矩阵的值通常用“0”或“1”表示。 三、归纳总结,布置作业 (1)回顾学习目标,对本节课的内容进行总结。 教师带领学生总结数据重塑和数据转换操作。 (2)使用博学谷系统下发随堂练习,检测学生对课堂内容的掌握情况。 第五课时 (上机练习) 上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的熟练程度。 上机一:(练习教材中的示例代码) 形式:单独完成 第六课时 (上机练习) 上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 数据 分析 应用 全书 教案
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文