《Python网络爬虫》课程标准(高职).docx
《《Python网络爬虫》课程标准(高职).docx》由会员分享,可在线阅读,更多相关《《Python网络爬虫》课程标准(高职).docx(5页珍藏版)》请在咨信网上搜索。
«Python网络爬虫》课程标准 修订时间:2019年6月 所属系部:计算机系 学分:4 批准人:李瑞兴 一、基本信息(课程代码:) 学习领域:计算机科学 适用专业:大数据专业 参考学时:64学时 制定人:林平 二、课程性质 本课程定位于高职高专层次,是大数据专业的一门重要专业基础课程。本课程主 要是介绍网络爬虫开发的原理与Python实现。主要包括从互联网获取信息与提取信 息和对WEB信息的四内容。课程内容讲解了如何应用云计算架构开发分布式爬虫,深 入介绍WEB数据挖掘实现过程。 三、课程目标本课程采用理论授课与学生课后上机实践相结合,帮助学生更好消化吸收课程知 识。 积极践行020教学理念,努力提升教学水平,在数据挖掘,数据分析课程教学方 面积极开拓创新,实现线下教学和线上服务的巧妙结合。课程主讲教师建设了国内 高校首个大数据课程公共服务平台,提供讲义PPT、课程习题、学习指南、授课视频、 技松料等包位、一立轼免费服务,帮僻生更尊习力培养学生的综具体目标为: (一)专业能力目标学习爬虫,可以订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理 进行更深入的理解;大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们获 取更多的数据源,爬虫技术主要解决信息爬取的问题;学习SE0,完成爬虫的学习,可以更深入的理解搜索引擎爬虫的工作原理,从 而可以更好的进行搜索引擎优化;(二)方法能力目标 1 .具有有限条件下思考问题的能力、理性思维分析能力。 2 .初步具有以定性和定量相结合的方法分析和解决大数据方面问题的能力 四、学习情境设计 1 .设计思路 本课程坚持教、学、做合一的设计理念,培养学生的案例实战分析雕刻能力为 目标,以具体工作任务的学习为切入点,按照企业工程案例的工程规范要求,从简 单工程到复杂工程、从易到难、注重实践的原那么,设置7个学习情景,确保课程内 容的合理性与连续性。通过任务驱动的教学模式,以示范操作、技术讲解、实践操作的教 学方式展开教学过程。学习情境的设计主要考虑以下因素: (1)学习情境的设计要符合工作过程系统化的教学设计思想的要求。学习情 境是在学校实训室对真实工作过程的教学化加工,以完成某个完整的工作任务为目标。 (2)按照工程驱动的教学模式编排课程内容,在教学过程中,采用工程例如, 表达工学结合,培养学生职业岗位实际工作任务所需要的知识、能力、素质,为学生可持续 的专业开展奠定良好基础。 2 .课程内容及教学要求(一)课程整体内容 序号 任务 任务 任务 任务 四 任务 五 任务 六 任务 七 任务 八 任务 九 任务 十 工作 任务 名称 全面 剖析 网络 爬虫 分布 式爬 虫 虫方面 爬的方面 处理 HTML 页面 非 HTML 正文 抽取 多媒 体数 据抽 取 去除 网页 中的 噪声 分析 WEB 图 去 除 重 复 的 文 档 分类 与聚 类的 应用 学时 分配 4 8 8 8 8 4 8 4 8 4 学时合计:64学寸(其中实践教学学时比例为25 %) 理论学时:48 实践学时:16 序号 工作任务划分 教学目标和主要内容 参考 学时 知识目标 能力目标 1 任务一:全 面剖析网络爬 虫 全面剖析网络爬虫 1.1抓取网页 1. 2宽度优先爬虫和带偏好的爬 虫 1. 3设计爬虫队列 4 2 任务二:分 布式爬虫 分布式爬虫 2.1设计分布式爬虫 2. 2分布式存储 2. 3Google的成功之道一GFS 2. 4Google网页存储秘诀 --BigTable 2. 5Google的成功之道一 MapReduce 算法 8 3 任务三:爬 虫的方方囿面 爬虫的方方囿囿 3. 1 爬虫中的〃黑洞〃 3. 2 主题爬虫和限定爬虫 3.3 有〃道德〃的爬虫 8 4 任务四:处 理HTML页面 处理HTML页面 4.1征服正那么表达式 4. 2抽取HTML正文 4. 3抽取正文 4. 4从中抽取信息 8 5 任务五:非 HTML正文抽取 非HTML正文抽取 5. 1 抽取PDF文件 5.2 抽取Office文档 5.3 抽取RTF 8 6 任务六:多 媒体数据抽取 多媒体数据抽取 6. 1视频抽取 6. 2音频抽取 4 7 任务七:去除 网页中的噪声 去除网页中的噪声 7.1 〃噪声〃对网页的影响 7.2 利用〃统计学〃消除〃噪声〃 7.3 利用〃视觉〃消除〃噪声〃 8 8 任务八:分 析WEB图 分析WEB图 8. 1存储Web 〃图〃 8.2利用Web〃图〃分析链接 8. 3 Google 的秘密一PageRank 8. 4PageRank 的兄弟 HITS 8.5PageRank J^IITS t:傲 4 9 任务九:去 除重复的文档 去除重复的文档 9.1 何为〃重复〃的文档 9.2 利用〃语义指纹〃排重 9.3 3 SimHash 1建 9. 4 分布式文档排重 8 10 任务十:分 类与聚类的应 用 分类与聚类的应用 10.1网页分类 10. 2网页聚类 4 五、考核标准 1 .考核方式 理论与实践一体化评价。本课程考核含过程考核和结果考核。过程考核重点考察 学生平时出勤、课堂表现、平时作业、小组工程作业、课堂提问。这些成绩作为学生 平时成绩一并计入考核成绩中。占学期总成绩的40%o结果考核即期末考试,占总 成绩的60%,期末考试为标准化题型。 2.考核比例及要求 学期总评成绩=平时成绩(40%) +期末成绩(60) 过程考核(平时成绩) 平时成绩(100%)=出勤(10%) +课堂表现(10%) +平时作业完成(10%) +10次 作业(40) +课堂提问(30%) 结果考评(期末成绩)(100%):卷面考试,案例分析。 六、实施建议 1 .教材编写 必须依据本课程标准选用或编写教材。教材编写或选用要反映新知识、新技术, 要充分表达工程课程设计思想,以工作任务为载体实施教学,任务选取要科学、符 合课程的工作逻辑,让学生在完成工作任务的过程中逐步提高职业能力。 2 .教学建议 在教学中,应重视现代信息技术的应用,注重教学课件、视频等网络课程资源 开发与利用,提高课程教学的趣味性、实效性,注重实训指导书的开发和应用。 在教学中,应以学生为中心,加强对学生职业能力的培养,充分调动学生学习 的主动性与积极性。 在教学中,要为学生提供良好的上机操作的机会与平台,引导学生提升职业素 养。 3 .教学条件 教师要求:热爱教育事业,具备较强的沟通能力和爱岗敬业、为人师表、锐意 进取的职业道德;本课程授课教师除了具备理论知识的讲授能力外,还应具有较强 的常用设备网络实际操作能力,能够解决学生操作过程中遇到的各种问题。 实训条件:网络实训室,并有实验器材4. 课程资源 (1)教师向学生提供实践所需要的材料,提高学习效率。教学课件、学习指 导和教学视频等可通过网络共享资源。 (2)充分利用行业资源,为学生提供阶段实训,让学生在真是的环境中磨炼 自己,提升其职业综合素质。 (3)编写实训指导手册和电子实验题目,通过完成具体的工作任务来让学生 体会学习的乐趣和成就感。 5.其他说明 1 .主教材《自己动手写网络爬虫》罗刚主编,清华大学出版社。 2 .参考书 [1]罗刚网络爬虫全解析一一技术、原理与实践.电子工业出版社.2017 年. [2]班摩从Lucene至Klasticsearch:全文检索实战.清华大学出版社. 2017 年. [3]韦玮.精通Python网络爬虫:核心技术、框架与工程实战.机械工业出版社;第1版(2017年4月1日)- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python网络爬虫 Python 网络 爬虫 课程标准 高职
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文