基于Selenium%2BPython%2BTableau的BOSS直聘数据的爬取与分析——以“软件”专业为例.pdf
《基于Selenium%2BPython%2BTableau的BOSS直聘数据的爬取与分析——以“软件”专业为例.pdf》由会员分享,可在线阅读,更多相关《基于Selenium%2BPython%2BTableau的BOSS直聘数据的爬取与分析——以“软件”专业为例.pdf(5页珍藏版)》请在咨信网上搜索。
1、基于 的 直聘数据的爬取与分析 以“软件”专业为例李泽文,陈晓柱(广州城市职业学院 信息工程学院,广东 广州)摘 要:大数据背景下,从数据采集、数据预处理、数据可视化三维度出发,深入挖掘 直聘网站的大规模招聘信息。首先阐明大数据爬取和分析的关键技术;再结合 框架与 语言进行爬虫算法设计与招聘数据的爬取与存储;进而利用 工具,从岗位、薪资、经验及学历四个方面进行了用人单位对软件人才需求的数据可视化分析,以期为高职软件专业学生培养和就业提供参考和借鉴。关键词:网络爬虫;数据可视化;中图分类号:文献标识码:文章编号:()收稿日期:基金项目:广东省教育厅 年教育教学改革项目“面向高职专业学院计算机应用
2、技术专业的学生职业素质测评探索与实践”(编号:);广州城市职业学院 年教学质量与教学改革工程项目“开发技术与设计完美结合的 前端设计项目式立体化教学”(编号:)。作者简介:李泽文,女,广州城市职业学院信息工程学院副教授。随着新一代信息化数字化技术的高速发展,网络招聘逐渐成为求职应聘的主流形式。来源更为丰富的招聘数据呈现指数级增长趋势,深入挖掘招聘数据背后隐藏的价值具有重要的现实意义“就业是最大的民生工程、民心工程、根基工程”。据教育部统计,届全国普通高校毕业生规模预计达 万,同比增加 万。作为教育工作者,如何帮助毕业生在庞大复杂的招聘信息中找到心仪的工作,从而推进毕业生就业工作做实做优,是值得
3、深思的问题。大数据技术为此提供了更为优化、创新、开阔的思维及视角,通过采集和分析 直聘数据网络招聘数据,挖掘高职软件人才的需求特征、任职要求,既可为毕业生求职提供具有参考价值的指导信息,同时也对推动“数据驱动”的高职软件专业精准培养具有重要参考价值。一、关键技术 (一一)语语言言简简介介 语言是一种简洁易学、可移植、可扩展、拥有丰富库的开源脚本语言,在人工智能、网络爬虫、数据分析等诸多领域得到广泛运用。不仅提供了非常完善的标准库,还有许多高质量的第三方库,几乎覆盖计算的各个领域,例如用途广泛的自动化工具 库、高性能的科学计算和数据分析工具、库和功能强大的绘图工具 库等,使用 语言进行数据采集和
4、分析具备非常明显的优势和价值。(二二)网网络络爬爬虫虫原原理理网络爬虫,也被称为网络蜘蛛或网络机器人,是互联网时代一项运用非常普遍的网络信息搜索技术。爬虫技术的本质是一套实现高效下载的系统,通过遍历网络内容,按照指定规则提取所需的网页数据,并下载到本地形成互联网网页镜像备份的第 卷第 期 年 月广 州 城 市 职 业 学 院 学 报Journal of Guangzhou City Polytechnic 程序。它还可以定向采集某些网站下的特定信息,比如招聘等信息。根据设置入口的招聘网页地址,爬虫将会依据设定好的爬取方法把招聘网站数据以可阅读文本的格式保存到当前计算机储存下来,同时摘取招聘页面
5、中的其他 地址当成接下来爬虫的起始网页地址,直至完成所有爬取任务或预先设定的终止条件满足后才停止爬取。(三三)框框架架 是一个 应用程序测试工具。在爬虫的应用中,常规的 模块能模拟浏览器发送请求,而 模块则能控制浏览器发送请求,并和获取到的网页中的元素进行交互,因此,只要是浏览器发送请求能得到的数据,模块也能直接得到。用 模块爬取网页上动态加载的数据需要携带各种复杂的参数,编写程序时比较麻烦,而且会受到网站反爬机制的限制,而用 模块爬取动态加载的数据则要相对简单一些,同时可以绕过一些网站设置的反爬措施,从而更好地爬取数据,特别是对于一些 动态渲染的页面来说,此种抓取方式非常有效。(四四)工工具
6、具 是一款基于斯坦福大学在数据分析领域中的突破性研究成果的数据分析与可视化工具,专注于结构化数据的快速可视化。使用者可以快速进行数据可视化并构建交互界面,用来辅助人们进行视觉化思考交互式操作,动态呈现数据变化趋势。能够跟随思维轨迹,快速地进行视图切换,而不是使用向导或是编写脚本程序。点击相关数据,它就可以快速创建一个可视化和交互式的分析视图,工作效率比现有的数据分析工具的性能高出数倍。二、数据采集 (一一)爬爬虫虫算算法法设设计计通过 框架,对 直聘网站进行全国范围招聘数据的采集。首先,创建浏览器对象(以 为例)();使用 方法打开目标,使用手机扫码登录,然后 端网页会自动翻 直聘网站的网页,
7、直到翻到预先设定的 直聘网站最后一页,就会停止对招聘信息的爬取;通过 名称和 查找方式进行定位包含招聘信息的 元素并提取目标数据,采集完一页数据后通过 点击下一页,接下来开始循环遍历,最后采集完预先设定的页数后,将获取的数据写入并保存在 文件中,数据采集结束,设计流程如图 所示。图 爬虫算法设计流程图 (二二)创创建建实实例例并并访访问问招招聘聘信信息息 实例化带有配置的 对象,通过 启动 程序直接访问目标网站,页面在加载的过程中需要花费时间等待网站服务广州城市职业学院学报 年第 期器的响应,在这个过程中标签元素有可能还没有加载出来,是不可见的,并添加隐式等待,隐式等待设置一个等待时间,如 秒
8、,在该时间段内判断元素是否定位成功,如果完成了,就进行下一步,在设置的时间内没有定位成功,则会报超时加载。(三三)招招聘聘信信息息数数据据爬爬取取通过 名称和 查找方式进行定位并获取招聘数据,其中包含公司名称、岗位名称、薪资范围、行业领域、公司地区、学历要求、经验要求等数据,将获取的数据放在已创建的字典中,通过()方法写入 文件中,完成当前页数据的采集,再利用 对象自动点击下一页进行翻页,同时调用 循环语句,循环采集数据和翻页操作。由于程序可能出现一些错误或异常,因此在进行采集和翻页操作时,可以利用 异常处理结构来捕获和处理异常,如果程序发生的异常经 捕获并由 处理完成,则程序可以继续执行,反
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Selenium BPython BTableau BOSS 数据 分析 软件 专业
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
链接地址:https://www.zixin.com.cn/doc/575013.html