分销赏收藏举报申诉 / 8

立即下载开通VIP

当前位置：首页 > 学术论文 > 其他 > 山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc

上传人：快乐****生活

文档编号：3941859

上传时间：2024-07-24

格式：DOC

页数：8

大小：67.04KB

《山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc》由会员分享，可在线阅读，更多相关《山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc（8页珍藏版）》请在咨信网上搜索。

1、山东建筑大学课程设计成果报告题目：基于Python的网络爬虫设计课程: 计算机网络A院 (部）：管理工程学院专业: 信息管理与信息系统班级：学生姓名：学号：指导教师:完成日期：1目录1 设计目的12 设计任务内容13 网络爬虫程序总体设计14 网络爬虫程序详细设计14.1 设计环境和目标分析14.1。1 设计环境14。1.2目标分析24。2 爬虫运行流程分析24.3控制模块详细设计34.3 爬虫模块详细设计34。3。1 URL管理器设计34.3。2 网页下载器设计34。3.3网页解析器设计34。4数据输出器详细设计45 调试与测试45。1调试过程中遇到的问题45。

2、2测试数据及结果显示56 课程设计心得与体会57 参考文献68 附录1 网络爬虫程序设计代码69 附录2 网络爬虫爬取的数据文档951 设计目的本课程设计是信息管理与信息系统专业重要的实践性环节之一，是在学生学习完计算机网络课程后进行的一次全面的综合练习.本课程设计的目的和任务：1巩固和加深学生对计算机网络基本知识的理解和掌握；2培养学生进行对网络规划、管理及配置的能力或加深对网络协议体系结构的理解或提高网络编程能力；3提高学生进行技术总结和撰写说明书的能力.2 设计任务内容网络爬虫是从web中发现，下载以及存储内容，是搜索引擎的核心部分.传统爬虫从一个或若干初始网页的URL开始，获得初始网页

3、上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。参照开放源码分析网络爬虫实现方法,给出设计方案，画出设计流程图。选择自己熟悉的开发环境,实现网络爬虫抓取页面、从而形成结构化数据的基本功能,界面适当美化。给出软件测试结果。3 网络爬虫程序总体设计URL管理器数据输出器网页下载器网页解析器爬虫控制器在本爬虫程序中共有三个模块：1、爬虫调度端:启动爬虫,停止爬虫,监视爬虫的运行情况2、爬虫模块：包含三个小模块,URL管理器、网页下载器、网页解析器。（1） URL管理器：对需要爬取的URL和已经爬取过的URL进行管理，可以从URL管理器中取出一个

4、待爬取的URL，传递给网页下载器.（2）网页下载器:网页下载器将URL指定的网页下载下来，存储成一个字符串，传递给网页解析器。（3）网页解析器：网页解析器解析传递的字符串，解析器不仅可以解析出需要爬取的数据，而且还可以解析出每一个网页指向其他网页的URL，这些URL被解析出来会补充进URL管理器3、数据输出模块：存储爬取的数据4 网络爬虫程序详细设计4.1 设计环境和目标分析4。1。1 设计环境IDE：pycharmPython版本：python2。7.134。1。2目标分析目标：从百度词条Python开始，以广度优先的方式，爬取相关联的若干词条网页的标题和简介（1）初始URL：”http

5、：/baike.baidu。com/item/Python?sefr=ps”（2)词条页面URL格式：http:/baike。（3）数据格式：标题dd class=”lemmaWgtlemmaTitle-title”h1Python/h1简介-（4）页面编码：utf-84。2 爬虫运行流程分析爬虫程序的运行流程如图所示。（1）爬虫控制器从给定的URL开始,将给定的初始URL添加到URL管理器中，然后调用URL管理器的相关方法，判断是否有待爬取的URL（2） URL判断是否有待爬取的URL，如果有待爬取的URL，则返回给控制器,控制器将这个URL传递给网页下载器，下载该网页（3）网页下载器

6、将下载好的数据返回给控制器,控制器再将返回的数据传递给网页解析器解析（4）网页解析器解析网页之后获取网页数据和网页的URL链接,再将这两个数据传递给控制器（5）控制器得到解析出来的数据之后，将新的URL链接传递给URL管理器，将价值数据传递给数据输出器输出（6）数据输出器以文本的形式输出传递进来的数据。（7）回到第一步，循环4。3控制模块详细设计爬虫控制器主要负责调度各个模块，所以在设计的时候只需要一次调用其他模块的方法，给对应的模块传递数据即可。比较简单，可参见附录1查看源码。4。3 爬虫模块详细设计4。3。1 URL管理器设计URL管理器主要管理待抓取的URL集合和已抓取的URL集

7、合.URL管理器设计的难点在于:防止重复抓取，防止循环抓取。判断是否还有待爬取URL添加新URL到待爬取集合中获取待爬取URLURL管理器将URL从待爬取集合移动端已爬取集合判断待添加URL是否在容器中常用的URL管理器存储方式有三种，一是使用python内存即set集合来存储URL，二是使用数据库，例如MySQL，三是使用缓存数据库，例如redis。因为这只是个简单的python爬虫，所以我们选择利用内存存储URL。建立两个集合，一个为待爬取集合，一个为已爬取集合,功能上图所示。4。3。2 网页下载器设计网页下载器是将互联网上URL对应的网页下载到本地的工具.Python常用的网页下载器有两

8、种，一个是python自带的urllib2，一个是第三方包requests。这里我们选用的是urllib2,比较简单的网页下载工具，其中最简洁的下载网页的代码如下：import urllib2response = urllib2。urlopen（url) 如果请求码不是200,则表示请求不成功。典型的错误包括404(页面无法找到），403（请求禁止），401（待验证的请求） 5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误，不能继续执行请求if response.getcode(）！= 200: print ”download html failed”cont= respo

9、nse。read（）4。3。3网页解析器设计网页解析器是从网页中提取有价值数据的工具.价值数据网页解析器新URL列表HTML网页字符串Python常用的解析器有四种，一是正则表达式，二是html.parser，三是beautifulSoup，四是lxml。这里我选用的是beautifulSoup作为我的网页解析器，相对于正则表达式来说，使用beautifulSoup来解析网页更为简单.beautifulSoup将网页转化为DOM树来解析，每一个节点是网页的每个标签，通过它提供的方法，你可以很容易的通过每个节点获取你想要的信息。使用方法如下：创建BeautifulSoup对象soup = Bea

10、utifulSoup(html_cont, html.parser, from_encoding=utf8）查找所有标签为a的节点，且href匹配正则表达式links = soup。find_all(a, href=re。compile(r/item/”）查找所欲标签为div的节点summary_node = soup。find(div， class_=”lemmasummary”）4。4数据输出器详细设计数据输出器是负责数据输出的工具.如果要输出的文件不存在，程序会自动创建，并且每次重写之前都会清空网页的内容。这里我选择的输出方式是TXT文档，直接将数据分析器得到的数据存储在output。t

11、xt文件中。5 调试与测试5。1调试过程中遇到的问题（1）爬取第一个页面之后没有新的页面解决方案：根据子网页，选择合适的正则表达式（1）测试过程中某些网页中缺少标题或简介。解决方案：往集合中添加数据的时候，判断一下是否为空，不为空再添加。5.2测试数据及结果显示测试的结果以txt文档形式显示，生成的文档路径和代码路径一致、6 课程设计心得与体会Python是一门面向对象的解释性语言（脚本语言）,这一类语言的特点就是不用编译，程序在运行的过程中，由对应的解释器向CPU进行翻译，个人理解就是一边编译一边执行。而Java这一类语言是需要预先编译的。没有编译最大的痛苦就是无法进行断点调试,唯一的办法

12、就是在有疑问的地方打印各个变量的值来进行调试。这一类语言也没用类型，也就是说一个变量即可能是int型,但是也可能是String型，而且可以随时变化。python对于代码格式要求也相当严格，通过对于缩进的距离来判断代码是否处于同一个代码块。Python也不依靠分号来决定一句代码是否结束，一行代码就是一句代码。这样做的好处在于代码编写看上去很统一,不过习惯了java再看python，一开始还真的有点懵。总得来说，对Python的初涉感觉不错，这门语言相比较Java更加的简洁，这次的课设是初步接触python，以后会自己深入学习。7 参考文献1钱程，阳小兰，朱福喜等。基于Python的网络爬虫技术J

13、。黑龙江科技信息，2016，（36）：273。2戚利娜，刘建东。基于Python的简单网络爬虫的实现J.电脑编程技巧与维护，2017，（8)：72-73。3Wesley。J.C,Core Python Programming. 2001-9118 附录1 网络爬虫程序设计代码spiderMain。py coding：utf-8import loggingfrom webCraler import url_manager, html_downloader， html_outputer， html_parserclass SpiderMain（object）:#初始化URL管理器，网页下载器，网页

14、解析器和数据输出器def _init_（self):self.urls = url_manager。UrlManager(）self。downloader = html_downloader.HtmlDownloader（)self。parser = html_parser。HtmlParser(）self.outputer = html_outputer。HtmlOutputer（)爬取网页def craw(self， url）： count = 1向URL管理器添加新的URLself。urls。add_new_url（url)while self。urls.has_new_url()：tr

15、y：如果有新的URL,获取这个新的URLnew_url = self。urls。get_new_url（）打印这是第几个爬取的URLprint craw %d ： %s (count, new_url）使用网页下载器下载这个网页的内容html_cont = self。downloader。download(new_url)使用网页解析器解析这个网页的内容，分别为URL和数据new_urls, new_data = self.parser。parse(new_url, html_cont)将解析器解析的 RL添加到URL管理器self。urls.add_new_urls(new_urls)将解析

16、器解析的数据传递给数据输器self。outputer。collect_data(new_data）# 爬取10个数据后自动结束if count = 20:breakcount = count+1except Exception as e： logging。exception（e）print craw failed数据输出器将数据使用HTML的方式输出self.outputer.output_html()if _name_ = _main_：print ”begin”root_url = ”http:/baike。 = SpiderMain(） obj_spider。craw（root_url）

17、url_manager.py coding：utf8class UrlManager(object）:def _init_(self）：self.new_urls = set（）self.old_urls = set() 添加URLdef add_new_url（self, url）：if url is None:return if url not in self.new_urls and url not in self。old_urls:self.new_urls。add（url）def add_new_urls（self， urls）：if urls is None or len（urls

18、） = 0：return for url in urls：self。add_new_url（url）def has_new_url(self):return len（self。new_urls） != 0def get_new_url(self）: new_url = self.new_urls.pop（)self。old_urls.add（new_url）return new_urlhtml_downloader.py coding:utf8import urllib2class HtmlDownloader（object):def download（self， url)：if url is

19、 None：return Noneresponse = urllib2。urlopen(url)# 如果请求码不是200，则表示请求不成功。典型的错误包括404(页面无法找到),403（请求禁止），401(待验证的请求） 5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误，不能继续执行请求if response。getcode（） != 200:print ”download html failed”return Nonereturn response。read（）url_parse.py coding:utf8import urlparsefrom bs4 import Be

20、autifulSoupimport reclass HtmlParser（object）：def parse（self， page_url， html_cont)：if page_url is None or html_cont is None：returnsoup = BeautifulSoup(html_cont， html。parser， from_encoding=utf-8)#解析URL列表，获取URLnew_urls = self._get_new_urls（page_url， soup）# 解析数据new_data = self._get_new_date(page_url， s

21、oup）print new_datareturn new_urls, new_datadef _get_new_urls(self, page_url, soup)： new_urls = set(）# http：/baike。baidu。com/item/%E8%87%AAE7%94B1%E8%BDAFE4BBB6 # http：/ = soup。find_all（a， href=re。compile(r”/item/%）for link in links： new_url = linkhref# http:/baike。baidu。com/item/Python?sefr=psnew_fu

22、ll_url = urlparse.urljoin（http：/baike。baidu。com/，new_url) new_urls。add(new_full_url）return new_urlsdef _get_new_date(self, page_url, soup): res_data = urlres_dataurl = page_url# dd class=”lemmaWgtlemmaTitletitle”h1Pythontitle_node = soup。find(dd，class_=”lemmaWgt-lemmaTitletitle”)。find（h1） res_datati

23、tle = title_node。get_text(） div class=lemmasummary” label-module=lemmaSummary”summary_node = soup。find（div， class_=”lemma-summary)#这句话有可能出现空！!res_datasummary = summary_node。get_text()print res_datasummaryreturn res_datahtml_outputer。py coding：utf8class HtmlOutputer（object）：def _init_（self)：# 建立列表存放数

24、据self.datas = # 收集数据def collect_data（self， data)：if data is None:returnself。datas。append（data）# 输出数据def output_html（self): fout = open(output。txt， w)for data in self。datas： fout。write（dataurl+”n”) fout.write(datatitle。encode（utf8）) fout。write（datasummary.encode(utf8)+”nn） fout.close（）9 附录2 网络爬虫爬取的数据

25、文档http:/baike。（英国发音:/pan/ 美国发音:/pan/），是一种面向对象的解释型计算机程序设计语言，由荷兰人Guido van Rossum于1989年发明，第一个公开发行版发行于1991年.Python是纯粹的自由软件，源代码和解释器CPython遵循 GPL(GNU General Public License)协议2。Python语法简洁清晰，特色之一是强制用空白符（white space）作为语句缩进。Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C+）很轻松地联结在一起。常见的一种应用情形是,使用Python快速

26、生成程序的原型（有时甚至是程序的最终界面），然后对其中3有特别要求的部分，用更合适的语言改写，比如3D游戏中的图形渲染模块，性能要求特别高,就可以用C/C+重写，而后封装为Python可以调用的扩展类库.需要注意的是在您使用扩展类库时可能需要考虑平台问题，某些可能不提供跨平台的实现。http：/ (source code) 预处理器（preprocessor) 编译器（compiler) 目标代码 (object code）链接器（Linker）可执行程序（executables)高级计算机语言便于人编写,阅读交流,维护.机器语言是计算机能直接解读、运行的。编译器将汇编或高级计算机

27、语言源程序（Source program）作为输入，翻译成目标语言（Target language)机器代码的等价程序。源代码一般为高级语言（High-level language），如Pascal、C、C+、Java、汉语编程等或汇编语言,而目标则是机器语言的目标代码（Object code），有时也称作机器代码（Machine code）。对于C#、VB等高级语言而言，此时编译器完成的功能是把源码(SourceCode）编译成通用中间语言（MSIL/CIL）的字节码（ByteCode）。最后运行的时候通过通用语言运行库的转换,编程最终可以被CPU直接计算的机器码(NativeCode）

28、. E. Knuth 。1http：/baike。baidu。com/item/E9%A284E5A4%84%E790%86%E599%A8预处理器预处理器是在真正的编译开始之前由编译器调用的独立程序.预处理器可以删除注释、包含其他文件以及执行宏（宏macro是一段重复文字的简短描写）替代。http：/baike.baidu。com/item/E7%9B%AE%E6A087E4BBA3%E7A0%81目标代码目标代码(object code）指计算机科学中编译器或汇编器处理源代码后所生成的代码，它一般由机器代码或接近于机器语言的代码组成。http：/baike。baidu。com/item/E

29、9AB98E7BAA7E8%AFADE8A8%80高级语言高级语言(Highlevel programming language）相对于机器语言（machine language，是一种指令集的体系。这种指令集，称机器码(machine code），是电脑的CPU可直接解读的数据）而言。是高度封装了的编程语言，与低级语言相对。它是以人类的日常语言为基础的一种编程语言,使用一般人易于接受的文字来表示(例如汉字、不规则英文或其他外语)，从而使程序编写员编写更容易,亦有较高的可读性，以方便对电脑认知较浅的人亦可以大概明白其内容。由于早期电脑业的发展主要在美国，因此一般的高级语言都是以英语为蓝本。在1980年代，当东亚地区开始使用电脑时,在日本、台湾及中国大陆都曾尝试开发用各自地方语言编写的高级语言，当中主要都是改编BASIC或专用于数据库数据访问的语言，但是随着编程者的外语能力提升，现时的有关开发很少。由于汇编语言依赖于硬件体系,且助记符量大难记，于是人们又发明了更加易用的所谓高级语言。在这种语言下，其语法和结构更类似汉字或者普通英文，且由于远离对硬件的直接操作，使得一般人经过学习之后都可以编程。高级语言通常按其基本类型、代系、实现方式、应用范围等分类。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

6 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于Python的网络爬虫设计山东建筑大学计算机网络课程设计基于 Python 网络爬虫设计

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【快乐****生活】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.doc
链接地址：https://www.zixin.com.cn/doc/3941859.html

快乐****生活

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手