高校新闻网系统的设计与实现硕士-学位论文.doc
《高校新闻网系统的设计与实现硕士-学位论文.doc》由会员分享,可在线阅读,更多相关《高校新闻网系统的设计与实现硕士-学位论文.doc(72页珍藏版)》请在咨信网上搜索。
学校代号 10532 学 号 G131560413 分 类 号 TP311 密 级 公开 工程硕士学位论文 高校新闻网系统的设计与实现 学位申请人姓名 培 养 单 位 软件学院 导师姓名及职称 学 科 专 业 软件工程 研 究 方 向 高等教育管理信息化 论文提交日期 2015年10月10日 学校代号:10532 学 号:G131560413 密 级:公开 湖南大学工程硕士学位论文 高校新闻网系统的设计与实现 学位申请人姓名: 导师姓名及职称: 培 养 单 位: 软件学院 专 业 名 称: 软件工程 论文提交日期: 2015年10月10日 论文答辩日期: 2015年12月12日 答辩委员会主席: Design and Implementation of University News Net System by LI Xinyu B.E.(Jishou University)2006 A thesis submitted in partial satisfaction of the requirements for the degree of Master of science in Software Engineering in the Graduate school of Hunan University Supervisor Professor Yin Shiyou October,2015 工程硕士论文 湖 南 大 学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。 除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的 成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完 全意识到本声明的法律后果由本人承担。 作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有 关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以 将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 本学位论文属于 1.保密□ ,在 年解密后适用本授权书。 2.不保密□。 (请在以上相应方框内打”√”) 作者签名: 日期: 年 月 日 导师签名: 日期: 年 月 日 工程硕士论文 摘 要 随着网络在世界范围的飞速发展,互联网作为最具潜力与活力的媒体已经被公认是继报纸,广播,电视之后的“第四媒体”,成为反映社会新闻热点的重要载体。为了及时了解高校内部重大事件和网络新闻热点,相关机构引入了高校新闻网系统。在传统高校新闻网系统的基础上对高校新闻网系统进行改进,使得系统能通过爬虫技术进行对“感兴趣”的新闻数据信息进行获取,以此来实现新闻定制功能。首先利用爬虫技术将新闻数据获取到本地数据库中,然后将新闻信息以及新闻分析的结果将在前台网页中进行可视化输出,前台主要由HTML+CSS来实现,后台主要通过JDBC+SQL实现。 本文主要进行了以下几个方面的工作: (1) 对当前相关课题研究背景和现状进行分析,得出当前高校新闻网系统所存在的主要问题。并对新闻网系统相关的开发技术进行研究和学习,提出系统设计部分所使用的技术方案。 (2) 根据新闻网系统的实际情况及所存在的问题,对其进行需求分析,包括了系统的功能性需求分析和非功能性的需求分析。 (3) 通过调查研究,本文所设计的新闻网系统主要包括了系统管理模块、新闻信息采集模块、新闻信息发布模块、新闻信息评论模块、站内搜索模块及信息汇总分析模块等六大功能模块。并对其中的主要功能模块进行详细的设计和开发。 (4) 对系统进行实现和测试,包括了系统的主要功能模块实现及功能性方面的测试,并对测试结果进行分析。 从系统实际运行和功能性测试的情况可以看出,系统的功能完善,性能出色,基本满足高校对新闻网的需求,实现了新闻信息发布及时性、高效性,达到了预期的效果。 本文创造性的成果在于利用互联网技术解决高校新闻网在实际应用过程中所存在的问题,将高校新闻信息管理与互联网技术相结合,为高校大学生提供了一个自由的新闻信息交流平台。通过该平台,大学生及网站访问者可以发表自己的意见和看法,同时也可以进行在线投稿的方式来发布当前的热点新闻信息。大大实现了新闻热点信息的及时高效传播,减少了人力、物力成本,提高了效率。 关键词:新闻热点;高校新闻网;B/S;J2EE; I Abstract With the rapid development of Internet in the world, the Internet as the most potential and dynamic media have been recognized after newspapers, radio, television's "fourth media", a reflection of the social hot news important carrier. In order to keep abreast of events inside the universities and network news hot spots, relevant institutions to introduce university news network systems. Based on the traditional system of colleges and universities News on colleges and universities to improve information network system, so that the system can be of crawler technology "interesting" news data information acquisition, in order to achieve the news customization features. Firstly crawler technology to get news data to a local database, then the results news and news analysis will visualize the output pages at the front desk, the front desk mainly by HTML + CSS to achieve, background, mainly through JDBC + SQL implementation. This paper`s mainly works include the following aspects: (1) The background and status of current research related topics were analyzed and the main problems of the current system of colleges and universities that exist News Network. News systems and the development of technology related to research and study, propose technical solutions used part of the system design. (2) According to the actual news network systems and the problems, its needs analysis, including the analysis of the functional requirements of the system and non-functional requirements analysis. (3) Through research, design herein News Network system includes a system management module, news and information collection module, news and information release modules, news commentary module, the station search module and analysis module summary information such as the six functional modules. And one of the main function module detailed design and development. (4) Implementation and testing of the system, including the main function modules of the system to achieve and functional aspects of the test, and to analyze the test results. As can be seen from the actual operation of the system and functional testing, functional system improvement, excellent performance, basically meet the needs of universities for news network, to achieve the release of news and information in a timely manner, high efficiency, to achieve the desired effect. In this paper, the results of that creative use of Internet technology to solve Universities News in practical application process the problems, the universities and the Internet news information management technology, for college students to provide a free news and information exchange platform. Through the platform, university students and site visitors can express their views and opinions, but also for online submission of ways to publish current hot news. Greatly to achieve a timely and efficient dissemination of information news hot spots, reduced manpower, material costs and improves the efficiency. Keywords: Hot News; Universities News Network; B/S; J2EE; III 目 录 摘 要 I Abstract II 目 录 IV 第1章 绪 论 1 1.1 课题背景与研究意义 1 1.2 国内研究现状 3 1.3 论文的研究目的与内容 4 1.4 论文的组织结构 6 第2章 系统相关技术 7 2.1 J2EE体系概述 7 2.2 网络爬虫技术 7 2.2.1 URL 8 2.2.2 网络爬虫概述 8 2.3 B/S体系结构 9 2.4 MVC架构体系 10 2.5 SQL Server 2005 概述 11 2.6 本章小结 12 第3章 高校新闻网系统需求分析 13 3.1 系统需求分析概述 13 3.2系统可行性分析 13 3.2.1 技术可行性 14 3.2.2 经济可行性 14 3.2.3 管理可行性 14 3.3 系统主要功能模块的需求分析 14 3.3.1 系统管理模块的需求分析 15 3.3.2 新闻信息采集模块的需求分析 16 3.3.3 新闻信息发布模块的需求分析 17 3.3.4 新闻信息评论模块的需求分析 18 3.3.5 站内搜索模块的需求分析 19 3.3.6 信息汇总分析模块的需求分析 19 3.4 系统性能需求分析 20 3.5 开发平台和语言 20 3.5.1 系统硬件平台 20 3.5.2 系统软件平台及开发工具 21 3.6 本章小结 21 第4章 高校新闻网系统的设计 22 4.1 系统概述 22 4.2 系统设计原则 22 4.3 系统功能模块划分 23 4.4 系统软件架构设计 23 4.5 系统主要功能模块的设计 25 4.5.1 系统流程分析 25 4.5.2 系统登录模块的设计 26 4.5.3 数据获取功能模块的设计 27 4.5.4 新闻信息采集模块的设计 29 4.5.5 新闻信息发布模块的设计 29 4.5.6 新闻信息评论模块的设计 31 4.5.7 信息汇总分析模块的设计 33 4.6 数据库的设计 35 4.6.1 数据库逻辑结构设计 35 4.6.2 系统数据库的E-R图 37 4.7 本章小结 37 第5章 高校新闻网系统的实现 38 5.1 系统运行环境 38 5.2 系统界面设计原则 38 5.3 系统主要功能模块的实现 39 5.3.1 系统主界面 39 5.3.2 注册登录模块 39 5.3.3 数据获取功能模块的实现 40 5.3.4 新闻信息采集功能模块的实现 43 5.3.5 新闻信息发布功能模块的实现 44 5.3.6 信息汇总分析模块的实现 45 5.3.7 站内搜索模块的实现 46 5.4 本章小结 48 第6章 高校新闻网系统的测试 49 6.1 系统测试环境设置 49 6.2 系统功能测试 49 6.3 测试结果分析 51 6.4 本章小结 51 结 论 52 致 谢 54 参考文献 55 V VII 附表索引 表3.1 dbo.newstype 28 表3.2 表News的结构 28 表3.3 数据源信息列表 28 表3.4 表Users的结构 29 表3.5 新闻信息列表 29 表5.1 测试用例一 74 表5.2 测试用例二 76 表5.3 测试用例三 77 表5.4 测试用例四 78 表5.5 测试用例五 78 表5.6测试用例六 80 IX 高校新闻网系统的设计与实现 第1章 绪 论 本章主要阐明了该课题的研究背景及其研究意义,简要说明了国内外对于高校新闻网系统的研究现状,并介绍了本论文的主要内容组成以及论文的组织结构。 1.1 课题背景与研究意义 近年来,随着互联网的发展迅速,各种新闻网站应运而生,新闻网逐渐成为各部门发布消息的重要渠道。学校是一个大的群体和组织,每天都发生许多重要事情,急需通过一种方便、快捷、高效的方式发布。高效新闻网已成为学校对内发布消息、对外进行宣传的最重要的窗口和阵地。当前,高校新闻媒体主要由学校广播站、校电视台、校记者团、微信公众号、校报等媒体组成。高校新闻网是一种由高校建立、发布高校内部新闻、传播相关信息、收集有关建议、服务广大师生的综合性媒体平台。它是对传统宣传媒体的扩展,也是对网络宣传的合理使用,它利用互联网的优势实现新闻信息的整合和发布。 互联网时代,高校新闻网将发挥着高校信息发布、大学形象塑造、学生思想教育和大学文化积淀等作用。 高校新闻网的信息发布一般包括三大方面:一是公布学校各项活动,比如工作安排、学术讲座、文艺活动和有关学校各类新闻等相关信息。二是与校外保持信息沟通,将学校内的媒体信息及时传给校外媒体,并从校外获取校园相关信息,及时整理发布,让广大师生能尽快了解到学校的最新资讯。三是收集国内外最新高教信息并保持日常更新,形成有价值的信息链,成为高校管理层决策提供信息源和资料库。 塑造大学形象的手段来说,高校新闻网具有灵活性,它不受出版周期篇幅长短限制,能第一时间报道和更新学校重大新闻,可以追求个性化的栏目设置等。塑造大学形象的过程来说,高校新闻网具有多样性,高校形象的塑造一方面需要不断积累自身的修养和大学生学术精神,同时也要通过校园媒体不断对展现高校自身的优良品质,提高高校的声望。公众媒体将高校网中的新闻信息获取并发布到网络中,广大民众可以通过社会新闻及时了解到各个高校的内部情况,极大的增加了高校内部事情的知晓度,增加了社会对高校新闻的了解。 塑造大学形象的效果来说,高校新闻网更具有影响力。高校新闻网站一般是其发布各种信息和新闻的权威机构,在互联网时代背景下,大众对高校的了解渠道越来越多地倾向于点击学校的门户网站。目前,一般学校的门户网站上的主体内容通常是高校新闻网,广大民众从网络了解到高校的第一手资料,通过网络中高校信息发布来加深对高校的了解。尤其是对于海外和众多校友来讲,可以说,高校新闻网让自己的社会关注度迅速增加,走出学校,走向世界。 目前,国内大部分高校都建成了自己的新闻网站,并能积极研究和探索网络媒体的基本规律,大胆创新,为广大师生和社会经济发展服务,迅速成为了传统媒体之后对外宣传、信息发布的重要阵地。针对高校新闻网运行现状及存在的共性问题,相关学者就如何更好地建设高校新闻网,使其更好地服务于大学发展战略的实施作了研究和探讨。 总体来说,大部分高校新闻网已呈现了网络和高校新闻宣传工作的直接融合,在大学发展和建设中发挥着不可替代的作用。但其上升空间仍然很大,仍存在一些突出问题需要改进和加强。这些问题主要是: (1)功能性单一、定位模糊 高校新闻网更多只是作为校方的新闻发布平台而存在,全面准确、快速及时进行新闻传播本是新闻网最主要的功能,但是不能成为唯一的功能,还应将与师生工作学习有关的各种信息及时进行提供和发布,并在这个基础上进行功能的延伸,更好地为教学科研服务。另外,高校新闻网作为高校重要的舆论宣传阵地,具有舆论引导和大学思想政治教育的功能。目前,一些高校新闻网在校园文化塑造过程中的作用不够突出,尚未能够完全引起学生规模性的文化共鸣,高校新闻网在校园文化建设方面的优势尚未得到充分发挥和利用[17]。 (2)互动性不强 高校新闻网的内容与师生的生活学习联系不够紧密,缺乏吸引力。内容更多是一种新闻报道,以宣传学校工作状态和成绩为主,对教师和学生关注度不够高,内容可读性不强,分析评论不多或者深度报道不够,这些问题导致师生的参与度不高,互动性不强[18]。从技术层面讲,互动也难以实现,无法体现新闻“贴近生活、贴近实际、贴近群众”的生动活泼要求。 (3)特色不明显 大多数高校新闻网的阅读对象都比较单一,定位也比较简单,主要担负新闻宣传和舆论引导,实用性不强,影响力有限,特色不够明显。同质化现象比较明显,有的学校栏目设置既没有体现学校风格,更无法体现学校的精神,尤其以学校特色为社会提供服务明显缺位[19]。 对该课题进行研究,既是推动高校信息化建设的必然要求,也是新时期高校顺应网络时代的特性,开拓育人发展新途径的迫切需要。应用网络通信技术传达最新动态,已成为今天通信中的重大部分,随着互联网的飞速发展,新闻在网络中的发布也越来越多的引起教育机构、政府及企业单位的高度重视。组建校园网新闻发布系统,快速传达校园内外最新动态,有利于加强师生的互动性,拓展师生的生活视野。本文阐述了校园网新闻发布系统的需求及内涵,深入分析校园网新闻发布系统的体系结构及应用,最终讨论新闻发布系统的编程技术与实现。编制校园网新闻发布系统应遵守软件工程的原则,本文从新闻发布系统设计、功能目标设计、具体页面的确定及数据库的设计等几个方面来说明新闻发布系统的技术与实现。 伴随着网络校园化,校园文化、校园动态的传播方也明显改变从过去的纸上传播变为网络传播。校园网新闻发布系统作为校园传播最新动态,传播学校方针,让同学了解学校了解社会的平台,它能为学校的建设计与发展带来深远的影响。同时也为学生的发展提供优越的环境。 互联网技术飞速发展,网络成为新闻媒介工具,其用户大大增加,对系统的要求也越来越高。以往的高校新闻网功能简单,效率低,新闻更新与维护难度大,成本高,难以满足广大用户的需求,不利于管理人员的使用。 要逐步加强新时期高校新闻网的影响力和感染力。作为新闻发布系统的重要组成部分,高校新闻网体系也因此得到了进一步发展。在目前市场经济的环境下,获得及时的信息的同时还需要高效的存储及读取和安全的防护措施来保护信息不受非法用户或未授权的用户窃取。由于现在信息的掌握和共享已经成为新闻网站吸引广大用户的制胜法宝,建立一个高效的存储和读取及高安全性的高校新闻网系统已经成为一种必然。 1.2 国内研究现状 现如今各个国家的新闻管理体系,基本上都是基于Internet技术平台而建立的,其界面以及中心分别是标准浏览器和完整的多媒体数据库,大量使用标准的Web以及群件技术。 整体来讲,在运营以及管理上,我国新闻行业要落后于其他国家。国外在很早之前就已建立了新闻管理体系,同时在采编新闻等方面也已完成了网络、无纸以及职能化。美国《纽约时报》所有员工的办公桌在很早之前就配置了集成语音的E-mail系统以及各种即时信息传递系统,比如网络聊天,在北电的CallPilot统一通信产品中,以上提到的功能都已实现。其编辑工作者能从不同渠道了解新闻信息,从而为各个新闻系统部门间友好合作提供保障,每个环节和流程都紧密相连,从而让新闻管理以及生产实现一体化,使新闻信息的传播以及采集范围有所拓展[2-3]。很多大型门户网站,比如雅虎和谷歌,它们为了在第一时间对网站信息的更新进行监测,都建立了网络信息自动搜集体系。除此之外,这些新闻网站基本上都能对RSS聚合功能提供支持,同时能在第一时间向用户推送新闻信息。像纽约时报以及华尔街日报等全球著名的新闻媒体网站,其电子版都具有RSS订阅功能,Wiki等极具代表性的Web2.0技术得到广泛应用[9]。 在信息化建设以及管理运营上,国外新闻业要领先于我国。不过这几年,我国新闻业的发展速度也很快,同时获得了一定成效,华文资讯等多家企业建立的新闻采集体系都获得了显著成效。很多智能和一体化同时有很强网络化的新闻管理体系,比如北大方正报业采编体系在一些媒体机构中得到了大量使用,同时出现了很多非常优秀的新闻门户网站,比如凤凰、腾讯以及人民网等。在采编以及发布新闻方面,这些门户网站基本上都采取了Web2.0的有关技术。比如,新华网具有涵盖世界各个角落的新闻信息采集网络,为了让读者能在第一时间了解新华网的新闻报道以及热点新闻,从2004年起开始提供RSS订阅功能,同时变成我国第一家提供RSS聚合新闻服务的门户网站。新华网RSS聚合新闻服务很容易操作,读者仅需通过其RSS聚合新闻服务,将自己想了解的栏目链接在RSS新闻阅读器中进行订阅,只要网站新闻有所更新,那么用户就能及时从RSS推送的新闻中进行了解,通过RSS新闻阅读器,用户就能了解自己想要知道的各种新闻[10]。Wiki技术被百度网站广泛使用,以Wiki为基础的百度百科已变成我国影响最大同时使用人数最多的互动式互联网百科全书。 通过实践可知,早在十几年前,我国报纸就有了网络化的苗头,不过现如今依然有9/10的报纸网络版处在起步阶段。而关于现如今各个国家一些对新闻门户网站已有的探究,主要有下面几个问题[11]: (1) 维护难度大 因为开发人员的技术以及水平有限,之前的系统代码编写非常混乱,尚未根据MVC的思想进行研究以及编写,没有清晰的逻辑,维护系统的难度非常大。 (2) 无法满足大规模房屋需求 我国大部分新闻网站在搜集以及发布新闻时,都是在一个服务器上完成。由于新闻网站门户性的需求,这样的方式已无法满足目前的需求。 (3) 管理用户界面存在不足 即使只有少部分人使用管理用户界面,不过完善的管理用户界面能提升员工的工作效率,减少劳动费用,便于使用。 (4) 系统功能有待加强 因为用户一直对系统功能提出新要求,之前仅具有信息维护作用的管理体系已无法满足用户现在的需要。 现有的新闻网系统管理员可以对用户信息和新闻内容进行增删改查,基本上处于最原始的网站发布系统,没办法从各大新闻网站自动获取自己感兴趣的新闻信息,对新闻进行定制。 1.3 论文的研究目的与内容 本小节主要明确系统的研究目标,根据系统的研究目的确定系统主要的研究内容。 (1)研究目的 高校新闻网系统的主要研究目的包括以下几点: ①引导舆论 通过正确的社会舆论有利于建设和谐社会。所以,构建和谐的校园文化也需要通过舆论来促进。作为高校重要舆论阵地的校园新闻网,更应该坚持正确的正直方向和舆论导向。 ②营造和谐的育人氛围 高校新闻网作为新经济的重要载体和信息传播的新媒体,越来越成为当代大学生适应社会发展需求、获取知识和各种信息的重要渠道,因而网络对大学生的学习、生活和行为乃至思想观念有着广泛而深刻的影响。 ③取代传统新闻媒介,构造信息化宣传平台 传统的高校新闻媒体主要有校记者团、校报、校广播站等,这些新闻媒体在人力、物力和财力上都造成很大浪费,且这些宣传方式在信息社会已经显得落后。高校新闻网的建立就是为了减少资源浪费,构建一种紧随时代脉搏的信息化宣传平台。 (2)研究内容 高校新闻网系统在这样一个信息高速发展的时代被打上了信息化、高效化的标记。为了满足人们对最新信息的实时性和可靠性需求,对高校新闻网系统的研究迫不及待。本系统的研究内容是要求系统能够对新闻进行有效的更新、统计、分类,能够通过网络爬虫技术从各大新闻网站自动获取自己感兴趣的新闻信息,对新闻进行定制。同时对该系统用户进行权限划分,确保系统的安全性。 (3)系统采用的开发方法 管理体系的创建是一项非常繁琐的软件工程。软件工程在这二十多年来慢慢演变成一门新科学,截止到目前,已变成软件领域的核心支柱。它是一种确保软件满足用户的特定需求和避免设计编码中出错的方法,它在软件设计和开发过程中引进一种严格的规则,这种规则类似于其他工程的原则。由于计算机硬件技术的迅猛发展,越来越多的行业开始使用计算机软件,被人们使用很久的手工作坊式开发软件的方法,在很多方面,比如软件产品成本、质量等都不能让用户需要得到满足。“软件工程这个名词,于1968年第一次提出,经过分析和研究GOTO语句的使用,引出了结构化程序设计的含义,从这开始,人们对系统设计以及软件需求规格说明书在软件开发中的作用给予了足够的关注[21]”。1980年左右,很多专家进一步优化了软件工程理念,同时建立了企业系统规划法、结构化生命周期法等大量的工程方法。根据几种开发方式的对比以及本系统的特征,本文是通过结构化生命周期法展开系统设计以及研究的[24]。 结构化生命周期法是使用时间非常久的管理系统开发方式。其核心理念是将系统的开发过程划分成不同的阶段,各个阶段的活动有很大区别,各项活动使用很多规范、技术以及标准和方法,完成不同的任务,从而产生和既定规范相符的产品。在开发大型系统时,这种方法被广泛使用。先逻辑后物理、文档标准化以及从上到下和用户参与的准则就是使用结构化生命周期开发所必须严格遵守的[22]。 其具体步骤大致可以分为以下四步: (4)系统规划 进行市场调研,调查系统研究背景及意义,提出问题。 (5)系统开发 系统开发主要包括以下几步: ①系统分析:初步分析系统;系统的可操作性分析;详细调查目前正在实施的系统;制定新系统的逻辑方案。 ②系统设计:设计系统整体结构;设计系统整体物理结构以及功能;系统详细设计;设计代码、处理过程以及数据库等。 ③系统实现:程序设计;系统测试。 (6)系统运行及维护 周期性检查系统运行状况以及各个功能的操作情况,对错误的处理能力以及系统性能。出现不能满足用户需要的情况后对产品进行维护,具体包括改正性维护、适应性维护、完善性维护,以便改变和加强系统功能。 (7)系统评价 对系统展开实用性、完善性、正规性等方面展开评价,指出系统的特点。 1.4 论文的组织结构 根据课题所研究的内容及过程,本文共分为六章,包括如下内容: 第一章 绪论,介绍本论文的开发背景、国内外研究现状、本文主要研究内容,并且明确了开发该系统所采用的方法及论文结构。 第二章 系统相关技术,本章节主要是对系统相关的技术进行分析描述,为后面的系统设计部分做铺垫。 第三章 高校新闻网系统需求分析,通过对系统的功能方面需求和非功能方面的需求分析,明确了高校新闻网系统应具备的功能要求以及需解决的技术和逻辑上的难点。 第四章 高校新闻网系统的设计,在第三章需求分析的基础上,应用自顶向下的设计方案,从整个系统到主要功能模块对系统进行设计。包括了系统中的数据获取、新闻信息采集、新闻信息发布、新闻信息评论、信息汇总分析及系统数据库的设计。 第五章 高校新闻网的实现,以系统设计为指导,针对高校新闻网系统的主要功能模块,对系统进行实现说明。 第六章 高校新闻网系统的测试,利用测试环境,从测试用例入手,主要介绍了系统的功能测试方面的情况,分析测试过程和测试结果,得出了测试的结论。 最后给出本文的研究结论,对本论文的主要研究成果及工作进行认真总结,并讨论系统的实际价值,指出系统在实践应用中存在的问题,为今后系统的改进提供了很好的指导方向。 第2章 系统相关技术 该部分主要对系统涉及到的相关技术进行介绍,分析各种技术的利弊,主要包括URL消重、URL类访问网络、爬行策略、SQL Server数据库以及ASP以及一些相关的开源工具等。 2.1 J2EE体系概述 J2EE[4]是一个完全与传统开发技术完全不相同的框架,里面带有许多组件及子组件,这些组件可优化和规整应用系统的研发与部署,进而提升开发的速率,也有很好的可移植性、安全性及代码复用等良好特性。 J2EE由一套完好的Services、接口(API)和协议组成,J2EE是一些开发技术相关的规定和开发的指南,J2EE所包含的组件、服务和相关技术,都具有相同的标准,这就使得采用J2EE框架的各种不同平台及平台之间,都能够很好的得到兼容。这样就将之前企业内部与外部不能良好的进行交互及企业内部或外部不能信息共享及相互通信的问题给解决了。 2.2 网络爬虫技术 2.2.1 URL 在介绍网络爬虫之前,先引入URL的相关知识。URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位符”。通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组成: 第一部分是协议(或称为服务方式)。 第二部分是存有该资源的主机IP地址(有时也包括端口号)。 第三部分是主机资源的具体地址,如目录和文件名等。 第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。 用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。例如file:// 爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它进行进一步的处理。 2.2.2 网络爬虫概述 网络爬虫,又被称为网页蜘蛛,网络机器人,随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。在万维网飞速发展的网络背景下,搜索引擎在人们的生活工作中无疑扮演着重要的角色,而网络爬虫则是搜索引擎技术的最基础部分。例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,已经作为一个辅助人们检索信息的工具成为了用户访问web的入口和指南。 在搜索引擎成为主流检索工具的今天,互联网上的网络爬虫各式各样,但通过网络爬虫来获取网页数据信息的基本步骤大致相同: (1) 人工给定一个URL作为入口,从这里开始爬取。 万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶型左边结构出发。这里有一些门户网站的主页,而门户网站中包含大量有价值的链接。 (2) 用运行队列和完成队列来保存不同状态的链接。 对于大型数据量而言,内存中的队列是不够的,通常采用数据库模拟队列。用这种方法既可以进行海量的数据抓取,还可以拥有断点续抓功能。 (3) 线程从运行队列读取队首URL,如果存在,则继续执行,反之则停止爬取。 (4) 每处理完一个URL,将其放入完成队列,防止重复访问。 (5) 每次抓取网页之后分析其中的URL(URL是字符串形式,功能类似指针), 将经过过滤的合法链接写入运行队列,等待提取。 (6) 重复步骤3)、4)、5)。 2.3 B/S体系结构 B/S结构即浏览器/服务器模型,它是在互联网技术出现后的一种开发的体系模式,在客户的电脑上只需自带一个浏览器(brower)。这种设计模式使客户端的功能变的很简单,客户机因此只需具有接受和发送请求的功能就可以了,但是必须把系统的核心的功能放在服务器一端,客户端通过浏览器向服务器发送请求,服务器来对其- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高校 新闻网 系统 设计 实现 硕士 学位 论文
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文