资源大数据采集技术方案设计要点.doc
《资源大数据采集技术方案设计要点.doc》由会员分享,可在线阅读,更多相关《资源大数据采集技术方案设计要点.doc(18页珍藏版)》请在咨信网上搜索。
1、 资源数据采集 技术方案 企业名称 7月七月 目 录 第 1 部分 概述3 1.1 项目概况3 1.2 系统建设目标3 1.3 建设标准3 1.3.1 建设标准3 1.4 参考资料和标准5 第 2 部分 系统总体框架与技术路线5 2.1 系统应用架构5 2.2 系统层次架构6 2.3 关键技术与路线6 第 3 部分 系统设计规范9 第 4 部分 系统详细设计9 第 1 部分 概述 1.1 项目概况 Internet 已经发展成为当今世界上最大信息库和全球范围内传输知识主要渠道,站点遍布全球巨大信息服务网,为用户提供了一个极具价值信息源。不论是个人发展还是企业竞争力提升都越来越多地依赖对网上信息
2、资源利用。 现在是信息时代,信息是一个主要资源,它在人们生活和工作中起着主要作用。计算机和当代信息技术快速发展,使Internet成为人们传递信息一个主要桥梁。网络不停发展,伴伴随大量信息产生,怎样在海量信息源中查找搜集所需信息资源成为了我们今后建设在线预订类旅游网主要组成部分。 所以,在当今高度信息化社会里,信息获取和信息及时性。而Web数据采集能够经过一系列方法,依据用户兴趣,自动搜取网上特定种类信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息按照用户要求展现给用户。能够大大减轻用户信息过载和信息迷失。 1.2 系统建设目标 在线预订类旅游网是在线提供机票、酒
3、店、旅游线路等旅游商品为主,包括食、住、行、游、购、娱等多方面综合资讯信息、全方位旅行信息和预订服务网站。 假如用户要搜集这一类网站相关数据,通常做法是人工浏览网站,查看最近更新信息。然后再将之复制粘贴到Excel文档或已经有资源系统中。这种做法不但费时费劲,而且在查找过程中可能还会遗漏,数据转移过程中会犯错。针对这种情况,在线预订类旅游网信息自动采集系统能够实现数据采集高效化和自动化。 1.3 建设标准 1.3.1 建设标准 因为在线预订类旅游网数据采集包括方面多、数据量大、采集源数据结构多样化特点。所以,在进行项目建设过程中,应该遵照以下标准: 可扩充性 依照实际要求,系统可被方便地载减和
4、灵活扩展,使系统能适应改变和新情况。能够实现模块级别动态扩展,而且是运行时。所谓运行时模块动态扩展,比如说你需要增加一些新功效,你能够将新开发类和文件按照Bundle进行组织,然后直接扔到运行时环境下,这些功效就能够用了。所以系统不会受技术改造而重新做出调整。 创新性 软件投资要考虑到今后发展,不能使用落后产品与技术,防止投资浪费;在系统软件选型、开发技术上,达成国内外先进水平。 规范性和标准性 整个设计方案从网络协议、操作系统到各个设计细节,应该全部遵照通用国际或行业标准,符合国家关于标准规范。 低耦合性 采集系统与其它系统彼此间相对独立,直接进行数据库入库、sql同时或者基于txt/xml
5、数据交换,确保整体系统低耦合性。 高效性 在底层技术实现上采取java语言,跨平台,跨数据库,运行效率卓越。 安全、稳定、准确、及时性 采取先进算法,采取多个子系统和工具组成一个安全、稳定、准确、及时处理方案。方案在总体设计上遵照稳定、开放、可扩展、经济、安全标准,从而使整个方案组成合理,技术先进,易于扩展,既能满足当前业务数据处理要求,又能符合长久发展需要。 易操作和易维护标准 整个系统易于维护,轻易操作,易学,易用,完全经过WEB方式完成,降低维护技术难度,也降低了人为隐患发生。 1.4 参考资料和标准 主要参阅并依据以下一些参考资料及标准: l 中国项目管理知识体系(C-PMBOK),.
6、5 l GB/T 1526-1989信息处理 数据流程图、程序流程图、系统流程图、程序网络图、系统资源图文件编制符号及约定 l GB/T 8566-1995信息技术 软件生存期过程 l GB/T 8567-1988计算机软件产品开发文件编制指南 l GB/T 9385-1988计算机软件需求说明编制指南 l GB/T 13702-1992计算机件分类与代码 l GB/T 11457-1995软件工程术语 第 2 部分 系统总体框架与技术路线 网络信息资源采集系统是一套功效强大网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用信息服务系统。能够从各种网络信息源,包含
7、网页、BLOG、论坛等采集用户感兴趣特定信息,经自动分类处理后,以多个形式提供给最终用户使用。 2.1 系统应用架构 互联网客户端网络蜘蛛网络蜘蛛数据解析数据分析分组分析数据库资源发布系统采集应用服务数据流控制流 l 网络蜘蛛:按照指定规则抓取网站数据。 l 数据分析:分析从网络蜘蛛来数据,过滤掉我们不需要信息。 l 数据解析:依照指定资源格式(字段)定义,进行数据库字段级别解析。 l 分组分析:依照不一样网络资源类型进行分类,并以多个存放方式进行存放。 2.2 系统层次架构 表现层浏览器应用层网络资源采集数据转换数据导出数据公布网络请求采集监控数据分析消息通知登录验证数据处理任务计划惯用脚本
8、库认证码识别数据层关系数据文本文件数据图片视频数据支撑层WEB服务器应用服务器规范接口其余 整个系统分为四层,分别为: l 数据层:数据层负责存放抓取来各种信息及数据,这里面包含网页、文档、关系型数据、多媒体数据等。 l 支撑层:支撑层提供了关键硬、软件支撑系统,包含应用服务器、WEB服务器、规范接口等规范支撑系统。 l 应用层:在应用层主要提供网络资源采集、数据转换、分析、处理、导出、公布、采集监控、消息通知、登录验证、任务计划、认证码识别等服务。 l 表现层:表现层经过浏览器等方式,为用户提供多样化信息服务。 2.3 关键技术与路线 为了充分满足本项目标建设:我们采取先进、主流、可靠、实用
9、、性价比好三层架构体系,充分考虑今后纵向、横向扩张能力。采取构件化和面向对象技术,使系统具备灵活扩展性和良好移植性。 2.3.1 J2EE规范体系 从软件层次上看,我们采取了经典J2EE三层架构体系,即应用支撑数据三层。简单地说,J2EE(Javatm 2 Platform Enterprise Edition)是一个标准中间件体系结构,意在简化和规范多层分布式应用系统开发和布署,有了它,开发者只需要集中精力编写代码来表示应用商业逻辑和表示逻辑,至于其余系统问题,如内存管理,多线程,资源分布和垃圾搜集等,都将由J2EE自动完成。 J2EE 已经被证实是一个稳定、可扩展、成熟平台,在国内外拥有众
10、多成功应用实例。J2EE 应用服务器(Application Server)采取现在国际最先进开发理念、拥有许多适合基于Internet应用需求特点: l 三层结构体系最适合Internet环境,能够使系统有很强可扩展性和可管理性。 l 面向对象、组件化设计2EE是一个组件技术,已完成模块能方便移植到其它地方,能够提升开发速度,降低开发成本。 l 基于JAVA完全跨平台特征与平台无关,适应Internet需要,并能得到大多数厂商支持,用户可依照需要选择适宜服务器硬件和数据库。而且假如需要更换系统平台时,J2EE也能方便进行移植。 把J2EE三层架构软件体系引用到资源采集系统,将大大提升系统可移
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资源 数据 采集 技术 方案设计 要点
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【人****来】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【人****来】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。