资源数据采集技术方案要点.doc
《资源数据采集技术方案要点.doc》由会员分享,可在线阅读,更多相关《资源数据采集技术方案要点.doc(13页珍藏版)》请在咨信网上搜索。
1、资源数据采集技术方案公司名称2011年7月二O一一年七月目 录第 1 部分 概述31.1 项目概况31.2 系统建设目标31.3 建设的原则41.3.1 建设原则41.4 参考资料和标准5第 2 部分 系统总体框架与技术路线52.1 系统应用架构62.2 系统层次架构62.3 关键技术与路线7第 3 部分 系统设计规范7第 4 部分 系统详细设计7第 1 部分 概述1.1 项目概况Internet已经发展成为当今世界上最大的信息库和全球范围内传播知识的主要渠道,站点遍布全球的巨大信息服务网,为用户提供了一个极具价值的信息源。无论是个人的发展还是企业竞争力的提升都越来越多地依赖对网上信息资源的利
2、用。 现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中起着重要的作用。计算机和现代信息技术的迅速发展,使Internet成为人们传递信息的一个重要的桥梁。网络的不断发展,伴随着大量信息的产生,如何在海量的信息源中查找搜集所需的信息资源成为了我们今后建设在线预订类旅游网重要的组成部分。因此,在当今高度信息化的社会里,信息的获取和信息的及时性。而Web数据采集可以通过一系列方法,依据用户兴趣,自动搜取网上特定种类的信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息按照用户的要求呈现给用户。可以大大减轻用户的信息过载和信息迷失。1.2 系统建设目标在线预订类旅
3、游网是在线提供机票、酒店、旅游线路等旅游商品为主,涉及食、住、行、游、购、娱等多方面的综合资讯信息、全方位的旅行信息和预订服务的网站。如果用户要搜集这一类网站的相关数据,通常的做法是人工浏览网站,查看最近更新的信息。然后再将之复制粘贴到Excel文档或已有资源系统中。这种做法不仅费时费力,而且在查找的过程中可能还会遗漏,数据转移的过程中会出错。针对这种情况,在线预订类旅游网信息自动采集的系统可以实现数据采集的高效化和自动化。1.3 建设的原则1.3.1 建设原则由于在线预订类旅游网的数据采集涉及的方面多、数据量大、采集源数据结构多样化的特点。因此,在进行项目建设的过程中,应该遵循以下原则:可扩
4、充性根据实际的要求,系统可被方便地载减和灵活的扩展,使系统能适应变化和新情况。可以实现模块级别的动态扩展,而且是运行时的。所谓运行时模块的动态扩展,比如说你需要增加一些新的功能,你可以将新开发的类和文件按照Bundle进行组织,然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重新做出调整。创新性软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费;在系统软件选型、开发技术上,达到国内外先进水平。规范性和标准性整个设计方案从网络协议、操作系统到各个设计细节,应该全部遵循通用的国际或行业标准,符合国家有关标准规范的。低耦合性采集系统与其它系统彼此间相对独立,
5、直接进行数据库入库、sql同步或者基于txt/xml的数据交换,保证整体系统的低耦合性。高效性在底层的技术实现上采用java语言,跨平台,跨数据库,运行效率卓越。安全、稳定、准确、及时性采用先进的算法,采用多个子系统和工具组成一个安全、稳定、准确、及时的解决方案。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期发展的需要。易操作和易维护原则整个系统易于维护,容易操作,易学,易用,完全通过WEB方式完成,降低维护的技术难度,也减少了人为隐患的发生。1.4 参考资料和标准主要参阅并依据以下一些参考资料
6、及标准:l 中国项目管理知识体系(C-PMBOK),2001.5 l GB/T 1526-1989信息处理 数据流程图、程序流程图、系统流程图、程序网络图、系统资源图的文件编制符号及约定l GB/T 8566-1995信息技术 软件生存期过程l GB/T 8567-1988计算机软件产品开发文件编制指南l GB/T 9385-1988计算机软件需求说明编制指南l GB/T 13702-1992计算机件分类与代码l GB/T 11457-1995软件工程术语第 2 部分 系统总体框架与技术路线网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,
7、建立可再利用的信息服务系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。2.1 系统应用架构l 网络蜘蛛:按照指定规则抓取网站数据。l 数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。l 数据解析:根据指定资源格式(字段)的定义,进行数据库字段级别的解析。l 分组分析:根据不同的网络资源类型进行分类,并以多种存储方式进行存储。2.2 系统层次架构整个系统分为四层,分别为:l 数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、关系型数据、多媒体数据等。l 支撑层:支撑层提供了关键的硬、软件支
8、撑系统,包括应用服务器、WEB服务器、规范接口等规范支撑系统。l 应用层:在应用层主要提供网络资源采集、数据转换、分析、处理、导出、发布、采集监控、消息通知、登录验证、任务计划、认证码识别等服务。l 表现层:表现层通过浏览器等方式,为用户提供多样化的信息服务。2.3 关键技术与路线为了充分满足本项目的建设:我们采用先进、主流、可靠、实用、性价比好的三层架构体系,充分考虑今后纵向、横向扩张能力。采用构件化和面向对象技术,使系统具有灵活的扩展性和良好的移植性。2.3.1 J2EE规范体系从软件层次上看,我们采用了典型的J2EE三层架构体系,即应用支撑数据三层。简单地说,J2EE(Javatm 2
9、Platform Enterprise Edition)是一个标准中间件体系结构,旨在简化和规范多层分布式应用系统的开发和部署,有了它,开发者只需要集中精力编写代码来表达应用的商业逻辑和表示逻辑,至于其他系统问题,如内存管理,多线程,资源分布和垃圾收集等,都将由J2EE自动完成。J2EE已经被证明是一个稳定的、可扩展的、成熟的平台,在国内外拥有众多成功的应用实例。J2EE 应用服务器(Application Server)采用目前国际最先进的开发理念、拥有许多适合基于Internet应用需求的特点:l 三层结构体系最适合Internet环境,可以使系统有很强的可扩展性和可管理性。l 面向对象、
10、组件化设计2EE是一种组件技术,已完成的模块能方便的移植到其它地方,可以提高开发速度,降低开发成本。l 基于JAVA完全跨平台特性与平台无关,适应Internet需要,并能得到大多数厂商支持,用户可根据需要选择合适的服务器硬件和数据库。并且如果需要更换系统平台时,J2EE也能方便的进行移植。把J2EE三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。2.3.2 XML技术XML(eXtensible Markup Language,可扩展标记语言),是当前最热门的网络技术之一,被称为“第二代Web语言”、“下一代网络应用的基石”。自它被提出以来,几乎得到了业界所
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资源 数据 采集 技术 方案 要点
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。