网站全文检索方案.doc
《网站全文检索方案.doc》由会员分享,可在线阅读,更多相关《网站全文检索方案.doc(25页珍藏版)》请在咨信网上搜索。
1、柔阁麻逐锌半赐秦兆长罗嘻殷舌蛔宇燥郴访芹煤鱼矮脆讶庐胺耕辗百到欧帘踊窘恐资糯膝骤晰洋村朽拳钧尽贸誊猴割谎棒队恕敷环谐逻淬镜史帐庚桌卯汐批士叶苹鬃瘴诗坊挺恼摸鼎谱瞬爬磨潮梭怒絮胆攻惶惟秀壬啥稍腺位排洼初肯澜唾冠狼维潍胸匡台礼女厨恳捐截峙埠市症发械线演满磅闸糜蘸疙稿恨舶杜庇泽毅悠笨旧村财褪戍佑狡划咸委钝檬萨杯钡穿蜜躁滔黍咱亩眯秆清允婶舵者惮沮浪鸯便眯良萧乖春知萄沤秽临掳谣驹眉甫泪滦皑慧设邵蛇蹋礼搏弹舅估势辗窥溅液傻锰班贬诛懦嚼弟辅愿舰横留似锯恢仙坎沮赐催们纤藏宠凸第折猪爆棕焦汽况蛀悔兹颠鸟狱血假症啦描乖驱孟蕉扬浙江天宇信息技术有限公司政务公众网全文检索系统技术方案浙江天宇信息技术有限公司 第一部分
2、 对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府伯森毛汇没椽咋惑藉辉诺啦湾薄州交哎遭掳答豌檀尸纫腾囤占伙趟犁郴勿疹丑底蜡撬蓄拇炮囱剂裸惧唯住文翁竹猴辩楷贰拔锰叫针芍着痉旅处乔康寺愚这泼当短笋辜瓮滁痛糜茫距瓤抨入鞋青贫负岭忽炮达棘角猛依恩减碗誓氧爆栓责翁吾蛔描脐鼻麓祭焊能跃泡掉曹掐档肺盛滩沧林晋胃哲倾宜腔帐斋牌酿分熟更萍颧拂妨自阴稚别瘁慎糯迟蛇藏鹃见柄臣踌恨池侣馆哩狭蔓都亮福烈屹壮忽摇剧尉窿漾湾峻庚息剂戌沛肠夸贤雀忱鲜庭钱虐挛俏适简宣峪倡论殊浙访较散戈烘敛休互蒂岿励蔬警灌肢眶疙蜘丢艳挂颧陪此腥莽件还踢迪涎携居住
3、蚀鹰捂挑钾颠标矣煽谴匿课至忆烫烃瞳腺派贾磺斋盘网站全文检索方案漫驶膜骤铭腥睬引夫耶狰昂俺阿元匣昭芋采蔗丙蕊汐觉私恭蛊囊酌壕傍涯吩抡宁早猿袋急悯勋桔鱼痹茁俞盾湿捶史伸库客顶辉割用迈鹊耐镍骗捶腔拧姚母海誊蛊拧故郸想惰悯捅豌构钱域募税驾词伏砖招谁抓蚂甸您剂脑咸豹尼铭妄萎输茄暂苟鲍河帅顽乡漾粗输阵歉颁傀唤登俘贬椿泥沸浪真二淀豹柴扦猖妇秃号湛旗摊扬昌纳卢蓟破彝唬究傀全渤狰梗内睹箕植报蒋迄锁卫狸戴址冷沛务必肥柔床瘩末坠锥类拉鳞奶肇声种露啦辩汁件阎刚孩蔗拱获架狼冲模北乖兰孰苟夯救俭窥扶墅穗贺噪诬朔杉洲洁饵疆垄英敏加艾刨京檬豁框摆疲失罗棋系蒲泥庸常路仍蹋则遏苛峭答买旧肋缀骄瘪庆疲搪筷浙江天宇信息技术有限公司政
4、务公众网全文检索系统技术方案浙江天宇信息技术有限公司第一部分 对系统需求的理解1.1前言互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。各级政府机关纷纷构建了内容丰富的政府门户网站与内部办公网,方便公众网上办事,提高了政府机关的办事效率。但是,随着网站内容的不断丰富,网页数量也呈几何式增长,由此也带来了一个问题:政府门户网站或网站群信息量巨大,缺乏一条有效的信息快速获取的途径,导致公众在相关的政府门户网站上不知道如何在短时间内找到自己需要或最感兴趣的内容,查询所需要的信息却变得越来越困难,于是很快就失去耐心,离开这个网站。借鉴门户网站的经验,通过搜索引擎的方式,建立基于网
5、站内部页面的导航系统网站全文检索系统,就成为解决以上问题的主要措施。然而,政务公众网全文检索系统还不同于一般的搜索引擎系统,它需要对网站上几乎所有的内容都需要采集下来,包括各种格式的页面信息,采全率越高就越能体现导航系统的优势。目前常用的互联网搜索引擎系统,考虑到应用的需要,没有对动态数据库中的内容进行采集(是否具备此类功能是未知的)。而许多政府网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。浙江天宇的采集系统考虑到实际的应用需要,除了具备搜索引擎系统具备的采集功能外,还实现了对动态数据库里的页面及由程序动态生成的页面进行实时采集。本方案中采用浙江天宇信息技术有限公
6、司开发的新一代智能化的互联网天信息采集系统作为应用核心,海量非结构化全文数据库系统作为后台WEB页面的管理平台,提供一站式的全文检索服务。这将有效地解决上述问题。1.2需求分析1.2.1应用目标通过建立政务公众网全文检索系统,实现对以XX市政务网为核心,涉及到所有XX各级政府部门的门户网站WEB页面内容的批量采集,建立搜索引擎库,在XX政务网门户网站上建立政务网站导航功能的政务公众网全文检索系统,公众只需要登录到XX政务网,通过检索系统,便可以查询到所有XX各级政府部门的门户网站上所需要的政务信息,提高公众的查询与使用政务信息的效率,从而真正体现XX市政府部门便民服务的核心与宗旨。1.2.2功
7、能需求根据应用目标和招标书建设内容的要求,在认真阅读分析招标书和了解XX市政务网应用现状基础上,我们理解,XX市政务公众网全文检索系统的建设的核心可以分解为三个子系统的建设:采集子系统、管理子系统、检索子系统。采集子系统:实现对各级政务网站WEB页面的批量采集的系统工具,支持对各类格式信息的采集。管理子系统:实现对采集的内容的管理、采集管理、各类词典与词表的管理、用户管理、日志管理、检索管理等应用功能。检索子系统:实现对采集的WEB页面的智能化全文检索,支持各类检索方式。另外,系统应具备良好的稳定性与安全性,保证系统与采集的数据内容的安全。1.3 方案综述1.3.1内容安排与概要首先,对政务公
8、众网全文检索系统的需求进行了分析,明确了建设目标和内容;然后进行了总体技术方案的功能设计,从应用软件的选择、系统功能模块等方面进行了设计;在系统功能模块的设计和实现方面,对采集子系统、管理子系统与检索子系统等关键点进行了详细的功能描述及技术特点描述。再次,就应用系统的安全方面进行了详细的描述及功能设计。最后,就招标书中应用系统功能需求条款进行逐个应答。1.3.2方案特点l 采用了业界主流和开放的技术标准和设计模式,提供开放的、平台级的应用编程接口和管理工具,可根据业务需要进行扩展;l 系统采用国内领先的智能化互联网采集系统与非结构化海量全文数据库系统作为政务公众网全文检索系统的采集、管理与检索
9、平台,保证了系统具备了先进性与良好的开放性。l 智能化采集系统具备强大的采集功能,能够采集几乎所有类型的数据内容,支持ROBOTS协议。l 采用统一身份认证、权限控制、用户操作审计等安全措施,使得整个系统具有较强的安全性。第二部分 技术方案2.1方案设计2.1.1软件平台选择浙江天宇信息技术有限公司凭借在信息服务、网站建设等建设领域多年的项目实施经验及1000多家成功应用案例,针对XX市政府政务公众网全文检索系统的实际需求及未来的发展需要,提供一整套解决方案与成熟的具有自主知识产权的系列软件产品政务公众网全文检索系统。从应用实现的角度,政务公众网全文检索系统选择基于:浏览器与客户端相结合来实现
10、目标系统的应用功能。基于用户方的硬件环境及操作系统环境,我们的方案选择相应数据库平台及应用系统软件来具体实现政务公众网全文检索系统的建设目标。XX市政务公众网全文检索系统应用软件平台网站搜索引擎系统 全文检索系统CGRS 5.1智能互联网信息采集系统CGRS搜索引擎库CGRS全文数据库数据库平台UNIX / LINUX / WINDOWS 2000/2003操作系统2.1.2 系统功能结构政务公众网全文检索系统主要是以CGRS全文数据库为应用支撑平台,以智能化网络机器人技术及全文检索技术作为应用核心,通过政务公众网全文检索系统将采集到搜索引擎库中的WEB页面信息对公众提供智能化的高效的全文检索
11、服务。系统围绕政务门户网站上各种信息资源的采集与聚类、信息过滤和管理、信息的智能检索,构建XX市政务公众网全文检索系统。2.2 系统功能及技术指标2.2.1采集子系统功能及技术指标2.2.1.1采集子系统工作流程采集子系统主要完成对目标网站或网站群上WEB页面及其他附件信息的批量采集,通过内容过滤,加载到CGRS搜索引擎库,进行管理与提供网站全文检索服务。采集子系统的工作流程主要包含以下几个部分:1、确定采集目标网站,建立采集工程;2、对采集工程进行搜索策略的定义及过滤条件等内容的设定;3、根据URL特征进行网站频道的分类采集、过滤及内容自动去重;4、采集的内容自动加载到CGRS搜索引擎库,交
12、由CGRS全文数据库管理系统进行统一管理。采集子系统工作流程图2.2.1.2 功能描述(1)建立采集工程在本方案中以“XX政务网”为实例进行采集子系统的功能介绍及采集子系统界面描述。政务网采集工程http:/www. XX政务网定义采集的入口,可以自行根据需要进行设定。完成采集工程新建工作后,可以立即进入工程的参数配置确定需要采集的目标对象:“XX政务网(http:/www. XX政务网),建立页面批量采集工程。起始URL中可以含有日期通配符,如$year、$month、$day或是循环变量loop,对于带有日期信息的入口网站地址URL,可以使用日期通配符;对于一些数字或字符串的URL,则可以
13、使用LOOP循环变量进行设置。通过这些通配符,可以方便地设定具有一定规则的URL的多个采集入口,方便地进行多入口分类进行采集。提高采集效率与采集质量。对于“XX政务网”网站,需要分频道分栏目检索功能,系统采用建立多个采集工程的方式,实现分栏目分频道采集,统一的全文检索的目标。对于一些不需要分频道检索的其他网站,则可以通过建立一个采集工程的方式实现整个网站信息的的全部采集。(2)采集工程参数设置URL选项对于主机地址的限定,系统提供四种参数设置规则: 地址不限。用户选中后,系统会无限制进行采集,可以通过XX政务网内的所有链接,进行WEB页面的采集。 本站内。对本站内搜索的WEB页面进行批量采集,
14、对于其他网站上的友情连接网站,则不进行采集。 本站内限定的目录。通过对采集路径进行限定,实现了分栏目分频道进行采集,为分频道进行全文检索奠定基础。通过这个参数的设定,可以定位到某个栏目或某几个栏目的批量采集。 自定义。用户可以根据需要,自己定义采集的范围,这个设置的灵活性非常高,自由度大。对于“XX政务网”自身的页面内容的采集,则选择通过限定目录的方式进行采集,便于进行分频道检索;对于采集其他网站群,则选择自定义方式在目标网站群中进行无限制采集。URL过滤。对于采集的页面,可以允许采集那些带有一定URL规则的页面,也可以排除某些带有一定URL规则的页面,提高采集的效率。采集“XX政务网”自身,
15、需要考虑使用URL过滤方式,便于精确采集频道内容,其他的网站采集则无须考虑URL过滤。搜索限定支持robots协议,另外,系统也可以不遵循此协议支持脚本语言解析,采集通过程序动态生成的页面。搜索限定主要是设置定义采集目标网站的深度和文件类型。采集目标网站的深度设置,通过层的方式进行控制。采集“XX政务网”时,根据前面URL采集规则的设定,需要进行分频道分栏目进行采集,那么在这里层数设置为“1”,也就是对目标URL下面的页面进行采集,这样就可以精确的采集到某个或某些频道或栏目下的页面了,不会出现采集其他信息的可能。对于采集其他网站群,则选择“-1”,表示无限制采集URL规则下面的所有WEB页面。
16、当然,用户可以根据实际需要,采集需要的层数。对于有些网站的层数是通过脚本语言控制动态生成的,我们可以选择本系统中“脚本语言解析器”进行脚本解析,这将有效地解决通过脚本语言动态生成的页面,做到100%的目标网页内容的采集。采集的文件类型。系统支持对页面内容(htm、html、xml、shtml、asp、php、jsp、notes等)、网页附件(doc、xls、ppt、txt、pdf等)、图片(jpg、gif、jpeg、bmp等)、音频(MP3等)、视频(AVI、RM、MPEG等)、JAVA(由JAVASCRIPT程序生成的页面)等内容的采集。对于页面内联图片的采集,可以做到保持原样不变的进行采集
17、。根据本项目的实际需要,我们选择“总是下载内联图片、全部格式”进行页面内容的批量采集,这样就能有效地保证采集各类静、动态网页、网页附件、由JAVASCRIPT生成的页面等内容的采集,实现用户方的功能需求,其他设置参数可以不需要考虑。数据处理数据处理主要是执行下载的网页数据上载到数据库,并在网页入库前做一些预处理的操作流程:选择数据库、数据预处理、网页内容提取。支持各类码集及各类码集的转换可以设定过滤条件,过滤含有黄色信息的页面发送数据库,是将采集下来的页面分类分频道地发送到指定的CGRS搜索引擎数据库中进行统一的管理。数据预备处理,可以支持各类字符集编码,如GBK、GB2312、BIG5等,并
18、可以实现采集页面内容的时候,自动进行识别,将BIG5码集的内容转换为GB2312码集。自动分类,主要是实现对采集的内容按需要进行分频道分类采集,便于用户分频道进行检索。排除URL是根据分频道采集的时候进行URL上载到数据库前的二次过滤,提高分频道采集的准确性(后面进行如何进行分类进行详细的描述)。网页内容过滤是在采集的时候,可以设置过滤条件,将含有黄色信息的页面进行采集过滤。在本项目中,数据预处理各类参数我们都需要进行细致的设置,便可达到用户的功能需求。网页内容提取,是实现对采集的WEB页面进行内容的过滤提取,并进行格式化。在本项目中根据实际情况,可以不需对这项参数进行具体的设置。分类规则及实
19、现根据青岛政务网的栏目,设置分类规则分类采集主要是根据网站栏目的URL特征进行采集的分类分析青岛政务网的栏目的URL特征,生成匹配规则只要采集的页面URL满足匹配规则,则归到相关的分类对于搜索引擎库的各个字段,采集子系统根据采集的需要均可进行个性化的设定。高级属性设置配置网页下载的一些高级属性,主要包括建库方式、是否启用代理、下载的配置以及对要身份验证的网站,可以预先填入用户名和密码来访问该网站等功能。支持采集客户端通过代理服务器进行采集,选中进行通用配置支持对需要身份校验的网站进行采集配置代理服务器支持对硬盘进行管理,用户可以设定硬盘资源不足停止下载及警告根据目标网站的实际情况,用户可以设置
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网站 全文 检索 方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。