IDOL技术介绍-20151110112600.doc
《IDOL技术介绍-20151110112600.doc》由会员分享,可在线阅读,更多相关《IDOL技术介绍-20151110112600.doc(41页珍藏版)》请在咨信网上搜索。
1、1. 系统功能方案根据企业智能搜索系统功能需求,结合我们的项目经验,我们进行一一对应的分析。1.1. 信息采集信息采集加工平台是整个系统的基础平台,它是整个平台系统对外提供内容服务的源泉,主要从各种数据源(包括文件系统、数据库、内部其他系统以及独立信息源)采集信息。根据项目需求,针对不同的数据格式,采用不同的手段与方式,真正将各数据孤岛的信息采集过来,用于资源平台的整合与使用。如下图所示:系统采用惠普提供的多种连接器,分别针对多种异构的数据源,例如互联网系统采用互联网连接器来采集数据,数据库连接器负责采集数据库的数据,此外还有文件系统连接器等。HP连接器具有如下优点: 自动采集,配置好之后自动
2、运行,同时监控数据源变化,同步更新数据; 能够处理基本常见的所有文件格式,能够采集基本常见的所有数据源; 设计成熟,通过各数据源厂商接口认证,兼容性极强; 对采集的数据格式要求极低,能够自动分析并处理、格式化各种数据; 集成安全权限,能够从不同的数据源继承原有的安全权限设置;相应的采集方式主要包括以下详细内容:1.1.1 文件采集HP的文件系统连接器(File System Connector)将所有常用的电子文档文件一网打尽,它支持1000多种文件格式,包括txt 、html 、rtf 、office 文档、 pdf 、MP3 、 MPEG 、SWF 、AVI 、VOD 、DAT 、tiff
3、 、书生 sep 电 子文件等各种格式文档的自动扫描、自动数据采集和入库,甚至包括各种压缩文件以及压缩嵌套文件,如zip,rar,tar等,对于命名错误或者后缀错误的文档,它还能够自动的识别编码和语言类型,文档格式。其主要功能还包括:l 按照目录形式或者列表形式对文档进行分类组织,分类层次可以任意定制;l 对目录下文档进行自动扫描,并将目录作为文档分类标引项自动提取;l 对于一些标准格式文档,可以自动提取一些特征值,如标题、作者、单位、摘要等作为元数据标引项;l 支持抓取文档里的内嵌对象,例如Word文件中嵌入的visio图;l 支持 Excel 、XML 、Txt 等多种数据源的导入,导入后
4、可自动解析数据源中的知识条目;l 实现对于文档正文内容的自动采集,转换编码,并与元数据合并形成标准的中间内容格式,索引到内容处理引擎IDOL Server中;l 支持文件去重 : 可以根据文件内容或属性字段进行自动排重;其操作流程为:文档目录文档列表分类、特征标引项的自动提取文档内容的自动抓取文档特征标引项入库、内容索引完成配置流程为:如下为嵌套的压缩文件抓取:抓取后的结果:同时也支持抓取文档里面的内嵌文档抓取(如word文件里面嵌入visio的图片文件,word的图文框等;)如下为内嵌visio以及xls的内容:如下为抓取的效果:同时HP还支持对国内特殊文件格式的抓取,如CEB格式文件的内容
5、抓取:抓取出来的效果如下:HP文件采集器支持文件自动探测采集,如无后缀名文件采集,后缀错误文件采集,不规范文件采集,单个不限容量文件采集等。不规范命名文件等文件格式的抓取示例如下:1.1.2 网络信息采集HttpConnector是HP针对网站信息的采集工具,它依据采集配置主动抓取网站上的页面内容,然后将内容转换成为标准格式传输到IDOL Server进行索引。它能按照用户设定的信息采集条件,自动采集多种类型网站和内容,包括:l 多源头采集(新闻,论坛,博客等);l 多语种采集(中文,英文,德文,法文,俄文,日文等);l 多类型采集(网页,文档,音视频等);l 帐号登录采集(需要用户名密码登录
6、的站点);l 定向内容采集(按照某内容主题采集);HttpConnector在采集过程中,它将自动分析这个页面中的相关链接,然后继续抓取相关的页面。这些链接页面的判断是基于抓取器中相关配置,把需要的内容抓取过来,无用的信息排除掉。同时它还可以实现采集的预处理,包括排重处理,分类标引等,与IDOL Indextask组件结合起来进行多任务处理,如下所示:HttpConnector的主要功能如下:功能功能描述定向站点范围采集支持采集指定URL站点的网页内容及对应的URL和附件多种格式网页采集支持多种网页格式(HTML、ASP、JSP、PHP等等)网站采集多种类型站点采集支持采集各种新闻、论坛、博客
7、、贴吧、微博。附件类型采集支持多种文档附件(ZIP、Doc、Xls、Pdf、RAR)采集支持自动采集网页的附件文件并按文件采集的要求进行分析更新采集可自动判断网页变化,更新采集网页,可以定义分钟、小时、天等循环频率支持记录采集历史,对已采集过的网页不会进行重复采集和分析断点续传采集系统关闭或意外中断,重启后可以在断点处开始采集,不需要全部重新采集,并已经采集的内容不会丢失认证采集支持session设置采集,支持用户密码认证采集灵活参数定义.可以按照域名采集,可以按照站点采集,按照层次采集,.支持采集url定义规则,支持定义屏蔽多种文件(avi,mp3)格式采集规则.可以定义采集线程数和层次深度
8、.可以定义采集线程时间间隔(防止目标站点屏蔽).可以定义采集网页总数和网页文件大小.可以配置采集器按照url进行数据排重网页内容提取可通过配置模板有效地提取网页中的信息:.网页标题,链接标题.网页正文.网页时间.新闻来源(如果有).网站中文名称针对统计数据发布网站(表格样式):.可以保留统计发布网页格式,从而保证对应显示关系网页内容过滤可以有效地过滤网页中的信息:.网页头、尾信息.广告信息.索引页面(新闻列表和博客索引页).其他无用信息网页快照当原始网页删除后,系统可以通过平台网页快照浏览原文数据索引支持将采集到的信息永久性存成本地文件或存入索引库,形成本地资料库,不受原网站删除内容的影响。数
9、据索引后可以根据网页标题和正文内容生成自动摘要和分类多语言信息采集支持中文简体、中文繁体、英采集,自动判断对方网站的语言。支持常见的 GB2312,GBK,GB18030,BIG5,UTF8 ASCII字符集的站点.采集输出形式 .文本文件.搜索引擎系统.数据库系统网络隔离应用针对一些内外网隔离的环境,采集系统支持人工导入外网采集数据到内网目录后,系统自动入库处理。应用界面.图形化用户管理界面.同步查看采集统计数据.同步查看采集线程的状态.及时查看采集日志1.1.3 数据库采集很多业务系统都是基于一些关系数据库来处理的,如Oracle,SQL Server,Sybase等等。数据资源的采集,也
10、需要将这些业务系统的资源有机的整合起来,将所有的业务数据融入整个内容资源中去。需要注意的是,对于已经建立的业务系统,在不能改变源数据库的数据结构、数据内容和工作方式的情况下,对数据库中的资源进行关联,采集平台可以自动将源数据库中数据进行转换,抓取,形成相关资源库,自动对元数据的更新进行同步,然后在统一的浏览平台下进行查询、预览、应用。HP提供了ODBC Connector,来对各种关系数据库如SQL server、Sybase、DB2、GreenPlum、主流国产数据库等数据库进行自动数据采集和加载入库。同时也提供了Oracle Connector专门针对Oracle做高性能的采集处理。ODB
11、C Connector采用ODBC方式连接,是成熟的数据接口,适用于大部分的数据库环境,支持多种字段类型,具备通用性、广泛性;Oracle Connector采用Oracle OLE DB与Oracle直接相连,更具效率,同时支持ORACLE的一些特性,对ORACLE 9i/10g/11g等都完整的满足;如下为采集流程:如下为处理模式:以下以Oracle数据库为例子,介绍具体采集功能: l 增量采集,第一次完全信息采集之后, OracleConnector即不再对所有数据进行采集,Connector会根据采集日志状态,来对新增、删除或者修改的数据库信息进行增量同步。Connector支持用户自
12、定义采集策略和规则,如表字段、视图内容、多表联合、循环间隔、采集时间等对数据库进行信息采集。l 自动采集,OracleConnector可以作为系统进程或者后台服务运行,按照用户设定好的规则,自动完成采集任务。Connector支持SQL语句的调用,可使用Select、Where、Like等语句对采集范围进行限制。l OracleConnector采用Oracle方式工作,使采集工作更有效率。l 支持大字段格式,OracleConnector均支持数据库中的大字段内容,支持对数据库中存放的各类文档(如PDF、Office、Html等)的内容抽取和处理。l 支持多表联合,可以从多个关联表中整合数
13、据条目并进行数据采集。l 支持并发采集,用户可自定义多个采集任务同时进行,提高采集效率。l 支持分布式采集,用户可根据数据库分布情况,部署分布式的OracleConnector模块,Connector完成采集后的数据通过网络接口索引至中心引擎。1.1.4 FileNet系统采集FileNET 是文档管理市场的传统领导者,它的网站内容管理套件包括Panagon 内容服务(PCS)、Panagon 网络发布者(PWP)、Panagon 网络服务(PWS)和Panagon 电子流程。FileNET的内容管理套件定位在内容管理的全部解决方案,它贯穿了整个内容的生命周期,从创造到审批、发布和分配等等。惠
14、普提供了FileNet P8 Connector,来抓取Panagon FileNet库的原始格式内容,同时也包括FileNet library的相关元数据信息,然后将其转化为惠普独特的IDX文件结构,索引到核心内容处理引擎IDOL Server中。FileNet P8 Connector可以采集本地的或者远程的多个数据集合,还可以进行分布式的处理,根据用户的需求配置索引结构。如下所示:分布式的处理结构:1.1.5 实体抽取实体抽取(Eduction)是一个专业的数据抽取工具,基于模式匹配的语法规则和字典,能够从多种数据实体中抽出相关的信息内容出来,如人名、地名、机构名称、电话号码、电子邮件等
15、。实际使用过程中,Eduction后台可以使用“字典”和“语法”,两者也可以结合起来,通过相关定义,来流水线作业,对需要的实体进行捕捉,提取,转换以及存储,主要包括:l 基于词典的内容抽取:如抓取某个产品的产地信息,事先预定义一个词典,Eduction自动发现含有相同产地标签的词汇,从而提取出来;l 基于表达式的内容抽取:通过正则表达式,定义需要抓取的文本字符串或者数字字符串,将相关内容提取出来,如抓取手机,座机联系号码等;l 基于概念匹配的内容抽取定义一定的语言环境,系统基于概念匹配的智能理解,抓取相关概念的内容,如抓取地址信息等;Eduction可以作为一个独立的服务运行,通过批处理的方式
16、批量的处理IDX索引文件,但Eduction通常一般作为indextasks的任务来处理,在文档通过indextasks流程处理时,将相关的文档内容按照Eduction配置的规则,进行元数据项的特征提取。接着后续indextasks任务将文档内容以及元数据项集成索引到IDOL Server中去,提供给前台的应用搜索和分析服务。流程如下所示:1.2. 信息搜索1.2.1 关键字搜索系统支持多种关键词检索方式,通过指定字段搜索或全文搜索的方式,查找系统平台中的多个数据源的数据,实现跨库检索。通过系统接口,可直接搜索企业现有应用系统中的数据。在关键词搜索的基础之上,系统支持自然语言检索,用户可以输入
17、一句话、一段文字甚至是一整篇文章,系统会分析用户检索条件的内容概念,然后从概念的相关度上来找出用户关心的结果。支持的搜索功能包括:功能功能描述中文分词支持准确的中文分词,支持中文简体、中文繁体和简繁互换,支持智能分词技术,根据语料统计和分析,建立歧义排除规则,如检索“中国家庭”时,不会把含“国家”的词条检索出来。多语言支持支持英、日、韩、德、法等主流语种支持跨库检索支持全部数据检索,支持指定数据源库检索支持逻辑检索对关键词进行与、或、非等逻辑关系检索,包括AND, OR, NOT, XOR, NEAR, DNEAR, WNEAR, YNEAR, RANGE, BEFORE, AFTER等十几种
18、操作符支持长表达式检索支持超长表达式查询一次解析返回结果支持通配符支持通配符*和?匹配支持范围运算支持日期和数字的范围区间运算和比较大小运算支持临位运算支持同句同段查询,支持关键字相邻位数查询,临位运算支持前后方向运算和无方向运算,包括,NEAR,DNEAR, RANGE等等支持精确匹配支持全关键词的精确匹配支持模糊查询支持模糊搜索,系统除了返回相应的搜索结果外,还返回与输入字符串相近的其他词汇,从而让用户发现相关的其他结果。支持自然语言检索支持自然语言检索和扩展检索,即概念检索功能,通过一句话、一段文字甚至是一整篇文章,系统会分析用户检索条件的内容概念,然后从概念的相关度上来找出用户关心的结
19、果。支持标签限定搜索支持标签搜索功能,通过建立索引文本的标签字段,用户可以有针对性地选择标签组合,从而返回相应的限定结果; 支持多个标签字段组合的逻辑“与或非”限定搜索,数量不限支持参数条件限定支持通过设置参数统计结果的条件筛选搜索结果支持排序支持按照日期、相关度以及其他字段组合的排序功能。排序支持的方式有:相关度、数据库编号、日期、文档id、英文字母升序/降序、数字升序/降序、日期反序、随机、无序支持二次检索支持再次搜索功能,在当前搜索结果中,实现以上搜索功能进行结果再次搜索。支持关键词扩展可以根据输入关键词查询出来的结果的内容进行相关词推荐,可进行二次查询支持关键词权重设置提供搜索关键词的
20、权重,多个元数据字段的权重组合搜索等。检索结果排重可以按照数据唯一标识(主键)或自定义字段进行结果显示时的排重高亮标红显示在检索结果的自动摘要和标题中,自动标红高亮显示命中关键词,标亮的样式支持定制支持同义词定义支持广义同义词检索,能够大大提高检索系统的查全率,比如检索“电脑”会把包含“计算机”、“Computer”的内容全部检索出来。1.2.2 参数搜索很多的搜索对象都有相关的元数据属性字段,通过HP提供的参数统计功能,可以实现各元数据的统计和分析,并可以输出成为多种图形形式,如柱状图,饼图,线图等,从而使用户实时了解搜索对象的数量特征,更深入的得到内容信息。IDOL系统的参数统计功能支持的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- IDOL 技术 介绍 20151110112600
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。