学位论文—基于lucene的桌面全文搜索引擎研究-.doc
《学位论文—基于lucene的桌面全文搜索引擎研究-.doc》由会员分享,可在线阅读,更多相关《学位论文—基于lucene的桌面全文搜索引擎研究-.doc(37页珍藏版)》请在咨信网上搜索。
1、*学院毕业设计(论文)开题报告 * 系 * 专业 200* 级 01班课题名称: 基于Lucene的桌面全文搜索引擎研究 学生姓名: * 学号:*指导教师: * 报告日期: 200*年3月 26 日 1 本课题所涉及的问题及应用现状综述本课题来源于科研项目,主要是研究中文搜索中的关键算法和基于luence的搜索引擎,设计一个桌面搜索系统。本课题要求熟悉c/c+/java编程和人工智能。Luence是一个用java写的全文搜索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎及部分文本分析引擎,支持多用户访问,访问索引速度快,可以跨平台使用。L
2、ucene的目的是为软件开发人员提供一个简单易用的工具包,以方便地在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎. Lucene可以对任何的数据做索引和搜索.Lucene不管数据源是什么格式,只要它能被转化为文字的形式,就可以被Lucene所分析利用.也就是说不管是Word,Html,PDF还是其他什么形式的文件只要你可以从中抽取出文字形式的内容就可以被Lucene所用,就可以用Lucene对它们进行索引以及搜索.应用它可以快速的开发一个搜索引擎。本课题就是要研究利用基于java的全文检索工具包Luence开发一个桌面搜索系统。经过多年的发展,Lucene在全文检索领
3、域已经有了很多的成功案例,并积累了良好的声誉.基于Lucene的全文检索产品和应用Lucene的项目在世界各地已经非常之多, 例如,众所周知的Apache软件基金会的网站使用了Lucene作为全文检索的引擎,IBM公司开源软件Eclipse的2.1版本中也采用了Lucene作为帮助子系统的全文索引引擎,相应的IBM公司的商业软件Web Sphere中也采用了Lucene.Lucene正以其开放源代码的特性,优异的索引结构,良好的系统架构获得了越来越多的应用.2本课题需要重点研究的关键问题、解决的思路及实现预期目标的可行性分析本课题需要重点研究的关键问题:1.中文搜索引擎中的关键算法。2. 建立
4、索引和搜索。建立索引和搜索是搜索引擎最重要的也是最基本的两部分.3.如何利用Lucene来建立自己的桌面搜索引擎系统。解决思路:在开始做本课题之前,先要学习中文搜索引擎的算法,学习如何建立索引和搜索,学习并了解Lucene以及如何应用Lucene。并认真学习c/c+/java和人工智能等方面的知识。这些都需要通过阅读和学习大量的书籍和资料来完成。虽然这些东西以前接触的比较少,对这方面知识了解还不是很多,但是我想通过一段时间的学习和老师的指导,这些问题都可以解决。先要对这方面的知识要有一个初步的了解。可行性分析:要做好本课题,首先要了解算法方面的知识,其次要对c/c+/java和人工智能等方面的
5、知识要有充分的掌握来作为基础。这些现在对我来说都有一定的困难,但是我可以通过不断的学习和老师的指导来逐渐的克服这些困难。 3完成本课题的工作方案 要完成本课题首先要认真学习并掌握一定的算法方面的知识,认真学习c/c+/java和人工智能等方面的知识,提高自己的编程能力,还有就是要认真学习和了解Lucene,然后才能应用Lucene来建立搜索引擎,完成本课题。为此制定的具体的工作时间安排如下: 2007.3.20-2007.4.30 熟悉java语言,lucence库以及相关的搜索算法 2007.5.1-2007.5.31 软件的实现 2007.6.1-2007.6.25 论文撰写、准备答辩4指
6、导教师审阅意见指导教师(签字): 年 月 日说明:本报告必须由承担毕业论文(设计)课题任务的学生在毕业论文(设计) 正式开始的第1周周五之前独立撰写完成,并交指导教师审阅。*学院毕业设计 (论文)成绩评定表学生姓名*性别男学号*专 业班 级*1课题名称基于Lucene的桌面全文搜索引擎研究课题类型实际应用难度难毕业设计(论文)时间200 年3月19日200 年6月 24日 共14周 指导教师* (职称:讲师)课题任务完成情况论 文 20 (千字); 设计、计算说 明书 2 (千字); 图纸 3 (张);其它(含附 件):程序指导教师意见 分项得分:开题调研论证 分; 课题质量(论文内容) 分;
7、 创新 分;论文撰写(规范) 分; 学习态度 分; 外文翻译 分指导教师审阅成绩: 指导教师(签字): 年 月 日评阅教师意见 分项得分:选题 分; 开题调研论证 分; 课题质量(论文内容 分; 创新 分;论文撰写(规范) 分; 外文翻译 分评阅成绩: 评阅教师(签字): 年 月 日验收小组意见 分项得分:准备情况 分; 毕业设计(论文)质量 分; (操作)回答问题 分验收成绩: 验收教师(组长)(签字): 年 月 日答辩小组意见 分项得分:准备情况 分; 陈述情况 分; 回答问题 分; 仪表 分答辩成绩: 答辩小组组长(签字): 年 月 日成绩计算方法(填写本系实用比例)指导教师成绩 ()
8、评阅成绩 () 验收成绩 () 答辩成绩 ()学生实得成绩(百分制)指导教师成绩 评阅成绩 验收成绩 答辩成绩 总评 答辩委员会意见 毕业论文(设计)总评成绩(等级): 系答辩委员会主任(签字): 系(签章) 年 月 日备注*学院毕业论文(设计)成绩评定表(续表)基于Lucene的桌面全文搜索引擎研究目 录摘要IAbstractII1 绪论12 Lucene基础12.1 信息获取与搜索引擎12.2 Lucnen的历史32.3 索引和搜索63 搜索引擎的中文问题83.1 中文分词问题84 用Lucene来建立索引和搜索94.1 Lucene分析器Analyzer104.2 索引建立的过程114.
9、3 Lucene的文档格式124.4 索引的添加IndexWriter类154.5 Lucene的索引文件格式简述164.6 搜索的流程184.7 搜索与结果184.8 Lucene的评分机制205 构建自己的“搜索引擎”215.1 认识Lucene225.2 为本机的文件创建索引235.3 搜索的效果245.4 总结26致谢27参考资料28附录29 基于Lucene的桌面全文搜索引擎研究摘要Lucene是一个用Java写的全文搜索引擎工具包,支持多用户访问,访问索引速度快,可以跨平台使用.全文检索技术是信息检索领域广泛使用的基本技术.它是一个优秀的开源全文本搜索技术框架.按照Lucene的框
10、架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中.本文研究了Lucene的中文切分词技术,Lucene的索引原理,根据Lucene的系统结构详细分析了Lucene分析器、索引包、文档等结构, 描述了利用Lucene开发定制的中文全文搜索引擎的方法,实现了一个基于Lucene的全文搜索应用实例.关键词: Lucene 全文检索技术 搜索引擎 索引 切分词AbstractLucene is a full text using Java to write search engine toolkit , which supports multiaccess , visit
11、s index speed quickly ,and can stride over platform usage. The full text search technology is the fundamental technology that the information retrieval field uses broadly. It is that one is excellent hold source full text searching for the technology frame originally. According to the Lucene frame n
12、orm , the function expanding Lucenes, in the search engine being able to Lucene be implanted very good to self。Unwieldy culture has studied the Lucene Chinese segments the word technology , the Lucene index principle , the system structure according to Lucene has analysed the Lucene analyzer , index
13、 structure such as bag , document detailedly , has described search engine method making use of Lucene to develop custom-built Chinese full text , has realized a example applying owing to that the Lucene full text searches for.Key words: Lucene,Full text Search technology, Search engine, Index, Segm
14、ent word281 绪论Lucene开始是作为个人项目。1997年,Lucene的作者Doug Cutting编写了Lucene。几年以后,2000年,他将Lucene放到了自己的网站上。一些人马上开始使用Lucene。2001年,Apache的人提出采用Lucene。Lucene的代码捐助也慢慢开始了,Lucene开始成为真正的合作项目。到2004年,Lucene已经有了一个强有力的开发团队。这些年来,Lucene已经被翻译为其它多种语言版本,包括C+,C#,Perl和Python。在最初的Java以及其它各版本中,Lucene的应用相当广泛。它在各种应用中为搜索提供动力,如财富100的
15、讨论组、商业的Bug跟踪、微软提供的邮件搜索还有数十亿页面级的 WEB搜索引擎。越来越多的人开始使用Lucene。下面我将更详细的介绍Lucene,并用它来构建一个自己的搜索引擎。2 Lucene基础2.1 信息获取与搜索引擎随着计算机技术和互联网技术的飞速发展,网络上的信息量急剧增长,要在浩如烟海的网络世界中寻找需要的信息,作为现代信息获取技术的主要应用一一搜索引擎是不必可少的。2.1.1 信息获取互联网(Internet)正以前所未有的态势改变着整个世界,它现在已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。其信息来源丰富、分布广泛,各种类型信息资源异构地分
16、布于网络空间中,如果不能使庞杂的信息有序化,就很难有效获取。如何准确有效的从互联网上获取信息,就显得十分迫切和需要。信息获取技术包含信息的表示、存储、组织和对信息的访问方法。信息的表示和组织是为了让用户更容易地访问到需要的信息。一般来讲,信息获取的流程分为以下几部分:在获取信息之前,首先需要构造文本数据库,即将来需要进行检索的数据。在有了文本数据之后,需要建立文档的索引。利用索引技术可以大大提高信息检索的速度。当前有很多种建立文档索引的方法,然而对于大规模的数据量来讲,用得最多的还是倒排索引技术。在Lucene中,索引部分也是使用的倒排索引方法。在建立好索引之后,就可以对其进行检索了。我们首先
17、给出一个查询,该查询将被分析,然后利用文本处理技术进行处理。在查询操作进行之前还可以对其进行一些处理。最后根据查询将获取一些文档,这就是检索结果。在把检索结果反馈给我们之前,还可以对检索结果按照一定的次序排序,以使符合我们需要的文档能够排在更前面。搜索引擎在10年之前对大家来讲还是一个非常陌生的概念,然而现如今,它正在逐渐地改变着人们获取信息的方式,越来越引起人们的重视。下面,先来回顾一下搜索引擎的发展历史。2.1.2 搜索引擎的发展与分类a.发展历史搜索引擎的鼻祖就是黄页,诞生于19世纪末。因为黄页,在电话诞生后成为了以电话为主体的信息门户,而且黄页把有电话的企业分门别类,的确与现在的搜索引
18、擎有异曲同工之妙。不过,这更多地是从这两者的形式和用途做的类比。我们所说的搜索引擎其实是在近10年的不断发展中逐步形成的,它建立在互联网和诸多计算机技术之上,所以很难把搜索引擎的缘起与哪个具体的产品对应起来。然而,在它逐步发展的过程中,一些关键系统和产品的产生成为了具有里程碑意义的事情。1993年10月Martijin Koster创建了ALIWEB(Martijin Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个
19、网页的简介索引信息,类似于后来大家熟知的Yahoo。1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索,这就是Excite,后来曾以概念搜索闻名。1994年1月,第一个既可搜索又可浏览的分类目录EINet Ga1axy(Tradewave Ga1axy)诞生。除了网站搜索,它还支持Gopher和Te1net搜索, Lycos是搜索引擎史上又一个重要的进步。Canegie Me11on University的Michael Mau1din将john Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,
20、Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。1998年10月之前,Google只是Stanford大学的一个小项目BackRub 。1999年2月,Google完成了从A1pha到Beta 的蜕变。Google在Pagerank、动态摘要、网页快照、Dai1yR efresh、多文档格式支持、地图、股票、词典、寻人等集成搜索、多语言支持、用户界面等功能上的革新,像A1tavista一样,再一次彻底改变了搜索引擎的定义。(注意:计算机技术正在飞速发展,关于搜索引擎的定义和发展过程,也有各种各样不同的观点。)b.分类搜索引擎并没有一个精确的定义,一般来
21、讲,大致可以分为两大类:全文搜索引擎(FullText Search Engine)和分类目录(Directory)。全文搜索引擎通过一个叫网络机器人(Spider)或叫网络蜘蛛(Craw1ers)的软件, 自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,记入数据库。Google、百度就是比较典型的全文搜索引擎系统。分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及搜狐,新浪,网易等网站的分类目录。这两种类型的搜索引擎各有自己得优缺点。全文搜索引擎的使用以关键词和一定的语法为特点,而分类目录则通过建立多级目录对网站进行分类。它们在使用上各有长短。全文搜索引
22、擎因为依靠网络机器人搜集数据,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。此外,基于这两类搜索引擎,还衍生了其他的搜索服务,主要有元搜索引擎和集成搜索引擎等,这里就不一一介绍了。搜索引擎既然没有明确的定义,一般就以其发展中一些里程碑式的应用标志其阶段。大多数人普遍的共识是:第一代搜索引擎:是依靠于人工分拣的分类目录搜索,以“雅虎”为标志。第二代搜索引擎:是依靠于机器抓取,并建立在超级链接分析技术基础之上的网页搜索,以“Google”为代表,其信息量大、更新及时,但返回信息过多,可能有很多无关信息。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学位 论文 基于 lucene 桌面 全文 搜索引擎 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。