第二章信息检索.pptx
《第二章信息检索.pptx》由会员分享,可在线阅读,更多相关《第二章信息检索.pptx(53页珍藏版)》请在咨信网上搜索。
1、第二章第二章 信息检索信息检索第一节第一节信息检索的基本原理信息检索的基本原理第二节第二节 信息检索方法信息检索方法第三节第三节信息检索途径信息检索途径第四节第四节 信息检索技术信息检索技术第五节第五节信息检索步骤信息检索步骤第六节第六节 检索效果评价检索效果评价第一节第一节 信息检索的基本原理信息检索的基本原理一、信息检索的概念一、信息检索的概念二、信息检索的基本原理二、信息检索的基本原理三、信息检索的类型三、信息检索的类型一、信息检索的含义一、信息检索的含义 广义的信息检索:是指将大量分散、无序的信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程,包括信息的存储与检索两个方
2、面。狭义的信息检索:是指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获得特定相关信息的过程。二、信息检索的基本原理二、信息检索的基本原理 信息检索的实质就是将需要查找的信息特征转换为检信息检索的实质就是将需要查找的信息特征转换为检索系统能够识别的检索索系统能够识别的检索提问标识提问标识,然后通过与检索系统中,然后通过与检索系统中的信息的信息存储标识存储标识进行进行匹配比对匹配比对,将与提问标识一致的信息,将与提问标识一致的信息记录提取出来就是检索的命中信息。记录提取出来就是检索的命中信息。为了保证信息能存得进、取得出,就必须使信息存储所依为了保证信息能存得进、取得出,就必须使信息存
3、储所依据的规则与信息检索时所依据的规则尽量做到一致。据的规则与信息检索时所依据的规则尽量做到一致。提问提问(检检索索)语言语言信息标信息标识语言识语言匹配匹配信息处理人员信息处理人员用户用户信息分析、著录、标引信息分析、著录、标引信息需求分析信息需求分析检索语言检索语言信息的表示信息的表示检索提问检索提问数据库数据库匹配比对匹配比对输出检索结果输出检索结果信息检索的基本原理信息检索的基本原理三、信息检索的类型三、信息检索的类型按信息检索的内容,信息检索可分为:?数据检索?事实检索?文献检索信息检索的类型信息检索的类型1、数据检索 是以数值、图表等信息形式为检索对象,从所收藏的资料中查找出特定数
4、据的过程,又称“数值检索”。即检索系统中存贮的是大量的数据,其中包括各种数字数据和非数字数据。数字数据包括参数、电话号码、银行帐号、观测数据、统计数据;非数字数据包括图表、图谱、市场行情、化学分子式、物质的各种特性等,并提供一定的运算推导能力。数据检索是一种确定性的检索,信息用户检索到的各种数据是经过专家测试、评价、筛选过的,可直接用来进行定量分析。数据检索数据检索信息检索的类型信息检索的类型2 2、事实检索、事实检索 是指以直接提供可用的特定事实信息为目的的信息检索。是指以直接提供可用的特定事实信息为目的的信息检索。其检索对象包括事实、概念、思想、知识等非数值信息,同其检索对象包括事实、概念
5、、思想、知识等非数值信息,同时它也可能包括一些数据信息,但需要针对查询要求,由检时它也可能包括一些数据信息,但需要针对查询要求,由检索系统进行分析,推理后,再输出最终结果。索系统进行分析,推理后,再输出最终结果。事实检索事实检索信息检索的类型信息检索的类型3 3、文献检索、文献检索 是以文献为检索对象的信息检索是以文献为检索对象的信息检索,根据检索根据检索结果的不同,文献检索可细分为结果的不同,文献检索可细分为书目检索书目检索和和全文全文检索。检索。它是一种相关性检索。它是一种相关性检索。如查找如查找“张爱玲的作品张爱玲的作品”书目检索书目检索全文检索全文检索 信息检索(Information
6、 Retrieval)与文献检索(Document Retrieval)是两个不同的概念,文献检索是信息检索的一种最基本的、最主要的形式。三、信息检索的类型三、信息检索的类型按信息检索的手段划分按信息检索的手段划分1 1、手工信息检索、手工信息检索 指将分析检索课题确定的检索标识通过人工动手翻阅的方法去与书本式检索工具中的存储标识进行匹配,获取与标识相符的信息线索的信息检索方法。2 2、计算机信息检索、计算机信息检索 指通过计算机来处理检索者的检索提问,将检索者输入检索系统的检索提问(检索标识)按检索者预先制定的检索策略与数据库中的存储标识进行类比、匹配运算,从而检索出所需要信息的检索方法。第
7、二节第二节 信息检索方法信息检索方法 直查法:不依靠任何检索工具或系统,从本专业最新核心期刊或其他文献中直接阅读原文或浏览最新目次而获取文献的方法。第二节第二节 信息检索方法信息检索方法 顺查法:一种根据检索课题的起始年代,利用所选定的检索工具,按照从旧到新、由远及近、由过去到现在的时序逐年查找,直至满足课题要求为止的查检方法。顺查法由于是逐年查找,漏检较少,查全率高,在检索过程中不断筛选,剔除参考价值较小的文献。又由于对准需求口径,误检的可能性较小,查准率也较高。适用于那些主题较复杂,研究范围较大,研究时间较久的科研课题。因是逐年逐卷地查检,检索工作量大,费时、费力,多在缺少评述文献时采取。
8、第二节第二节 信息检索方法信息检索方法 逆查法:也叫倒查法,与顺查法相反,是利用所选定的检索工具,按照由新到旧、由近及远、由现在到过去的逆时序逐年前推查找,直至满足课题要求为止的查检方法。这种方法多用于新课题、新观点、新理论、新技术的检索,检索的重点在近期信息上,只需查到基本满足需要时为止。倒查法的目的是要获得某学科或研究课题最新或近一段时间内所发表的文献或研究进展状况。此方法省时,查得的信息有较高的新颖性,但查全率不高。第二节第二节 信息检索方法信息检索方法 抽查法:是利用检索工具进行重点抽查检索的方法。它是针对某学科的发展重点和发展阶段,抓住该学科发展较快,文献信息发表较多的年代,拟出一定
9、时间范围,进行逐年检索的一种方法。使用这种方法检索效果和检索效率较高,但漏检的可能性较大,因此使用此法时必须熟悉学科的发展特点。第二节第二节 信息检索方法信息检索方法 追溯法:以文献后面所附的参考文献为线索,逐一追溯查找相关文献的方法。这种方法在所检索的领域没有专门的检索工具,或需要查找某一课题的研究历史时比较常用。它对于了解特定研究方向的发展轨迹、代表人物和代表性成果具有独特的效果。第三节第三节 信息检索途径信息检索途径1 1、著者途径、著者途径 通过的文献著者(机构)的名称来查找。检索知名学者或核心机构时,该途径有较强的实用性。2 2、题名途径、题名途径 通过文献的题名来查找,包括文献的篇
10、名、书名、刊名等。第三节第三节 信息检索途径信息检索途径3 3、分类途径 按学科分类体系来检索文献。这一途径是以知识体系为中心分类排检的,较能体现学科系统性,反映学科与事物的隶属、派生与平行的关系。4 4、主题途径 通过反映文献资料内容的主题词来检索文献,便于用户对某一问题、某一事物和对象作全面系统的专题性研究。第三节第三节 信息检索途径信息检索途径5 5、代码途径 通过信息的某种代码来检索,如图书ISBN号、期刊ISSN号、专利号、报告号等。6 6、其他途径 利用检索工具的特殊索引,如事物的化学分子式、环系索引等。第四节第四节 信息检索技术信息检索技术 在信息检索中,为了构建信息检索的表达式
11、,常用四种运算:布尔逻辑运算 截词运算 位置运算 限制运算布尔逻辑运算布尔逻辑运算 利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。布尔逻辑算符是用来表达概念之间关系的一类运算符。基本的布尔逻辑算符有三种:逻辑“与”、逻辑“或”、逻辑“非”。布尔逻辑组配是现行计算机检索的基本技术。布尔逻辑运算布尔逻辑运算逻辑“与”,具有概念交叉和限定关系的一种组配。其含义是检索出的记录必须同时含有所有的检索词。用符号“and”或“*”表示,其逻辑表达式为:A*B 或A and B如:山株萸的药用价值(山株萸*药用价值)逻辑“与”起
12、到缩小检索主题范围的作用,用逻辑“与”组构的检索词越多,检索范围越小,专指性越强,有助于提高查准率。布尔逻辑运算布尔逻辑运算逻辑“或”,用于两个或两个以上概念之间的并列关系运算,表示概念的相加,其含义是检出的结果中只需满足检索项中的任何一个或同时满足即可。用符号“or”或“+”表示,其逻辑表达式为:A or B或 A+B 如:数据挖掘在图书馆工作中的应用 图书馆*(数据挖掘+知识发现)逻辑“或”主要用来其组配表达相同概念的检索词,如同义词、近义词、相关词等,以提高查全率。布尔逻辑运算布尔逻辑运算逻辑“非”,是具有概念删除关系的一种组配,可从原检索范围中剔除一部分不需要的内容,即检出的记录中只能
13、含有NOT算符前的检索词,不能同是含有其后的检索词。用符号“not”或“-”,其逻辑表达式为:A not B或 A-B如:非儿童的心理测试 心理测试 -儿童 逻辑“非”缩小了检索范围,提高了检索的专指度。截词运算截词运算 截词运算就是用一个词的局部作为检索标识进行信息检索,只要信息存储系统中有信息的标识符能和这个“局部”匹配,那么这个信息就为命中信息。截词运算是通过在检索词的词干上加一个截词符号,以表示对该词的各种词性的完整词进行检索。使用截词符具有布尔逻辑运算符“OR”的功能,能扩大检索范围,同时还可以减少输入检索词的误差,它是提高查全率,防止漏检的有力手段。截词运算的基本形式截词运算的基本
14、形式后截断:或称右截断,也称前方一致。它是将截词符放在一串字符的后面,用以表示查找以相同字符串开头,而结尾不同的所有检索词。如:comput?表示computer、computers、computing、computation等。前截断:或称左截断,也称后方一致。它是将截词符放在一串字符的前面,用以表示查找以相同字符串结尾,而开头的前缀不同的所有检索词。如:?computer表示minicomputer、microcomputer等中截断:也称前后一致、中间屏蔽符,是一种用截词屏蔽词中不同字符的方法。如“woman”和“women”,可用“wom?n”代替;“defence”和“defense
15、”可用“defen?e”代替。截词运算截词运算包括有限截词和无限截词有限截词一个截词符只代表一个字符如:wom*n 可检索出:woman、women(中间截断)chip?可检索出:chips(右截断)无限截词一个符号可代表任意多个字符如:comput$可检出:Computer、computers、computering注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认 位置运算位置运算 位置运算符是指表示词与词之间位置关系的符号。位置运算符的作用是对复合检索词进行加工修饰,限制词与词之间位置关系,弥补了布尔逻辑算符只是定性规定检索词的范围,可提高检索结果的查准率。常用的位
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息 检索
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。