现代信息检索课程教案演示教学.doc
《现代信息检索课程教案演示教学.doc》由会员分享,可在线阅读,更多相关《现代信息检索课程教案演示教学.doc(42页珍藏版)》请在咨信网上搜索。
1、现代信息检索课程教案精品文档153 计算机信息检索的基本技术与方法学习重点 熟练掌握计算机信息检索的基本技术1531 计算机文献信息检索的技术查全率(Recall ratio)检出相关文献量/文献库内相关文献的总量 100%查准率(Precision ratio)检出相关文献量/检出文献总量100%1布尔逻辑检索(逻辑组配检索)(Boolean logical)指采用布尔逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索的过程。布尔逻辑表达式是采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算检索词,以及表示运算优先级的括号组成的一种表达检索要求的
2、一种算式,简称提问逻辑式。l 逻辑与“ AND ”运算符,也可用“*”表示,用来组配不同的概念的检索词。是一种概念相交和限定关系的组配。例如:“A AND B”或“A * B”其含义是:检出的信息中必须同时含有“A”和“B”两个检索词。基本作用是对检索范围加以限定,逐步缩小检索范围,提高检索结果的查准率。例如,检索“计算机在图书馆中的应用”方面的文献,其提问式可写成:计算机 and 图书馆 或 计算机*图书馆l 逻辑或“ OR ”运算符,也可用“ + ”表示,是用来组配具有同义或同族概念的检索词。如:检索提问式:“A OR B”或“A + B”其含义是数据库记录中任何一条记录,只要含有“A”或
3、“B”中任何一个检索词即为命中的文献。基本作用是扩大检索范围,增加命中文献量,提高文献的查全率。如:“微机 + 电脑 + PC机”、 “微机 or 电脑 or PC机”l 逻辑非“ NOT ”运算符,也可用“-”表示,“NOT”算符是排除含有某些词的记录,其逻辑提问表达式为“A NOT B”或 “A - B”,即检出的记录中只能含有“NOT”算符前的检索词 A,但不能同时含有“NOT”后的检索词 B。基本作用是缩小检索范围,但并不一定能逻辑非提高文献命中的准确性,一般只起到减少文献输出量的作用。在联机检索中可降低检索费用。例如:“计算机 NOT 微机”应注意,由于“NOT”算符有排除掉相关文献
4、的可能,因此,在实际检索中应慎重使用。2截词检索截词检索是在词干的不同位置添加截词符“?”、“*”或“$”,以此代表词的可变部位,以检索一组概念相关或同一词根的词,从而减少相同词干的检索词的输入数量,提高检全率的一种常用检索方法。这种检索方式可以扩大检索范围,提高查全率,主要用于西文数据库检索。中文数据库通常不使用这种技术。主要用于检索词的单复数、词性的词尾变化、词根相同的一类词,以及同一词的拼法变异等。在不同的检索系统里用不同的符号,一般为:*、?、!基本作用是提高查全率,防止漏检。类型: 根据截词的位置不同,分为前截断、后截断、中截断 前截断:又称左截断,截词符放在被截词的左边,可与后截断
5、一同使用。目前这种检索技术应用已经极少,例如:*magnetic。 中截词:把截词符放在词的中间。这种方式查找英美不同拼法的概念最有效。例如:如:wom*n 可检出woman,women 后截断:是前方一致检索,又称右截断,截词符放在被截词的右边,是最常用的检索技术,例如:librar*。 根据截断的数量不同,分为有限截断和无限截断。 有限截断:限制被截断的字符数量,例如输入apple? ? 表示被截断的字符只有两个,可检出apple、applet等结果。 无限截断:不限制被截断的字符数量。例如输入educat?,可以检索educator,educators,educated,educatin
6、g,education,educational,等等。 注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认。3位置算符检索表示两个检索词间的位置临近关系,又叫邻接检索。这种检索技术通常只出现在西文数据库中,在全文检索中应用较多。布尔逻辑运算符表示两个概念之间的逻辑关系,位置算符表示的是两个概念在信息中的实际物理位置关系常用位置算符 W/n(with/n):两词相邻,在一个标引字段中W/n表示两个词不可以互换顺序,二者之间可插入0-n个词。 如:智能机器人(w/3)控制,可检出“智能机器人控制”,“智能机器人行为控制”等 N/n(near/n):两词相邻,N/n表示两个词可
7、以互换顺序,二者之间可插入n个词。 如:智能机器人(n/3)控制,可检出“智能机器人控制”,“控制算法对智能机器人的影响”等 F(field):同字段检索,被f连接的检索词必须出现在同一字段中。 S(sub-field/sentence):同句检索, 要求参加检索运算的两个检索词必须在同一自然句中出现。4. 限制检索通过设定相应的检索条件实现对检索的优化。是缩小或约束检索结果的方法,最常用的是对特定字段的限定检索。如:rice in ti(表示只在题目字段中查找文献) rice in de(只在主题词中查找) rice in ab(只在文摘中查找) au = Smith,J.C (查作者为Sm
8、ith,J.C 的文章) py = 1998(只查1998年的文章) la =Chinese (只查语种为中文的文献)常用的限制检索方式: 字段检索将检索限定在特定字段内进行限制的方法。 字段限制范围的大小顺序是:题名关键词摘要NOTANDOR7. 全文检索:全文检索是指对文献全文内容进行字符串匹配检索,包括字符串检索、截词检索和位置检索等技术。全文检索技术是一种面向全文、提供全文的新型检索技术。它可以使用原文中任何一个有实际意义的词作为检索入口,得到的结果是源文献而不是文献的线索。全文检索系统必须具有一个全文数据库。在全文库的基础上,对其字、词、句、段等的加工、检索与编辑。系统除了可以用布尔
9、逻辑运算式进行检索外,还具有文本检索功能,并具有同义词控制、后控词表对检索策略的自动调整等功能。此外,系统还允许用户以自然语言进行检索,直接获取原文中的有关章、节、段、句等。8. 扩检:在试探性检索所获取的检索结果过少,还不到检索要求时,应采取扩展检索以扩大检索范围,保证检索率。采用的方法可以是增加检索词:如将原检索词的所有同义词、别名、俗名作为检索词进行组配检索,使用截词技术或扩大检索的年代与文献范围。缩检:亦称二次检索,当检索结果数量过多,评价、筛选困难时,为保证检索精度与检准率,使用缩检,即在原有检索结果中进行筛选,这个措施可反复采用,直到检索结果符合要求。154 文献信息检索的基本步骤
10、与策略学习目标掌握文献信息检索的基本步骤,并能运用于实践。采用检索工具检索文献信息一般要经历5个紧密相连的步骤 1.分析研究课题,明确检索要求 分析研究检索课题是整个检索过程的关键,是信息检索成功与否的关键,检索者首先要对课题作综合分析,通过分析明确如下要求,(1)明确课题的专业范围及其关健点,选取主题词。(2)明确所需文献类型。(3)确定所需文献的时间范围与语种范围(4)分析检索目的:以科研攻关,解决具体的技术难题为目的。(5)研究探索:密切跟踪,了解国内外某一研究领域的最新成果与动态。每一项理论或技术都有其发生、发展和形成的过程,检索时就是根据研究课题相关知识发展的形成期、高峰期和稳定期来
11、确定检索的时间范围。检索要求愈明确,检索范围愈具体,已知条件愈多,检索效果愈好。因此,分析研究课题这一步进展得如何,对其后的检索程序至关重要检索者切忌情况不明就贸然开始检索,这会导致走弯路或检索失败。检索的目的与要求及检索范围作为选择检索工具与数据库的依据。不同的数据库其收集的文献类型、学科范围,对文献的回溯期限不同。2选择检索工具(或数据库)与检索手段根据已经明确的检索要求与专业范围,选择合适的检索工具或数据库。确定检索方法:追溯法、常用法(顺查法,倒查法,抽查法)中外文检索工具与数据库很多,检索者要求对各种检索工具或数据库的性质,内容和特点作深入了解,可借助于各种检索工具指南,学科文献指南
12、或联机数据库目录。机检包括联机检索,脱机检索,光盘检索与网络检索,其中手工检索基本上不花钱,机检速度快,效率高,但费用也高。检索者可根据时时间要求、设备状况与经费条件来选择合适的检索手段。3确定检索途径与拟定检索式采用哪种方法与途径,要结合课题检索要求与检索工具或数据库的特点来确定。就检索途径而言,如果课题检索要求泛指性较强的文献资料,最好用分类途径;如果课题检索要求是专指度较高的文献资料,最好选择主题途径,如果事先巳知文献著者,分子式,专利号,标准号,报告号等条件,则利用著者途径,分子式途径与文献代码等途径为好。必要时将这些途径与分类、主题途径配合使用,将会收到更好的检索效果。检索提问式是计
13、算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成。4实施试检索操作用分类法与主题法检索文献时,要选准分类号与主题词,在机检中还要构造机检策略,即用布尔逻辑或其它符号将检索词连接起来,组成一种逻辑运算式。在检索过程中,无论是手检或机检,均需视检出结果,如果试检索的结果与检索需求存在差距,则需要对检索课题进行再分析,不断修改与完善检索策略,以达到检索的合理性与有效性。再分析的过程包括:重新选择检索系统,选择相关检索词,重新拟定检索式,以及在原有检索策略的基础上进行扩检、缩检,设定较长的文献回溯期等。阅读检出结果,决定取舍
14、。在手检中对切题的文献要记录文献资料的篇名(书名),著者,文摘、文种、来源等,尤其是文献来源切不可遗漏。倘若是机检,可选择打印格式,联机或脱机打印输出即可。5检索结果的评价与获取原始文献评价检索结果是结合多种标准对检索结果进行评价、筛选,把真正符合需要的检索结果保留下来。获取原文是文献检索的最后一步,原文获取可以通过多种途径实现。全文数据库的检索与原文获取可以一步完成,是检索时的首选。而题录与摘要信息检索系统只能检索到原文的线索,在这种情形下,应尽可能通过本地资源获取原文。如本地资源无法保障,则可以考虑使用电子文献传递系统从其他图书、情报机构获得原始文献。目前大部分非全文数据库多提供了原文的外
15、链接,用户可以根据需要选择。155 计算机信息检索的策略1分析研究课题,明确检索要求检索误区1过分依赖搜索引擎。Internet资源与专业的网络数据库来比,无论是质量还是数量上都有很大的差距,检索文献目前来说最主要的来源还应是专业数据库,即正规的出版物上发表的文献。检索误区2忽略摘要数据库。摘要数据库的数据量大,范围广,是查找文章线索极好的检索工具。就目前的情况而言,不可能全部都能得到电子版的全文,先找到文章线索再根据线索查找印刷版的全文是一项不错的组合。2选择数据库或网络检索工具选择合适检索工具的前提是对网络资源有一个较全面的、清晰的了解,具体地说要对检索工具的类型、内容特点、时间范围、学科
16、范围、甚至出版商的大体情况都要有一个了解。方法: 注重平时的积累 不要盲目检索,应养成检索前了解一下数据库的习惯 注重与他人的交流 重视图书馆主页的资源3提炼检索词,制定检索式检索词尽可能选用词或词组,然后用布尔逻辑运算符将检索词连接起来,切忌把整个题名输入到检索框中。如:网络数据库的安全性研究要提炼关键的、核心的词作为检索词。去掉意义太泛或“无所谓有”的词,有时不需要死抠字眼,意思匹配就可以了。漏检:忽视了同义词、相似词等。检索中不断调整策略4实施试检索操作检索,再分析,再检索,再分析。5检索结果处理。156 提高检准率与检全率的常用方法1.提高检全率的方法n 使用同义词、近义词、相关词和缩
17、略词扩大检索范围,去掉连字符也可扩大检索范围;n 使用逻辑或“or”;n 使用截词检索技术;n 扩大检索年限;n 以其他数据库或检索系统进行补充;n 其他方法:如通过已有检索结果切换检索途径。2.提高检准率的方法n 核心概念的限定;n 核心期刊的限定;n 语种的限定;n 用布尔逻辑算符“and”或者“not”组配检索词;n 使用位置算符“near”和字段算符“in”提高查准率;n 使用“Index”和叙词表,选择确切的检索词缩小检索范围。2 大型综合性检索系统学习目标 熟悉了解各种大型综合性检索系统的收录范围、特点以及主要数据库。大型综合性检索系统:指具有统一的检索界面、集成多个数据库,在资源
18、内容上跨学科的检索系统。随着知识经济的兴起,世界经济一体化进程的加快和国际信息资源竞争的加剧,客观上要求各国的信息资源机构必须以新的观念、新的视角、新的思维和新的对策来迎接新的挑战,对构建一个支撑国家知识创新的信息资源保障体系提出了迫切的要求。构建一个全新的信息资源保障体系是信息资源建设发展的第一战略,是信息资源机构的重要任务,是保证社会持续发展的不竭动力,更是各信息资源机构在市场经济竞争中的立身之本。自20世纪中期以来,国外许多国家都十分重视信息资源保障问题,并在书刊采购的协调与合作方面进行了有益的探索,对信息保障体系的相关研究也比较多。特别是近年来,随着网络的推广普及,人们的信息视野得到了
19、延伸,主动建立一个信息世界成为现代社会人们的一个重要任务。因此,各个国家都从宏观和微观两个方面来促进信息资源保障体系的建设,并卓有成效。应该说,信息资源保障体系集成了各个系统的资源,系统、全面、权威,充分利用各个项目的建设成果与服务将是获取优质网络资源的最佳途径。2.1 CNKI数字图书馆1998年世界银行提出了国家知识基础设施(National Knowledge Infrastructure,NKI)的概念。中国知识基础设施工程(China National Knowledge Infrastructure),简称CNKI工程,是采用现代信息技术,建设适合于我国的可以进行整和、生产、网络化
20、传播扩散和互动,交流合作的一种社会化知识基础设施的国家级大规模信息化工程。该工程受到了国家和社会各方面的高度重视,其主体CNKI数据仓库项目已被国家科技部、对外贸易经济合作部等5部确立为“国家级重点新产品重中之重”,并被国家科技部列为国家级火炬计划项目。CNKI工程始建于1999年6月,由清华大学、清华同方发起,以实现全社会知识资源传播共享与增值利用为目标。CNKI工程集团经过多年努力,采用自主开发并具有国际领先水平的数字图书馆技术,建成世界上全文信息量规模最大的CNKI数字图书馆,并正式启动建设中国知识资源总库及CNKI网格资源共享平台,通过产业化运作,为全社会知识资源高效共享提供最丰富的知
21、识信息资源和最有效的知识传播与数字化学习平台。CNKI工程的具体目标,一是大规模集成整合知识信息资源,整体提高资源的综合和增值利用价值;二是建设知识资源互联网传播扩散与增值服务平台,为全社会提供资源共享、数字化学习、知识创新信息化条件;三是建设知识资源的深度开发利用平台,为社会各方面提供知识管理与知识服务的信息化手段;四是为知识资源生产出版部门创造互联网出版发行的市场环境与商业机制,大力促进文化出版事业、产业的现代化建设与跨越式发展。2.1.1 中国知识资源总库知识资源特色:资源丰富,类型多样,支持一站式异构跨库统一检索。(1)增值服务:全方位相关知识信息链接,如:相似文献,知识元库,引文链接
22、、相关作者链接、相关研究机构链接等等。(2)文献类型:学术期刊、博士学位论文、优秀硕士学位论文、重要会议论文、年鉴、专著、报纸、专利、标准、科技成果、工具书、知识元、哈佛商业评论数据库、古籍等;还可与Springer期刊库等外文资源统一搜索。(3)出版内容:基础研究、应用基础研究、工程技术、高级科普、政策研究与指导、行业指导、实用技术、职业指导、标准等各类文献,覆盖自然科学、工程技术、人文与社会科学各学科领域。(4)时间覆盖:收录了1912年至今我国产出的各类文献,且每日更新。(5)编辑方式:按中国图书馆分类法,分类汇编成为10个专辑、168个专题、3000多个学科专业数字图书馆,并利用引文、
23、作者、知识元等链接,将文献整合为知识网络,面向各专业用户提供高质量的文献、情报、知识的检索和系统调研需求。2.1.2 创新服务:针对注册用户,中国知网提供的创新服务包括:数字出版物超市、 用户个性化数字图书馆、数字化学习研究等。其中用户用户个性化数字图书馆又包括个人数字图书馆以及机构数字图书馆,可根据不同用户主动提供多种个性化服务栏目和服务。 2.1.3 CNKI搜索CNKI文献搜索以CNKI总库资源为基础,共涵盖了中国学术期刊、博硕士论文、会议论文、报纸文献、专利标准等近4000多万篇专业学术文献。CNKI知识搜索在KBase独有的搜索引擎技术上,采用了最新的文献排序技术,分组技术、以及用户
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 信息 检索 课程 教案 演示 教学
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【a199****6536】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【a199****6536】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。