灰关联分析与可拓工程在信息检索系统中的应用.pdf
《灰关联分析与可拓工程在信息检索系统中的应用.pdf》由会员分享,可在线阅读,更多相关《灰关联分析与可拓工程在信息检索系统中的应用.pdf(5页珍藏版)》请在咨信网上搜索。
1、现代计算机Modern Computer第 29 卷 第 12 期2023 年 6 月 25 日灰关联分析与可拓工程在信息检索系统中的应用周峰*,王征(西南财经大学计算机与人工智能学院,成都 611130)摘要:该研究的目的是探索使用可拓模糊模型设计智能信息检索的方法。对于各种信息检索模式,我们将分析、比较并结合模糊理论、灰关联分析、可拓理论和可拓关联函数,以提高其搜索的准确性,并提高获得数据的可用性。将这些理论应用于智能信息检索。设计了一个智能摘要搜索引擎,可以帮助用户通过输入关键字,从多个主要搜索引擎中获得结果,对结果进行灰关联度分析等处理,从结果中自动筛选出相关内容,并按权重降序排序输出
2、,以提供用户更优的结果。关键词:灰关联分析;可拓工程;信息检索文章编号:10071423(2023)12005005DOI:10.3969/j.issn.10071423.2023.12.009收稿日期:20230501修稿日期:20230525基金项目:国家社会科学基金青年项目(14CGL050)作者简介:*通信作者:周峰(1983),男,重庆人,硕士,工程师,研究方向为计算机应用、信息检索,Email:zhouf_;王征(1978),男,新疆人,硕士,副教授,研究方向为网格计算、数据挖掘0引言由于互联网的普及,在日常生活中使用搜索引擎在网络上搜索各种信息是不可避免的。不同的搜索平台背后使用
3、的搜索引擎技术各不相同。因此,用户向搜索引擎提交关键字后,搜索引擎返回大量结果,并非所有结果都契合用户的目标。信息检索的目的是从互联网上的大量数据中发现对用户有用的知识,已成为近年来最有价值的研究课题之一13。但是,由于现有搜索引擎找到的数据仍然是海量信息,如何进一步缩小范围也是一个值得探讨的问题。灰关联分析是一种多因素分析方法,通常用于评估多个因素之间的相关性和影响程度。与传统的多因素分析方法不同的是,灰关联分析不需要预先设定权重,而是通过计算各因素之间的关联程度,来确定它们在整体影响中的重要性,灰关联分析方法在很多领域都有着不错的效果46。本文基于互联网上常见的几种搜索引擎,并结合灰关联分
4、析方法和可拓函数的基本概念,对搜索过程进行改造,以提供尽可能满足用户期望的搜索结果。为了获得具有高相关性的数据,我们将引入扩展模糊理论和灰关联分析等方法来重新调整查询关键字的权重,以探讨各种权重对搜索结果相关性的影响。此外,对于一些过于简单的关键字,搜索引擎返回的数据通常也不太友好,或是过多,或是不太相关,如果引入可拓工程的思想,建立外延模糊推理机制,将经典域扩展到可拓域,将归因函数扩展到可拓关联函数,以提高搜索效果。1研究方法本文的重点是设计一种摘要搜索方法,而不是另一个搜索引擎。为对现有知名搜索引擎的搜索结果进行分析对比,向用户提供更好的搜索结果,本节将介绍对各大搜索引擎返回的相关信息进行
5、处理的过程。使用余弦函数分析传统的数据项频率、文档频率以及两者的组合因子计算;使用灰关联分析进行对比,利用物元变换对关键字进行扩展和调整,然后进行分析比较。50周峰等:灰关联分析与可拓工程在信息检索系统中的应用第12期1 1.1 1传统传统方法的解释方法的解释假 定 此 系 统 中 有 m 篇 文 档dj,其 中j 1,m,有 n个索引项ki,i 1,n。并构成索引项集合K=k1,kn。定义ti,j为数据项频率(term frequency),即ki在文件dj出现的次数。若索引项在文件中未出现,则ti,j的值为 0。因此,索引项向量可用dj=(t1,j,t2,j,.,tn,j)来表示。而用户查
6、询项也可用q =(q1,q2,.,qn)向量来表示。要计算文档dj和用户查询q 之间的相似性,可以使用余弦函数公式,即:sim(dj,q)=dj q|dj|q|=i=1nti,j qii=1nt2i,ji=1nq2i(1)为避免长文件所产生的数据项频率偏大,对数据项频率的计算做归一化处理,修改为fi,j=ti,jmaxltl,j(2)在公式(2)中,maxltl,j是指数据项的最大频率。如果文件dj从未出现数据项频率ki,则fi,j置0。一般来说,若某些数据项出现在大多数文件中,则无法帮助我们区分它们是相关文件还是不相关文件。为此,可以计算数据项ki的文件频率,若总共N个文件中有ni个文件包含
7、此数据项,其计算公式为idfi=logNni(3)根据上述结果,可计算出指数项的权重关联:wi,j=fi,j logNni(4)对此公式已经有几种相关的算法,其中Salton等7对查询项权重的计算有以下建议:wi,j=()0.5+0.5fi,jmaxlfl,j logNni(5)公式(5)可让我们重新定义某一关键字在某一篇文章中的权重值。1 1.2 2使用灰关联分析的比较分析使用灰关联分析的比较分析对于用户输入的关键字查询,我们将汇总几个常用搜索引擎的返回结果,并将其存放在暂存区域。本文采用灰关联算法,对暂存区中的数据进行排序处理,然后返回给用户。在处理过程中,每个索引项在查询结果中都有其出现
8、频率。将这个频率代入灰关联公式中进行比较判断,并将结果按关联度高低排序返回。详细说明如下:假设 S 是一组数据序列。x0 S是参考序列,且xj S,j=1,m是与参考序列比较的m个待比较序列。xj(i)代表第j个资料序列中的第i项。令(x0,xj)代表x0和xj之间的灰关联程度,则第i个灰关联程度值计算公式如下:()xo(i),xj(i)=minmq=1minnp=1|x0(p)-xq(p)|x0(i)-xj(i)+maxmq=1maxnp=1|x0(p)-xq(p)+maxmq=1maxnp=1|x0(p)-xq(p)|x0(i)-xj(i)+maxmq=1maxnp=1|x0(p)-xq(
9、p)(6)式(6)中 的为 分 辨 系 数,通 常 取 0.5。minqminp|x0(p)-xq(p)和maxqmaxp|x0(p)-xq(p)分别用于提取数据项和序列中的最短与最长距离。两个序列间的灰关联程度值用如下定义描述:(x0,xj)=1ni=1n()x0(i),xj(i)(7)我们将每个搜索引擎的前30个结果放入暂存区,并进行灰关联分析。下述案例用于说明使用灰关联分析来识别相关关键字的方法。表1列出了系统搜索数据项频率的部分结果。表 1前10个可能网站的部分数据项频率网页URL1URL2URL3URL4URL5URL6URL7URL8URL9URL10机器学习51210210165
10、29149人工智能081010033377数据集341000012311标签2750006463模型1172340102493算法3584000122200分类16000031813此表中有 7个序列,每个序列由所有文件中出现的每个数据项的频率次数组成。如果查询数据项为“机器学习”,则引用序列是表中关键字“机器学习”的序列。在分析和计算关键 51现代计算机2023年字与其他序列之间做灰关联度分析后,发现数据项“人工智能”与“机器学习”的相关性强于其他数据项。基于此,系统将根据关联程度自动排序并移交给用户。如果用户输入多个关键字,可以使用扩展理论和模糊推理模型来挖掘预期数据。例如,用户输入两个查
11、询数据项:“机器学习”和“人工智能”。使用我们的可拓函数推断,与之相关的关键字是“数据集”“标签”“模型”和“算法”等。使用灰度关联法的目的是从各大门户网站检索的数据中快速找到相关结果,然后再计算相关的关键字。以下示例显示,我们的系统从两个搜索引擎百度(baidu)和搜狗(sogou)检索了与“机器学习”相关的链接,各取前30个存放在暂存区,然后从每个搜索引擎返回结果中抽取了其中的 1个。每个查询结果中有多个数据项,还包含网页图片,页面记录时间等,我们在对数据进行预处理时保留了标题和摘要信息,以及链接来源标记。为了加快检索处理速度,此处只提取了摘要信息中的标题和摘要用于数据项频率分析,保留了链
12、接地址作为源的标记。表 2显示了数据项汇总数据结构。表 2汇总的数据结构链接URL1URL2URL n各数据项及频率机器学习(5),人工智能(3),数据集(2),标签(2),验证(1)机器学习(2),人工智能(2),监督(2),算法(2)分类(1),机器学习(3),人工智能(3),测试(1),算法(1),标签(1)我们使用公式(6)、公式(7)来计算每个关键字的相对权重。并非文档中的所有单词都具有相同的权重,名词单词更有可能表示文档的内容和含义。表3 显示了从网站检索并放置在竞争缓冲区中的前7个数据项的总频率。表 3前几项数据项总频率数据项机器学习人工智能数据集特征标签模型算法总频率13511
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 分析 工程 信息 检索系统 中的 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。