图书推荐技术前沿研究及对我...国外五类推荐技术分析的调研_赵晞伶.pdf
《图书推荐技术前沿研究及对我...国外五类推荐技术分析的调研_赵晞伶.pdf》由会员分享,可在线阅读,更多相关《图书推荐技术前沿研究及对我...国外五类推荐技术分析的调研_赵晞伶.pdf(7页珍藏版)》请在咨信网上搜索。
1、收稿日期:20221128作者简介:赵晞伶(1980),女,本科,馆员,研究方向为图书馆学。图书推荐技术前沿研究及对我国的启示 基于对国外五类推荐技术分析的调研赵晞伶(攀枝花市图书馆四川攀枝花617000)摘要:目的/意义 归纳国外比较流行的图书馆图书推荐技术,比较其优劣及适用范围,以提出我国图书馆个性化推荐技术的未来设计方向。方法/过程 通过调研,明晰国外图书馆图书推荐技术演进经历的三次变革及每次变革的特征和不足,并对国外五种推荐技术的算法逻辑、推荐程序和优劣进行全方位比较说明,对我国今后图书推荐系统的设计提出建议。结果/结论 倡导政府要做好监督管理并提供政策保障;软件设计者要做好数据智能化
2、处理以及保护用户隐私信息,树立科学的、人性的算法价值观;用户要提升推荐技术素养,应对当今复杂的推荐技术环境。关键词:推荐技术;图书馆;个性化服务中图分类号:G251文献标识码:Adoi:103969/jissn10058095202304020esearch on the Advanced Technology of Book ecommendation Technology and Its FutureEnlightenment:Comparative Study of Five Foreign ecommendation TechnologiesZhao Xiling(Panzhihua
3、City Library Panzhihua Sichuan 617000)Abstract:Purpose/significanceThe paper summarizes the popular library book recommendation technologies abroad comparestheir advantages disadvantages and the scope of application so as to give the future design direction of library personalized recommenda-tion te
4、chnology in China Method/processThrough investigation this paper clarifies the three revolutions of book recommendationtechnology in foreign libraries and the characteristics and shortcomings of each reform and makes a comprehensive comparison of the al-gorithm logic recommendation procedures advant
5、ages and disadvantages of five foreign recommendation technologies esult/conclu-sionIt advocates that the government should do a good job in supervision and management and provide policy guarantee;software de-signers should do a good job in data intelligent processing and protect user privacy inform
6、ation and establish scientific and human algo-rithm values;users should enhance the recommended technical literacy deal with today s complex recommended technical environmentKeywords:recommendation technology;library;personalized service0引言随着现代新型信息技术的快速发展,基于互联网产生了大规模信息,这些信息一方面促进了社会与产业结构的变革,但同时也造成了信息
7、过载1、通信过载2、认知过载3、信息疲劳综合征45,导致用户对数据利用率不高等棘手问题。因此,推荐技术(ecommended Technology,T)应运而生,该技术旨在通过信息检索和信息过滤6,降低用户检索成本,提供高质量信息。调查显示“到 2021 年底,超过98%的在线信息的分配是通过推荐技术完成的”7。目前,推荐技术在旅游购物8、交通运输9、影音推荐10、通讯社交11、新闻宣传1213、医疗卫生14、公共服务15 等领域得到了广泛应用。图书馆作为信息资源最集中的地方,通过推荐技术为读者提供个性化的图书馆信息资源推荐服务将大大提升用户满意度16。图书馆个性化图书推荐技术主要利用聚类模型
8、17、关联搜索18 以及协同过滤(基于用户和基于项目)1920 等计算思维分析读者兴趣偏好,推荐与读者特征相匹配的图书。学界有关图书馆图书推荐技术的研究很多,然而对多种推荐技术从横向进行比较分析的研究成果并不多。本文通过对国外比较流行的五种推荐技术进行归纳和总结,明确8212023 年 4 月Apr 2023情报探索Information esearch第 4 期(总 306 期)No 4(Serial No 306)各类技术的推荐逻辑,以及存在的不足,以期为我国图书馆个性化推荐技术未来设计提供方向。1国外研究的学术梳理及 T 演进趋势刍议本文选取国外 Web of Science、Pro Q
9、uest、Emeald等权威文献数据库,以“library”and“recommendationalgorithm”and“ecommended technology”作为主题检索词,检索时间截至 2022 年 10 月 5 日,将检索到的132 篇文献作为国外学术论文的研究样本。从发展趋势上看,可将其发展历程大致分为三个阶段。11第一阶段(也称第一代):单向模块推荐技术阶段 20 世纪 80 至 90 年代末期1979 科学家 Elaine ich 首次引入 Grundy 推荐系统,并应用于书籍推荐21。此后,美国施乐公司研究所于1992 年开发了第一款名为 Tapestry 的推荐系统,将
10、其应用于电子邮件过滤22,该系统也被认为是第一个真正的推荐系统,其较早应用于推荐音乐23、电视节目24、阅读书籍25。1994 年,美国明尼苏达大学研究人员推出了 group lens 自动化推荐系统26。1998 年基于商品的协同过滤算法在亚马逊平台上线,这是推荐技术从实验室到实践领域的成功应用27。这一阶段推荐技术的主要特点及局限性可归纳为三个层面:第一,推荐结果“马太效应”表现明显。基于项目、标签或内容的推荐技术独立于用户,它们完全依赖于项目之间的相似性,计算复杂度小、算法简单可解释,但推荐能力较弱。比如,点开 e Bay 后大多用户会按照销量或好评去购买榜单前列的商品,而很大一部分“尾
11、部”商品没有曝光给顾客,但并不意味着这部分商品对客户没用。第二,这一时期推荐技术较少关注少数用户的偏好,个体偏好被“群体大数据”淹没。第三,新项目冷启动问题严重。此时期推荐技术需要旧用户的反馈信息或者项目必须具有某种“首选项评级”(可以通过用户的直接反馈或者文章的点击量或下载量获得),但有时存在新注册用户和新加入系统项目相关评分数据较少,使用数据稀疏,新项目无法进行推荐,从而造成推荐内容低新奇度或过于专业化。第四,这一阶段推荐技术通常被设计为单独挖掘某一种类型信息的规则,导致推荐精确度不足。12第二阶段(也称第二代):多项模块推荐技术阶段 2000 年至 2018 年由于第一代推荐技术不管是基
12、于项目内容还是用户评价的个性化推荐都需要收集大量支持算法的基础数据,且要保证这些数据信息必须可靠是比较困难的,而且随着访问权限逐渐不受控导致收集个人用户浏览信息的收集工作变得逐渐复杂,为了改善这一时期推荐技术的弊端,学界进行了一系列实证研究。2003 年,WWW 文献推荐系统上线,它分析数字图书馆用户的网络使用日志,根据活跃用户的偏好对出版物进行排名,算法程序:网络日志的数据准备使用日志挖掘技术排名生成文章推荐28。2004年有学者提出了一种基于文章相似之处(标题、关键词、摘要和全文等)的自适应推荐系统29,这一推荐技术的算法逻辑是利用文章的多参考点,再通过文献特征划分和关联规则超图划分来获得
13、用户文献推荐配置数据集,将内容和使用数据整合到推荐技术中实现推荐,减少推荐技术过度依赖用户兴趣或用户对样本项目评分的弊端。2009 年出现了个人本体荐书系统30,该系统的核心包含两个部分:数据预处理组件和在线推荐子系统。数据预处理组件有两个功能,一是计算每个用户在每个类别和每个季节的借阅书籍量,二是提取关键词并识别关键词的特殊性。之后推荐子系统分析数据库中的借阅记录和关键词信息,对用户进行标识并结合预处理数据组合成用户收藏夹,之后根据收藏夹的个人本体信息向用户推荐与该主题相关且具有高首选项分数的图书。2013 年语义引文推荐系统出现31,在此之前引文推荐系统侧重于查找类型相同的图书,对文本相似
14、的图书关注不够32。该系统是一种基于新型语义距离测度的引文推荐系统,通过书目耦合、共同引用分析以及上下文引用的技术,利用特征相似性、文本相似性、遗传算法得出图书之间是相互关联的,目标是帮助研究人员找到与其研究领域相关的出版物。这种方法的一个明显局限性是,文本内容相似或者文本特征有关联虽然是可以成为推荐的指标,但在作者的心目中并不一定表明其之间有必然的关系。比如,源文章如果是关于“雪崩建模”的,推荐的文章可能是关于“雪”或“计算机建模”。此外,为特殊群体提供图书推荐服务也成为关注点33,斯里兰卡国立大学图书馆针对视障人群提供了有声读物、盲文书籍、电子书以及一些辅助设备供残疾人访问图书馆资源,但一
15、些设备、网络接入的提供远远低于令人满意的水平,尤其是荐书服务。值得注意的是 2015 年出现了针对视障人群的 Dig-9212023 年 4 月赵晞伶:图书推荐技术前沿研究及对我国的启示第 4 期(总 306 期)Srv 荐书系统,它基于语音识别和文本到语音转换功能,个人用户可以使用系统访问所需的文本,下载它并使用转换引擎将其转换为语音,该系统在塞尔维亚泽蒙的视障儿童学校得到应用。2018 年有学者为解决之前推荐技术在收集正式或非正式、显性或隐性、存储在本地或云环境中用户信息的问题,提出了大数据图书推荐系统34,该系统利用大数据技术收集用户在访问线上书店的服务器日志,分析其偏好,再利用智慧图书
16、馆中用户的访问数据,将这些数据汇聚起来,并进行集成和存储、分析和可视化,从而制定个性化图书推荐方案。第二代推荐技术较第一代有很大进步,但也存在一些局限:第一,以“关键词”为算法提供基础推荐数据存在弊端,比如一个关键词可能在不同的领域含义有所不同,一个研究计算机“病毒”的专家可能被推荐来自生物病毒领域的“病毒”书籍,将导致不准确的服务;第二,用户的兴趣偏好会随时间发生变化,原则上系统配置文件应该不断更新个人资料;第三,没有重视用户的满意度;上述所有的推荐技术系统只负责把相关的文献信息推荐给用户,但具体是不是用户想要的不做考虑;第四,分析模型构建太过复杂且在实践中投入较大。13第三阶段(也称第三代
17、):人本主义推荐技术阶段 2018 年至今第一、二代推荐技术主要根源于工程师、数学家和程序员创建的技术“处方”和逻辑指令,较少考虑用户的利益,第三代推荐技术则开始了“人本主义精神”革命,用户的隐私、用户的尊严、用户的知识自由开始成为构建推荐技术的基础。尽管推荐技术为用户提供了便利,但由于要收集大量个人信息,导致用户对隐私安全有严重的担忧。为解决这一问题,2018 年出现了一种保护图书馆用户图书浏览行为隐私的图书推荐技术,基本思路是构建一组图书浏览假人(Book Browsing Dummies,BBD),并将其与用户行为一起提交给可能被“黑”的服务器,以掩盖用户的敏感偏好。该方法通过安全分析和
18、实验评估证明其是有效的,不仅可以混淆用户的偏好序列(即用广义的偏好来代替特定的偏好),还可以掩盖用户图书浏览行为的隐私(即降低用户敏感偏好的暴露程度)。基于此,有学者认为推荐技术从复杂的数据监视实践(第一代推荐技术)到由网络计算机系统实现的高级数据挖掘和数据库匹配技术(第二代推荐技术)实现了推荐技术的变革35,但在数字环境中创建和存储的信息通常很难移除或删除,也极易有再次被传播的风险,最终会影响用户自由修改自己价值观的意志,从而侵犯他们的知识自由,严重点可能使用户尊严受损36。同样的例子是,推荐技术会根据大多用户对某条信息的点击量、浏览量、下载量来实现信息优先级排序,甚至某些信息垄断企业会按照
19、竞价进行搜索结果排序(魏则西事件),还有Google 搜索引擎的“黑人女孩”37,都是主体意志操控推荐技术对互联网民主的践踏。要改变这一状况就需要在推荐技术设计中充分贯彻“以人文本”的理念。2国外五种个性化图书推荐技术分析及优劣对比第一、二、三代推荐技术的算法数据分析源大致可以分为五类:基于内容的推荐技术、协同过滤的推荐技术、人口统计过滤的推荐技术、基于知识的推荐技术、混合过滤推荐技术,以下对五种推荐技术进行分析,并提出推荐技术未来的改进方向。21国外五种个性化图书推荐技术分析211基于内容的个性化图书推荐技术分析基于内容的个性化图书推荐技术是一种最为典型的推荐方法38,比较接近于早期的信息检
20、索,这种推荐方法最大的特点是不依赖于其他人对某本图书的评分。其推荐技术可以表述为先将某一本图书的所有内容特征描述出来,如书名、作者、关键词、摘要、主要内容等,再将读者的兴趣爱好特征描述出来即对用户进行画像,最后将图书内容特征和读者爱好特征进行匹配完成推荐。但是基于内容的图书推荐也有一些局限性,比如,当读者发现其依赖原有的知识储备无法准确表达一些“偏好”或者定义时,可能得到的推荐结果并不会很理想。212协同过滤个性化图书推荐技术分析协同推荐技术可分为基于用户的协同过滤(Us-erbased Collaborative Filtering,UBCF)和基于项目的协同 过 滤(Item based
21、Collaborative Filtering,IB-CF)39。二者之间的区别在于,UBCF 是通过找到兴趣偏好相同的用户推荐相似的书目资源,IBCF 是基于书目内容的相似性推荐给用户。协同推荐技术实现最主要的工作是需要测量出目标用户和使用内容之间的相似性,相似性的侧量一般是基于用户对图书的评分,某一本图书被评分值越相近则表明该类用户兴趣偏好相似。协同推荐克服了基于内容推荐的缺点,但其存在的最大弊端在于冷启动问题,即0312023 年 4 月情报探索第 4 期(总 306 期)有些图书以前没有被进行评级,导致不可能被推荐。213基于知识的个性化图书推荐技术分析基于知识的个性化推荐技术为解决冷
22、启动、可扩展性以及数据稀疏等问题提供了新的解决思路和实践方案40。其推荐技术可以表述为首先对图书进行语义本体标注,语义标注不同于关键词、作者、主要内容等的简单分类,而是在语法层面对自然语言进行深层处理的关键技术,其所采用的分类标签通常更为抽象、更为可控,极大强化了图书中词义之间的语义性和关联性,使得知识属性更加明显;其次是对读者的知识表述,包括用户概要知识即读者画像和读者场景知识;最后,将图书知识标注模块和用户知识标注模块做知识网格对比,找出二者之间最相邻知识要素,再经过计算做出推荐。基于知识的推荐方法最主要的局限是提取知识和构建模型所需的过程有一定难度。214基于人口统计过滤的个性化图书推荐
23、技术分析用户在选择项目(图书)的过程中与其心理特征有直接关联,有些商家会试图根据不同群体设计出符合他们特征的产品是该理论应用于实践的有力证明41。基于人口统计的推荐技术不需要去考虑读者兴趣偏好的变化,因为个人的性格偏好和某一群体的统计特征在一段时期内基本保持不变,因此没有必要追踪它们。由于人口统计的推荐方法可以从个体偏好识别出具有相似行为的一类读者群体,从而大大提升推荐效率。其还可以根据读者的人格特质和人口统计特征,更加重视读者的利益和实际需求,解决了之前数据稀疏和“兴趣漂移”问题。215混合过滤的个性化图书推荐技术分析所有的推荐技术都有一些优点和缺点,为了减少任何单个方法的缺点,使用多种替代
24、方案混合两种或两种以上推荐技术的方法被称为混合方法,这种推荐技术设计的初衷是解决其他系统在某些情况下存在的不足并试图提升推荐系统的性能42。例如,将协作系统和基于知识的推荐技术结合起来,以便使用知识标引的固定性来解决冷启动问题,这种可以概括为推荐功能混合的杂交方式。将不同推荐系统整合为一个推荐平台,允许功能互通,但是这种推荐技术最大的问题在于加大了服务器的数据加载量,比较复杂,可能导致系统宕机。22优劣对比:国外五种个性化图书推荐技术对比前文通过对国外五种图书推荐技术进行分析,大致可以了解每种技术的算法技巧和推荐逻辑,但各推荐技术有其优势,也有不足,概括为表 1。表 1五种常用推荐技术对比推荐
25、技术概念必须数据优势局限性协同过滤推荐技术利用读者之间或读者们喜欢的图书之间相关性程度在收集读者反馈(或用户数据)时不断更新读者配置文件读者的排名数据读者对图书的借阅历史记录易于实施算法简单可行新项目冷启动问题推荐数据稀疏性新用户和新项目数据收集难推荐结果成旧、新颖性不够基于内容的推荐技术通过将读者兴趣与内容功能相匹配来提供建议为每个读者提供独特的图书内容根据读者给予他们的评级生成建议根据图书内容进行推荐最大限度地减少数据稀疏性和冷启动问题新项目、新用户问题更容易处理太过专业感兴趣不等于图书质量高推荐结果必然性足,偶然性不够,导致新颖性较低内容分析数据较单一人口统计过滤的推荐技术用于识别喜欢某
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图书 推荐 技术 前沿 研究 国外 类推 分析 调研 赵晞伶
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。