电商领域多模态商品知识图谱构建研究.pdf
《电商领域多模态商品知识图谱构建研究.pdf》由会员分享,可在线阅读,更多相关《电商领域多模态商品知识图谱构建研究.pdf(5页珍藏版)》请在咨信网上搜索。
1、现代电子技术Modern Electronics TechniqueOct.2023Vol.46 No.202023年10月15日第46卷第20期0 引 言随着互联网和信息技术的迭代升级,中国电子商务飞速崛起。中国互联网络信息中心发布的第 50次 中国互联网络发展报告(2022)显示,截至2022年6月,我国网民规模为 10.51亿人,互联网普及率达到 74.4%,其中网络购物用户达到 8.4 亿,占总体网民1的 79.92%。中国电商务报告(2021)显示,2021 年全国电子商务交易额达到了 42.3万亿,同比增长 19.6%。随着消费者对商品多样化需求的不断提高,电子商务平台为了提高商品
2、销量,不断增加商品的多样性来满足消费者需求。但随之而来也产生了大量的数据信息,在面对海量的信息时,电子商务平台和消费者都面临着巨大的信息过载问题2。要想实现电子商务平台将商品精准地推荐给用户,用户能够快速在平台搜索并购买到自己想要的产品,推荐系统的建设是核心,目前推荐系统存在数据稀疏性和冷启动的问题3。学术界和工业界关于如何解决数据稀疏性和冷启DOI:10.16652/j.issn.1004373x.2023.20.032引用格式:宿恺,潘晨辉.电商领域多模态商品知识图谱构建研究J.现代电子技术,2023,46(20):173177.电商领域多模态商品知识图谱构建研究宿 恺,潘晨辉(沈阳工业大
3、学 管理学院,辽宁 沈阳 110003)摘 要:在电子商务蓬勃发展的背景下,电子商务平台的推荐系统面临着冷启动和数据稀疏性的问题。而构建多模态知识图谱可以为电子商务平台实际应用提供重要的支撑。为此,首先指出当前电子商务中推荐系统的难点和传统知识图谱模态缺失的情况,设计多模态知识图谱构建的总体框架,分析多模态数据来源;然后,论述电商领域多模态商品知识图谱构建过程中的核心技术;最后,举例说明多模态商品知识图谱在电子商务平台中的实际应用。结果表明,多模态商品知识图谱可为电子商务的发展提供支持,未来多模态商品知识图谱的发展需要以实际应用为导向和多领域融合为方法,推动多模态商品知识图谱的优化发展。关键词
4、:电子商务;多模态数据;知识图谱构建;信息抽取;知识表示;知识融合;图谱存储中图分类号:TN91934;TP311 文献标识码:A 文章编号:1004373X(2023)20017305Research on construction of multimodal commodity knowledge graph in ecommerce domainSU Kai,PAN Chenhui(School of Management,Shenyang University of Technology,Shenyang 110003,China)Abstract:In the backdrop of
5、 the booming development of ecommerce,recommendation systems on ecommerce platforms face challenges of cold start and data sparsity.Building a multimodal knowledge graph can provide important support for the practical application of ecommerce platforms.The difficulties of current recommendation syst
6、ems in ecommerce and the lack of traditional knowledge graph modes are pointed out,the overall framework is designed for constructing multimodal knowledge graphs,and the sources of multimodal data is analyzed.The core technologies in the construction process of multimodal commodity knowledge graph i
7、n the ecommerce field are discussed,and examples of the multimodal product knowledge graph in ecommerce platforms are given to show the practical application.The results indicate that the multimodal commodity knowledge graph can provide support for the development of e commerce.In the future,the dev
8、elopment of multimodal commodity knowledge graph needs to be guided by practical applications and integrated into multiple fields to promote the optimization and development of multimodal commodity knowledge graph.Keywords:ecommerce;multimodal data;knowledge graph construction;information extraction
9、;knowledge representation;knowledge fusion;graph storage收稿日期:20230407 修回日期:20230515基金项目:辽宁省科技厅重点研发项目(2019JH8/10100068)173173现代电子技术2023年第46卷动 问 题,提 出 了 推 荐 系 统 和 知 识 图 谱(Knowledge Graph,KG)结合的方法。2012年,Google公司提出知识图谱的概念,知识图谱在本质上是语义网络,基于关系型数据的连接方式,具备依赖关系路径与属性标签的推理的优点4。近年来,学界提出了多模态知识图谱(MulitModal Knowle
10、dge Graphs,MMKG)的概念,它以文本、图片、视频以及音频等多种模态数据为元素,是具有跨模态、类属关系、有向、非交叉的关联路径网络,本质上是一种语义网络形式的关系型数据连接方式5。多模态知识图谱通过将不同模态的信息添加到知识图谱中,能够提供丰富的特征和信息,将其应用于推荐系统可以有效缓解数据稀疏和冷启动的问题,从而使推荐结果更准确,并提供可解释性支撑6。由上述背景可知,构建多模态商品知识图谱对解决当下电子商务平台的实际问题具有重要意义。目前的研究主要是关于结构化数据知识图谱的构建,对如何构建多模态知识图谱的研究较少。本文重点研究电商领域中多模态知识图谱的构建方法,主要是基于前人研究构
11、建知识图谱,围绕多模态知识图谱的结构特性分析电商领域中多模态数据和组成要素,给出多模态商品知识图谱构建方法的流程和应用方向。1 多模态商品知识图谱构建1.1 多模态知识图谱构建框架电商领域产生的数据主要有文本、图片、视频等数据类型,在实践中,一般将视频数据经过处理逐帧抽取为图像,视频数据和图像数据统称为视觉数据。因此,电商领域的多模态知识图谱主要围绕文本数据和视觉数据两种模态数据进行构建研究7。本文的研究框架包括:电商多模态数据的来源,对搜集的数据进行信息抽取,对抽取的数据进行知识表示和知识融合,最后进行多模态知识图谱存储,对多模态知识图谱的质量提供保障并进行优化。电商领域多模态知识图谱构建的
12、技术架构和多模态知识图谱在各领域的应用举例如图 1所示。1.2 多模态知识图谱的数据来源在电商领域构建多模态商品知识图谱主要是用于商品的搜索和推荐,需要将各种数据源中不同类型的数据进行统一表示。从数据结构来看,既有结构化数据,又有半结构化数据和非结构化数据;从数据的来源上看,除了电商平台的后台数据外,还有搜索引擎、社交平台以及专业商品网站的商品数据;从数据表现形式上看,既有文本和图片数据,又包括音频和视频数据。这些数据共同构成了多模态商品知识图谱的数据来源8。图1 多模态知识图谱构建技术架构2 多模态信息抽取多模态信息抽取是构建多模态知识图谱的重要环节,主要目标是通过在多模态数据中抽取实体、关
13、系、属性等,构成多模态知识图谱的要素。本文研究关于多模态信息抽取的方式,主要从文本模态数据以及视觉模态数据两方面进行信息抽取。2.1 文本模态信息抽取目前关于文本模态信息抽取的主流方法是机器学习与深度学习相结合。其中文本实体抽取采取 LSTMCRF 模 型,LSTM CRF 模 型 分 为 三 层,分 别 是 Word Embedding 层、BiLSTM 层和 CRF 层。Word Embedding层是向量表示层,通过预训练或随机初始化生成句子中每个词的向量表示9。BiLSTM层可以提取和利用词的上席文信息,是字符级别的特征。在接收上一层生成的向量后,BiLSTM 模型将正向 LSTM 生
14、成的向量和反向LSTM生成的向量进行拼接,得到每个词的向量形式,并将结果输出。CRF层为输出层,对从BiLSTM层提取的特征及标签信息进行建模,并对句子中的实体做序列标注。LSTMCRF模型如图2所示。图2 LSTMCRF模型174第20期关系抽取用于发现抽取的实体与实体之间的关系,比如(羽绒服、适用、冬季)等。基于监督学习的关系抽取方法经过几十年的发展,在实际应用中已经非常成熟。但是基于监督学习的方法存在着明显的缺点,比如:特征构建难度较大,监督学习的效果受训练数据大小和质量影响。因此,本文采取半监督学习方法10,引入注意力机制学习每个句子的权重,减少训练数据的噪声,提升学习效果。每个句子编
15、码的权重定义为:ai=exp()eikexp()ek (1)ei=xiAr (2)式中:e函数体现了该句子对于该关系的贴切程度;x是该句的向量;A是一个作为权重的对角阵;r是该关系的向量。从公式(1)可以看出,与该实体关系更加密切时,e函数可以取得更大值。注意力机制关系定义为:s=iaii (3)最后对向量s进行学习分类,用交叉熵函数和随机梯度下降及逆行优化。实验证明,基于注意力机制的远程监督关系抽取方法能够通过提高模型的抗噪能力来提取关系,其模型结构如图3所示。属性补全也是信息抽取的重要工作,主要是对抽取的实体属性进行补全,比如实体乌龙茶,具有无糖的属性。属性补全一般采用抽取式和生成式两种方
16、式。基于抽取式的属性补全获取商家在后台发布商品标题等商品信息后,可以通过神经网络模型建模表示,并基于序列标注进行属性获取11,比如三得利茉莉乌龙茶无糖饮料,抽取的属性就是无糖。基于生成式属性补全不需要完全依据输入的文本,可以直接根据训练数据中的模型进行预测,实现属性的获取。图3 基于注意力机制的远程监督降噪处理模型结构2.2 视觉模态数据信息抽取视觉模态数据信息抽取是知识图谱目前研究的热门工作,大量的商品详情图可以作为多模态商品知识图谱的视觉数据。其中,商品图片中的文本信息可以利用OCR 工具识别出来,通过和上述文本模态信息抽取相同的方式,进行图片中的实体抽取、关系抽取和属性补全。视觉数据信息
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 领域 多模态 商品 知识 图谱 构建 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。