通用知识图谱构建与应用.pdf
《通用知识图谱构建与应用.pdf》由会员分享,可在线阅读,更多相关《通用知识图谱构建与应用.pdf(48页珍藏版)》请在咨信网上搜索。
1、通用知识图谱构建与应用腾讯-QQ浏览器-知识图谱团队分享人:荆宁DataFunTalk3分享背景在整体介绍知识图谱技术之上,重点分享我们在图谱构建和应用上的一些落地实践经验。以期抛砖引玉,对大家构建和应用图谱有所启发。JDataFunTalk4分享大纲通用图谱构建与应用背景介绍图谱构建存储检索123应用探索4图谱中台5DataFunTalk5背景介绍l 什么是知识图谱?知识图谱是人工智能的底层技术,让机器学会“思考”l 有什么用?2012年由Google提出,是一张由知识点(实体/概念)相互连接而成的语义网络。知识结构化表示点:表示知识点边:表示知识点之间关系知识图谱统计逻辑知识图谱让机器理解
2、世界DataFunTalk6背景介绍-QQ浏览器通用图谱简介资源*亿实体*百个领域类型*十亿知识三元组聚合实体信息高效满足用户的搜索需求根据普适问答需求,直接给出权威的确定答案通用知识图谱实体卡片实体问答智能音箱图文标签其他应用阅文小说腾讯音乐腾讯视频搜狗百科应用数据覆盖BG:*个BG使用部门:*个应用业务:*个API日调用:*亿覆盖*百个数据源,百科、豆瓣、时光网等主要垂类站点整合腾讯优势内容DataFunTalk7背景介绍-QQ浏览器通用图谱简介融合管理清洗管理schema管理数据看板人工干预内容理解腾讯叮当精准问答实体卡片服务层应用层实体链接知识表示算子服务实体检索存储层正排库图数据库索
3、引库图引擎计算层清洗对齐实体对齐实体分类属性抽取推理计算关系挖掘新热发现概念抽取运营平台数据层垂类站点CP合作数据百科站点内部FT数据数据接入数据爬取系统概览规则管理数据评估DataFunTalk8分享大纲通用图谱构建与应用背景介绍图谱构建存储检索123应用探索4图谱中台5DataFunTalk9整体思路整合百科+垂类站点+腾讯优势内容,使用自动化构建方式从上到下构建开放领域通用知识图谱!应用场景多:搜索、推荐、内容理解、智能音箱 领域覆盖全:影视、人物、小说、游戏、软件等 质量要求高:TOP1问答、搜索卡片 规模和成本:快速构建、低成本、大规模规模成本质量领域多实体全数据准服务稳人力省更新快
4、从上到下 vs 从下到上构建思路开放领域 vs 垂直领域建设类型百科站点 vs 垂类站点数据来源人工构建 vs 自动构建构建方式DataFunTalk10构建系统-构建流程异构数据同构数据规整数据消岐数据实体属性(点)Schema对齐百科:1961年9月27日出生香港时光网:1961-9-27 中国香港刘德华出生日期:1961年9月27日出生地:香港来源:百科出生日期:1961-9-27出生地:中国香港来源:时光网出生日期:1961年9月27日出生地:香港来源:百科出生日期:1961年9月27日出生地:香港来源:时光网刘德华(明星)百科:刘德华刘德华(老师)时光网:刘德华百科:刘德华(清华大学
5、教授)刘德华出生日期朱丽倩妻子作品冰雨1961年9月27日出生地香港属性择优实体对齐数据清洗获取数据爬取接入百科:1961年9月27日出生香港时光网:1961-9-27 中国香港刘德华实体数据(点+边)刘德华出生日期朱丽倩妻子作品冰雨1961年9月27日出生地香港关系建设DataFunTalk11构建系统-系统设计配置平台构建流程算法组件构建流程算法可插拔知识抽取V1知识抽取V2周期构建不定期迭代算法MDB交互控制信息Hive交互数据来源管理Schema管理清洗映射推理规则知识抽取实体分类实体消歧实体建边接入解析分类对齐数据清洗实体对齐属性融合关系建设校验出库处理框架高性能流批一体容错性好中间
6、存储高吞吐成本低格式化数据检索高性能易扩展全文索引分层设计,功能模块化水平扩展,通用化算法可插拔,升级透明低成本易维护DataFunTalk12构建系统-系统特色实时数据实时构建亿级实体万级实体百级实体秒级时延小时级时延天级时延实时数据部分数据快速构建部分实体全量数据离线构建全量实体数据合并一致性保证存储层构建层人工干预流实时流Web爬虫海量数据接入层接入方式丰富支持Hive、DB、Kafka等多维异构数据源构建粒度灵活支持不同量级数据按不同方式分别进行构建构建效率迅捷支持小时级的快速构建与实时构建数据一致可靠多种构建方式的输出,依然保证一致且准确DataFunTalk13知识获取结构化数据获
7、取知识难点:复杂表数据处理技术:数据统一接入半结构化(网站)数据获取知识难点:网站众多、数据各异技术:爬虫、解析器/包装器非结构化(文本)数据获取知识难点:结果的准确率和覆盖率技术:知识抽取从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识库DataFunTalk14知识获取-数据接入统一数据接入接口、服务-DBHive、HDFS表同步Ceph、S3关键:灵活可扩展解法:通过配置指定来源、存储和解析规则统一爬取系统网页数据结构化、半结构化数据关键:爬取管理、解析灵活解法:爬取平台、JS注入HIVE接入表数据合并和格式统一id+json_dataId包含来源+类型信息Json_data
8、,以KV方式统一存储rid:domain:data_type:url:timestamp:name:data:00003006f246f219fe70000300http:/ Transformer(BERT)h(s)h(o)FC LayerSoftmax模型V1:BERT-entity-RC-BERT增强语义-实体mention特征准确率召回率91.94%54.88%clss:p陈宛/s:p,o:p秦放/o:p的初恋 sepDeep Transformer(BERT)ht(s)ht(o)FC LayerSoftmax模型V2:BERT-entityType-RC+实体类型特征准确率召回率94
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通用 知识 图谱 构建 应用
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。