2019年中国自然语言处理行业研究报告.pdf
《2019年中国自然语言处理行业研究报告.pdf》由会员分享,可在线阅读,更多相关《2019年中国自然语言处理行业研究报告.pdf(29页珍藏版)》请在咨信网上搜索。
1、1 报告编码19RI0847 头豹研究院|人工智能系列深度研究400-072-5588 2019 年 中国自然语言处理行业研究报告 报告摘要TMT 团队 自然语言处理技术是众多人工智能设备(如智能家居设备、智能机器人、智能助手等)不可或缺的核心技术,随着人工智能的深入发展,自然语言处理需求不断提升,智能应用需要自然语言处理技术帮助其实现智能化。热点一:市场需求增长,自然语言处理市场空间广阔热点二厂商集研发算法、解决方案和应用产品功能于一身热点三:自然语言处理应用逐渐成熟,实现广泛落地 自然语言处理技术是众多人工智能设备(如智能家居设备、智能机器人、智能助手等)不可或缺的核心技术,随着智能设备数
2、量增长以及行业智能化业务处理水平要求的提高,自然语言处理市场有望得到进一步拓展。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中。得益于自然语言处理技术研究的不断深入,自然语言处理应用逐步得到推广,尤其在知识图谱、机器翻译、阅读理解和智能创作等方面开始产生较成熟的应用。金融、医疗、法律等传统行业的业务处理智能化水平要求上涨,加速自然语言处理技术行业应用落地。卢佩珊 邮箱: 分析师 行业走势图 相关热点报告 人工智能系列深度研究科创板上市,
3、人工智能行业借势迎来发展 人工智能系列深度研究沙利文助力 2019 全球人工智能健康峰会成功举办,共同推动全球人工智能技术和产业发展 人工智能系列深度研究谷歌上线“猜画小歌”,智能技术与人们生活越来越近 人工智能系列深度研究产品智能化浪潮开启,智能家居风口已至 2 报告编码19RI0489 目录 1方法论.51.1方法论.51.2名词解释.62中国自然语言处理行业市场综述.72.1自然语言处理定义.72.2自然语言处理环节.72.3自然语言处理技术应用.82.4中国自然语言处理产业链分析.92.4.1产业链上游.102.4.2产业链中游.122.4.3产业链下游.132.5中国自然语言处理市场
4、规模.133中国自然语言处理行业驱动因素.153.1自然语言处理要素演进,行业迎来变更式发展.153.2传统行业智能需求增长,带动语言处理需求上涨.164中国自然语言处理行业制约因素.174.1自然语言处理存在技术难题.17 3 报告编码19RI0489 4.2自然语言处理模型通用性不强.174.3机器理解自然语言技术未有突破.185中国自然语言处理行业相关政策法规.206中国自然语言处理行业发展趋势.226.1多模态语言处理融合.226.2自然语言处理应用逐渐成熟.227中国自然语言处理行业竞争格局.237.1中国自然语言处理行业竞争现状分析.237.2中国自然语言处理行业典型企业分析.24
5、7.2.1新译信息科技(深圳)有限公司.247.2.2苏州思必驰信息科技有限公司.267.2.3北京智齿博创科技有限公司.27 4 报告编码19RI0489 图表目录 图 2-1 中国自然语言处理产业链.10图 2-2 中国自语言处理市场规模(按营收计),2014-2023 年预测.14图 5-1 中国自然语言处理行业相关政策.21 5 报告编码19RI0489 1 方法论 1.1 方法论 头豹研究院布局中国市场,深入研究 10 大行业,54 个垂直行业的市场变化,已经积累了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。研究院依托中国活跃的经济环境,从人工智能、机器学
6、习、深度学习、语音识别、语义理解等领域着手,研究内容覆盖整个行业的发展周期,伴随着行业中企业的创立,发展,扩张,到企业走向上市及上市后的成熟期,研究院的各行业研究员探索和评估行业中多变的产业模式,企业的商业模式和运营模式,以专业的视野解读行业的沿革。研究院融合传统与新型的研究方法,采用自主研发的算法,结合行业交叉的大数据,以多元化的调研方法,挖掘定量数据背后的逻辑,分析定性内容背后的观点,客观和真实地阐述行业的现状,前瞻性地预测行业未来的发展趋势,在研究院的每一份研究报告中,完整地呈现行业的过去,现在和未来。研究院秉承匠心研究,砥砺前行的宗旨,从战略的角度分析行业,从执行的层面阅读行业,为每一
7、个行业的报告阅读者提供值得品鉴的研究报告。头豹研究院本次研究于 2019 年 07 月完成。6 报告编码19RI0489 1.2 名词解释 兼类词:有两种或两种以上词性的词。未登录词:没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。义项:每一个不同概念意义事物的叙述内容。GPU:由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计的芯片。FPGA:现场可编程门阵列,是在可编程器件的基础上进一步发展的半定制电路。ASIC:专用集成电路,是为符合特定用户需求而设计的专用人工智能芯片。自适应:计算机根据数据特征自动调整处理方法、处理顺
8、序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳处理效果的过程。AIUI:由科大讯飞研发的人机交互新产品,集成了双全工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等。7 报告编码19RI0489 2 中国自然语言处理行业市场综述 2.1 自然语言处理定义 自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,自然语言处理技术使计算机具有识别、分析、理解和生成自然语言文本(包括字、词、句和篇章)的能力。自然语言处理机制涉及自然语言理解和自然语言生成两个流程:(1)自然语
9、言理解:计算机理解自然语言文本的思想和意图;(2)自然语言生成:计算机用自然语言文本表述思想和意图。自然语言理解和分析是一个层次化过程,从词法分析、句法分析、语义分析到语用语境分析层层递进:(1)词法分析:分析词汇的各个词素,从中获得语言学信息;(2)句法分析:分析句子和短语的结构,识别各词语、短语在句中的作用以及相互间的关系;(3)语义分析:找出词义、结构意义及词与结构结合的意义,确定语言所表达的真正含义;(4)语用语境分析:分析语言所存在的外界环境对语言使用者所产生的影响。2.2 自然语言处理环节(1)词法分析 词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注是在给定
10、句子中判断并标注各词的词性,而兼类词和未登录词的词性复杂难以确定,标注兼类词与未登录词的词性是词法分析的重要任务。词义标注是在具体语境中明确各词的词义,如多义词拥有多种意义,但在具体语境中表达的意义是可确定的。在不同的具体语境中解决多义词的义项问题是词义标注的重点。(2)句法分析 句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系,包括确定语言 8 报告编码19RI0489 的语法体系,明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关系推导句子的句法结构。(3)语义分析 语义分析通过建立有效的模型使计算机系统能对各个语言单位(包括词汇、句子和篇章等)进行自动语义
11、分析,从而理解自然语言文本的真实语义。根据理解对象的语言单位不同,可将语义分析分为词汇级语义分析、句子级语义分析以及篇章级语义分析。词汇级语义分析关注如何获取或区别单词的语义,句子级语义分析关注整个句子所表达的语义,篇章级语义分析研究篇章文本的内在结构以及理解篇章文本内语言单元(句子、从句或段落)间的语义关系。(4)语用语境分析 语用指人对语言的具体运用,自然语言用语与语境、语言使用者的知识涵养、言语行为、想法和表达意图密切相关。语用分析是计算机在情景语境和文化语境中研究分析语言使用者的表达用意。2.3 自然语言处理技术应用 随着人工智能的深入发展,自然语言处理需求不断提升,众多类型智能应用需
12、要自然语言处理技术帮助其实现智能化,如(1)文本领域的搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用;(2)语音领域的语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用均需自然语言处理技术理解或生成自然语言。自动问答 自动问答应用涉及自然语言的词法、句法、语义等分析问题,是自然语言理解与生成技术应用的集中体现。自动问答系统能自动回答用户提出的问题,反馈给用户基于自然语言表 9 报告编码19RI0489 述的答案,不再是简单的基于关键词匹配排序的文档列表,系统在生成答案的操作中需要正确理解用户所提出的问题
13、,抽取用户问题中的关键信息,进而检索语料库或知识库,将可匹配的最佳答案用自然语言的形式反馈给用户,完成自动问答任务。信息检索 信息检索是计算机自主从文档集合中查找用户所需信息的过程。信息检索系统将信息标引、描述以及组织整理后存在于数据库中,将用户输入的检索关键词与数据库中信息的标引词匹配,实现用户的信息检索要求。信息检索要求计算机理解用户输入的自然语言信息,自动将自然语言信息与数据库中的标引信息进行比对,以达成检索任务。如谷歌搜索引擎可通过理解用户输入的自然语言关键词,反馈给用户一个检索目标页面列表,用户可在列表中选择能够满足自己信息需求的页面加以浏览。因为搜索引擎无法通过简单的关键词表达体会
14、用户真正的查询意图,只能将所有可能满足用户需求的结果集合以列表的形式提供给用户。情感分析 情感分析(意见挖掘),是计算机系统自主对文本的情感倾向(如主观/客观,积极/消极,喜欢/讨厌等)进行挖掘和分析的过程。情感分析能帮助商家自动处理用户评论,将分析过的评论按照排序规则进行展示,帮助商家获得广告营销效果,如淘宝、天猫等电商平台、携程、爱彼迎等旅游住宿平台的商家在评论区可设置自动置顶反映积极情绪的用户评论,置后部分反映负面信息的用户评论,达到吸引用户眼球的效果。商家还可通过分析用户发布的信息了解用户喜好,实现精准营销,如新浪微博上的零售商可根据用户发表的微博,微话题等内容了解用户的个人喜好,为用
15、户定制性的推送优惠及新品信息。2.4 中国自然语言处理产业链分析 自然语言处理产业链上游市场主体为基础资源提供商,包括硬件供应商(如芯片供应商、服务器供应商和存储供应商等)和软件供应商(如云服务供应商和数据库供应商等);中游 10 报告编码19RI0489 市场由自然语言处理算法供应商、自然语言处理解决方案供应商以及自然语言处理应用供应商组成,负责为下游需求端提供服务;下游市场主体为各类型用户,包括企业用户和个人用户,企业用户涉及金融、医疗、教育、出行服务、互联网服务等领域,个人用户则为最终消费者。图 2-1 中国自然语言处理产业链 来源:头豹研究院编辑整理 2.4.1 产业链上游 自然语言处
16、理产业链上游市场由基础资源供应商组成,涉及网络设备、服务器、芯片、存储、云服务、数据库等软、硬件供应商,负责为自然语言处理技术和产品开发商提供必要的资源支持。(1)芯片供应商 现阶段,行业内尚未出现专门用于自然语言处理运算的芯片,核心数据处理芯片 CPU无法执行自然语言处理结构化运算,目前适用于自然语言处理的芯片类型有 GPU、FPGA、ASIC 和 DSP。GPU 解决浮点运算、数据并行计算问题优势明显,可提供高密度运算能力,解决大量数据元素并行问题。但 GPU 芯片功耗大,依托于 X86 架构服务器而运行,成本高昂,不适 11 报告编码19RI0489 用于广泛的自然语言处理产品方案的开发
17、,在自然语言处理与传统行业数字化进程结合加深的趋势下,采用 GPU 作为自然语言处理运算芯片的方案不具备成本优势,小型自然语言处理应用项目负担不起高昂成本。FPGA 具有可编程性,设计者可根据需要的逻辑功能对 FPGA 电路进行快速烧录,从而改变其出厂设计,灵活性强。但 FPGA 的设计布线相对固定,各种型号的 FPGA 芯片逻辑资源相对固定,选定了型号即决定了芯片的逻辑资源上限,无法随意增加运算能力。ASIC 芯片的运算能力强、规模量产成本低,全定制设计需要设计者完成所有电路的设计,开发周期长,时间成本高昂,主要适用于量大、对运算能力要求较高、开发周期较长的领域。DSP 内有控制单元、运算单
18、元、各种寄存器以及存储单元,其外围还可以连接若干存储器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、速度快、体积小,而且采用软件编程具有高度的灵活性。但目前 DSP 的性能并未通过实践验证,也未生产出可以与 GPU 相匹敌的芯片器件,商业化应用仍在研发过程中。为满足自然语言处理等人工智能的发展需求,部分针对深度学习的芯片,如 TPU、NPU、DPU 和 BPU 等相继面世,但受场景以及性能限制,专用的人工智能芯片发展尚未成熟。目前自然语言处理运算的最佳芯片方案仍以 GPU 为主导。(2)云服务供应商 云服务供应商为自然语言处理研发企业提供基础设施平台,解决自然语
19、言处理技术研发厂商的数据存储、运算以及调用问题。由于性价比、部署方式等因素,自然语言处理研发企业较多选用公有云服务。目前,公有云服务供应商有:通过云服务产业链资源优势拓展至公有云服务行业的企业,如电信运营商,网络设备制造商,IDC 厂商等,此类企业拥有较强的资金实力,加 12 报告编码19RI0489 上本身处在公有云产业链上游,基础设施方面优势明显;大型互联网企业,如亚马逊,腾讯、阿里巴巴等,此类企业资金实力雄厚,客户认可度高,设施齐备、技术成熟,具备发展公有云业务的有利条件;传统的软件企业,如 Microsoft、Oracle、金蝶等,此类企业的软件产品的市场认可度高,技术积累丰厚,客户资
20、源丰富,有利于向公有云市场拓展。除此之外,行业中存在不少新兴的创业公司,如青云、Ucloud、七牛云等。(3)数据 数据是人工智能发展的基石,海量数据为训练人工智能提供原材料。近年来,由学术及研究机构承担建设的公共数据集不断丰富,数据质量不断提高,利于人工智能企业提高智能模型的准确度。例如,可运用于自然语言处理训练的数据集类型不断丰富,维基百科语料库、斯坦福大学问答数据集、亚马孙美食评论集、康奈尔电影对话语料库、经济新闻相关文章等语言集合相继建成,内容覆盖媒体用语、网络用语、电影用语、政府用语等众多自然语言应用场景,有助于自然语言处理研发企业优化用于处理不同领域自然语言的模型的准确度。2.4.
21、2 产业链中游 自然语言处理产业链中游市场主体主要有自然语言处理算法提供商、解决方案提供商以及应用产品开发商。目前中国的自然语言处理厂商较多集研发算法、解决方案以及应用产品功能于一身,厂商自主研发自然语言处理算法,形成一整套自然语言处理关键技术方案,并将自主研发的自然语言处理算法以及技术方案内嵌于自有应用产品体系中,典型代表有百度、阿里巴巴和腾讯。百度自然语言处理算法研究覆盖面广,涉及深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘等自然语言处理细分领域。百度积累了解决问句理解、答案抽取、观点分析与聚合等环节的一整套深度问答技术方案,目前已将该套技术方案应用于百度
22、搜索引擎、百度手机浏览器、百度翻译、百度语音助手、小度机器人等多个产 13 报告编码19RI0489 品中。百度在自然语言篇章理解方面,形成篇章结构分析、主体分析、内容标签、情感分析等关键技术,且该类关键技术已在百度搜索、百度信息流、糯米等产品中实现应用。阿里巴巴开展自然语言处理技术研究主要为旗下产品服务,如阿里巴巴在其电商平台中构建知识图谱实现智能导购,对电商用户进行兴趣挖掘实现精准营销,在蚂蚁金融、淘宝卖家等客服场景中实现机器人提供客服服务,在跨境电商业务中采用机器翻译服务进行商家商品信息翻译、广告词翻译以及买家采购需求翻译等。2.4.3 产业链下游 自然语言处理产业链下游市场主体为各类型
23、用户,包括企业用户和个人用户。企业用户主要购买行业应用,如智能客服产品、舆情分析产品、文本分类产品等,帮助企业用户提升业务处理的智能化水平。目前的 B 端市场是自然语言处理厂商竞争的焦点,部分应用产品(如智能客服、舆情分析产品等)尝试了商业化运作,市场反馈良好,但众多细分领域市场发展并未成熟,市场空间仍待挖掘。个人用户主要使用手机语音助手、机器翻译软件、信息检索以及互联网搜索等服务。个人用户使用的自然语言处理技术应用产品较多是自然语言处理厂商免费提供的,自然语言处理厂商普遍未在 C 端市场开发清晰的商业模式。2.5 中国自然语言处理市场规模 现阶段,自然语言处理技术商业化并不成熟,部分已实现商
24、业化应用的自然语言处理技术相关产品(如智能客服、搜索引擎等)均无法将收益直接归因于自然语言处理技术,单独运用自然语言处理技术的产品应用(文档分类、舆情分析等)尚未产生明显受益,因此自然语言处理技术产生的市场营收规模仍然较小,截至 2018 年,自然语言处理市场营收规模仅为 20.6 亿元人民币。但自然语言处理技术是众多人工智能设备(如智能家居设备、智能机器人、智能助手等)不可或缺的核心技术,随着智能设备数量增长以及行业智能化业务处理14 报告编码19RI0489 水平要求的提高,自然语言处理市场有望得到进一步拓展,自然语言处理市场营收规模有望在 2019-2023 年间以 48.2%的年复合增
25、速实现快速增长。图 2-2 中国自语言处理市场规模(按营收计),2014-2023 年预测 来源:头豹研究院编辑整理 15 报告编码19RI0489 3 中国自然语言处理行业驱动因素 3.1 自然语言处理要素演进,行业迎来变更式发展 数据量、运算力和算法模型是影响自然语言处理行业发展的三大要素。2012 年以来,数据量的上涨、运算力的提升和深度学习算法的出现促进了自然语言处理行业的快速发展。互联网、社交媒体、移动设备的普及,使产生并存储的数据量急剧增加,2020 年全球将有超 500 亿的终端与设备联网,产生的数据总量将大于 40 泽字节,人均每天产生的数据量预计达 1.5GB。中国 2020
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2019 年中 自然语言 处理 行业 研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。