2019年人工智能发展白皮书.pdf
《2019年人工智能发展白皮书.pdf》由会员分享,可在线阅读,更多相关《2019年人工智能发展白皮书.pdf(47页珍藏版)》请在咨信网上搜索。
1、2019年人工智能发展白皮书风起云涌:人工智能关键技术不断取得突破 相得益彰:人工智能赋能产业与应用场景 百川归海:人工智能开放创新平台逐步建立 各领风骚:全球人工智能公司一览目 录01020304前言人工智能是一个很宽泛的概念,概括而言是对人的意识和思维过程的模拟,利用机器学习和数据分析方法赋予机器类人的能力。人工智能将提升社会劳动生产率,特别是在有效降低劳动成本、优化产品和服务、创造新市场和就业等方面为人类的生产和生活带来革命性的转变。据Sage预测,到2030年人工智能的出现将为全球GDP带来额外14%的提升,相当于15.7万亿美元的增长。全球范围内越来越多的政府和企业组织逐渐认识到人工
2、智能在经济和战略上的重要性,并从国家战略和商业活动上涉足人工智能。全球人工智能市场将在未来几年经历现象级的增长。据中国产业信息网和中国信息通信研究院数据,世界人工智能市场将在2020年达到6800亿元人民币,复合增长率达26.2%,而中国人工智能市场也将在2020年达到710亿元人民币,复合增长率达44.5%。我国发展人工智能具有多个方面的优势,比如开放的市场环境、海量的数据资源、强有力的战略引领和政策支持、丰富的应用场景等,但仍存在基础研究和原创算法薄弱、高端元器件缺乏、没有具备国际影响力的人工智能开放平台等短板。此份报告不但对人工智能关键技术(计算机视觉技术、自然语言处理技术、跨媒体分析推
3、理技术、智适应学习技术、群体智能技术、自主无人系统技术、智能芯片技术、脑机接口技术等)、人工智能典型应用产业与场景(安防、金融、零售、交通、教育、医疗、制造、健康等)做出了梳理,而且同时强调人工智能开放平台的重要性,并列举百度Apollo开放平台、阿里云城市大脑、腾讯觅影AI辅诊开放平台、科大讯飞智能语音开放创新平台、商汤智能视觉开放创新平台、松鼠AI智适应教育开放平台、京东人工智能开放平台NeuHub、搜狗人工智能开放平台等典型案例呈现给读者。最后,列举国内外优秀的人工智能公司与读者共勉。随着技术的进步、应用场景的丰富、开放平台的涌现和人工智能公司的创新活动,我国整个人工智能行业的生态圈也会
4、逐步完善,从而为智慧社会的建设贡献巨大力量。风起云涌:人工智能关键技术不断取得突破/01八大人工智能关键技术选取标准:技术相对取得较大突破;应用场景相对明确;在产业界、学术界、投资界引起较大的关注。计算机视觉技术自然语言处理技术跨媒体分析推理技术智适应学习技术群体智能技术自主无人系统技术智能芯片技术脑机接口技术1.计算机视觉技术计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学,更进一步地说,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量的科学。近几年计算机视觉技术实现了快速发展,其主要学术原因是2015年基于深度学习的计算机视觉算法在ImageNet数据库上的
5、识别准确率首次超过人类,同年Google也开源了自己的深度学习算法。计算机视觉系统的主要功能有图像获取、预处理、特征提取、检测/分割和高级处理。图像获取预处理特征提取检测/分割高级处理提取二维图像、三维图组、图像序列或相关的物理数据,如声波、电磁波或核磁共振的深度、吸收度或反射度对图像做一种或一些预处理,使图像满足后继处理的要求,如:二次取样保证图像坐标的正确,平滑去噪等从图像中提取各种复杂度的特征,如:线,边缘提取和脊侦测,边角检测、斑点检测等局部化的特征点检测对图像进行分割,提取有价值的内容,用于后继处理,如:筛选特征点,分割含有特定目标的部分验证得到的数据是否匹配前提要求,估测特定系数,
6、对目标进行分类国际计算机视觉大会(ICCV 2019)欧洲计算机视觉会议(ECCV 2018)ImageNet大规模视觉识别挑战赛(ILSVRC)国际计算机视觉与模式识别会议(CVPR 2019)其他近年来,计算机视觉在产业界和学术界不断取得突破。国际计算机视觉大会(IEEE International Conference on Computer Vision,简称ICCV)是全球计算机视觉领域三大顶级会议之一,2019年该大会共收到4328篇论文投稿,相比上一届 ICCV 2017,数量翻了一倍不止。其中,中科院和清华大学的投稿数量在所有机构中遥遥领先。欧洲计算机视觉会议(Europeon
7、 Conference on Computer Vision,简称ECCV)是全球计算机视觉领域三大顶级会议之一,2018年该大会共收到论文投稿2439篇,涵盖对抗性机器学习,对人、物体和环境的超快三维感知、重建与理解,面部追踪及其应用,行人重识别的表征学习,视觉定位等主题。国际计算机视觉与模式识别会议(Computer Vision and Pattern Recognition,简称CVPR)是全球计算机视觉领域三大顶级会议之一,2019年该大会共录取来自全球的论文1299篇,其中腾讯公司的腾讯优图和腾讯AI Lab有超过58篇论文被接收,相比过去两年成绩大幅提升。ImageNet大规模视
8、觉识别挑战赛(ILSVRC)从2010年开始举办,一年一度,至2017年终结,有力推动了计算机视觉的发展。截至2016年,ImageNet中含有超过1500万由人手工注释的图片网址,标签超过2.2万个类别,图像识别错误率已经达到2.9%,远远超越人类(5.1%)。清华大学研究团队提出了一种全新的卷积神经网络架构DenseNet,显著地提升了模型在图片识别任务上的准确率;北京大学和微软亚洲研究院研究团队提出了一种新的硬感知深度级联嵌入方法来考虑硬水平的样本;1.计算机视觉技术传统翻译采用人工查词的方式,不但耗时长,而且错误率高。图像识别技术(OCR)的出现大大提升了翻译的效率和准确度,用户通过简
9、单的拍照、截图或划线就能得到准确的翻译结果。翻译计算机视觉还有助于比赛和策略分析、球员表现和评级,以及跟踪体育节目中品牌赞助的可见性。体育赛事半自动联合收割机可以利用人工智能和计算机视觉来分析粮食品质,并找出农业机械穿过作物的最佳路径。另外也可用来识别杂草和作物,有效减少除草剂的使用量。农业计算机视觉也可以帮助制造商更安全、更智能、更有效地运行,比如预测性维护设备故障,对包装和产品质量进行监控,并通过计算机视觉减少不合格产品。制造业自动驾驶汽车需要计算机视觉。特斯拉(Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪(Audi)等汽车制造商Y已经通过摄像头、激光雷达、雷达和超声波传感器从
10、环境中获取图像,研发自动驾驶汽车来探测目标、车道标志和交通信号,从而安全驾驶。交通中国在使用人脸识别技术方面无疑处于领先地位,这项技术被广泛应用于警察工作、支付识别、机场安检,甚至在北京天坛公园分发厕纸、防止厕纸被盗,以及其他许多应用。安防由于90的医疗数据都是基于图像的,因此医学中的计算机视觉有很多用途。比如启用新的医疗诊断方法,分析X射线,乳房X光检查,监测患者等。医疗计算机视觉技术的典型应用案例2.自然语言处理技术自然语言处理(Natural Language Processing)是一门通过建立形式化的计算模型来分析、理解和处理自然语言的学科,也是一门横跨语言学、计算机科学、数学等领域
11、的交叉学科。自然语言处理,是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成,自然语言理解是让计算机把输入的语言变成有意思的符号和关系,然后根据目的再处理;自然语言生成则是把计算机数据转化为自然语言。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。从2008年到现在,在图像识别和语音识别领
12、域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到2013年word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN已经是自然语言护理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。自然语言处理技术的技术层次自然语言处理技术的发展历程语音分析词法分析句法分析语用分析语义分析20世纪70年代 理性主义方法 基于统
13、计的方法20世纪50年代 图灵测试 经验主义方法 基于规则的方法2008 深度学习未来2.自然语言处理技术自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域,相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域,例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。近年来,计算机视觉在产业界和学术界不断取得
14、突破,取得代表性成果的组织有谷歌、阿里、百度、搜狗、科大讯飞等公司,清华大学、Allen人工智能研究所等高校/研究所以及其他多种类型的组织或个人。谷歌科大 讯飞2018年谷歌AI团队发布BERT模型,该模型是2018年最火的自然语言处理模型,在模型开源后的短短几个月时间里,已经有学者表示BERT为人工智能的发展带来了里程碑式的意义。2019年6月,CMU与谷歌大脑提出新的NLP训练模型XLNet,该模型在SQuAD、GLUE、RACE等20个任务上全面超越了BERT。科大讯飞早在2016年就推出了全新的深度全序列卷积神经网络(DFCNN)语音识别框架,该框架的表现比学术界和工业界最好的双向RN
15、N语音识别系统识别率提升了15%以上。2019年,讯飞输入法的语音识别准确率已达到了98%,并采用记忆增强的全端到端语音识别模型,开启语音输入“免切换”时代,即中英、粤语和普通话以及离线与在线语音之间不切换直接输入。2019年,百度、搜狗的语音识别的准确率已达到了97%。搜狗更是在2017年底就推出了“黑科技”唇语识别技术,当时针对日常用语的识别就可以达到50%60%的准确率,针对命令词的识别可达到85%90%,较早地做了唇语识别的技术储备。阿里阿里巴巴人工智能实验室推出的天猫精灵是目前全球唯一通过语音识别技术实现声纹购物功能的人工智能产品。2019年前三季度,天猫精灵AI智能音箱销量超104
16、7万台,销量排名在国内第1、世界第3,是全球最大的中文人工智能音箱。百度、搜狗Allen 研究所清华大学清华大学自然语言处理小组开发出THUMT神经机器翻译开源工具包。THUMT 在 Theano 上层实现了标准的基于注意的编码器-解码器框架,并且支持三种训练标准:最大似然估计、最小风险训练和半监督训练。它的特点是有一个可视化工具,演示神经网络和语境单词隐藏态间的关联,从而帮助分析 NMT 的内部工作机制。在中英数据集上的实验显示 THUMT 使用最小风险训练极大的超越了 GroundHog 的表现,它也是 NMT 的一个顶尖工具包。Allen人工智能研究所于2018年年初提出了ELMo(Em
17、beddings from Language Models)模型,提供了从深度双向语言模型(biLM)中学习的单词嵌入思路。该模型主要在大型文本语料库上进行预训练,从而使迁移学习和这些嵌入能够在跨越不同的NLP任务。2018年12月,Facebook开源了自己的NLP建模框架PyText,每天处理超10亿个NLP任务。Facebook更多3.跨媒体分析推理技术以往的媒体信息处理模型往往只针对某种单一形式的媒体数据进行推理分析,比如图像识别、语音识别、文本识别等,而越来越多的任务需要像人一样能够协同综合处理多种形式(文本、音频、视频、图像等)的信息,这就是跨媒体分析与推理。跨媒体是一个比较广义的
18、概念,既表现为包括网络文本、图像、音频、视频等复杂媒体对象混合并存,又表现为各类媒体对象形成复杂的关联关系和组织结构,还表现在具有不同模态的媒体对象跨越媒介或平台高度交互融合。通过“跨媒体”能从各自的侧面表达相同的语义信息,能比单一的媒体对象及其特定的模态更加全面地反映特定的内容信息。相同的内容信息跨越各类媒体对象交叉传播与整合,只有对这些多模态媒体进行融合分析,才能尽可能全面、正确地理解这种跨媒体综合体所蕴涵的内容信息。跨媒体分析推理技术主要包括跨媒体检索、跨媒体推理、跨媒体存储几个研究范畴,可应用于网络内容监管、舆情分析、信息检索、智慧医疗、自动驾驶、智能穿戴设备等场景。近年来,跨媒体分析
19、推理技术在产业界和学术界也不断取得突破。IBM的智能问答系统谷歌利用搜索模式来预测流感的传播情况百度的知识图谱Netflix字节跳动百度知识图谱依托海量的日志数据、互联网数据和垂类数据,综合运用语义理解、知识挖掘、知识整合与补全等技术,提炼出高精度知识,并组织成图谱,进而基于知识图谱进行理解、推理和计算等,帮助人工智能更好地理解和建模客观世界。字节跳动成立于2012年,公司的主要产品“今日头条”“抖音”“tiktok”都是基于数据挖掘技术做个性化推荐引擎的产品,致力于帮助用户在移动互联网上方便快捷地获取最有价值的信息,它会根据用户的兴趣为其推荐内容,这是对传统信息分发方式的一次巨大颠覆。Net
20、flix提供互联网随选流 媒 体 播 放,定 制DVD、蓝光光碟在线出租业务。Netflix解构了几乎所有的电影,用精细、准确的微标签和评级推荐系统去给电影重新分类,形成个性化推荐。4.智适应学习技术作为教育领域最具突破性的技术,智适应学习技术(Intelligent Adaptive Learning)模拟了老师对学生一对一教学的过程,赋予了学习系统个性化教学的能力。和传统千人一面的教学方式相比,智适应学习系统带给了学生个性化的学习体验,提升了学生的学习投入度和学习效率。采用了智适应学习技术的学习系统能够针对学生的具体学习情况提供个性化学习解决方案,包括定位学生的知识漏洞、持续性地评估学生的
21、学习能力水平和知识状态、实时动态提供个性化学习内容。智适应学习技术让教育领域一直困扰的质量、成本、可获取性三大矛盾因素变成了历史。智适应学习技术体系包括知识状态诊断、能力水平评测和学习内容推荐等。知识状态诊断技术是指通过少量试题,在较短时间精准诊断出学生的知识漏洞,这一技术较常用的算法是知识空间理论。能力水平评测技术是指评测出学生的知识掌握情况,分析出学生得到提升的学习能力、学习思维和学习方法,这一技术较常用的算法是项目反应理论、贝叶斯知识追踪。学习内容推荐技术是指依据学生学习情况,推荐合适的学习内容,这一技术较常用的算法是机器学习算法,该算法以学生的所有信息为输入,输出是学生接下来需要学习的
22、内容,达到最大化学习效率的目的。在2010年之后,智适应学习技术得到了快速发展,这背后的推动力有强大的计算力和海量的数据,更重要的还有贝叶斯网络算法的应用。学生知识状态的建立是一件高成本的事,传统模式下判断学生的知识状态需要针对每一个知识点出题考察,有了强大的计算力后,就能够快速模拟出学生的知识状态空间,并且定位到学生的知识状态;海量的数据有助于机器学习算法发挥更大的价值。采用了贝叶斯算法之后,智适应学习系统能够实时持续性地评估学生当前的能力水平、并且及时动态调整学习内容,这在之前是没有实现的。4.智适应学习技术目前在全球已有一亿多学生在使用智适应学习系统,覆盖了各个年龄段,从小学、初中、高中
23、,到高等教育、职业教育和成人教育,已应用到文、理、工、医等不同学科领域。大量学生的使用数据显示,智适应学习系统的教学效果好于传统教学模式。其他学术成果:2018年上半年最新国际学术研究成果,再一次有效验证了智适应学习系统的学习效果优于传统授课。其中,发表在国际知名学术会议International Conference on Learning Analytics&Knowledge上的论文“Studying Adaptive Learning Efficacy using Propensity Score Matching”的研究发现使用智适应系统ALEKS数学课程的学生的课程通过率比未使用A
24、LEKS学生高出15个百分点。人机大战:几年前,美国进行了一系列关于智适应教育的人机大战。在这场人机大战中,智适应教育表现出了三个亮点:采用智适应教育的学生平均分高于接受人工教学的学生成绩,提升效果显著;及格率普遍提升,对基础较差的学生效果尤为明显;学生能够提前完成学习任务,学习效率显著提高。大学:亚利桑那州立大学引进Knewton推出的数学智适应辅助课程后,学生通过率提高了17%,课程退学率降低56%,且45%的学生提前四周完成课程。在东北伊利诺伊大学,运用过Knewton制定的学习计划的学生比没有使用的同学取得了更好的考试成绩。美国雷丁区社区学院中使用Pearson MyMathLab的智
25、适应学习产品的学生,比未使用的学生数学分数高出12.5%。中国:自2014年,以松鼠AI 1对1为智适应领域领军企业、新东方、好未来等公司开始投入智适应领域。其中,松鼠AI 1对1自主研发的智适应学习系统能够模拟教师给孩子一对一量身定做教育方案,并且一对一实施教育过程,比传统教育效率提升5-10倍。松鼠AI 1对1成立实验室,与斯坦福国际研究院(SRI)进行联合技术开发,并且与卡内基梅隆大学(CMU)、中科院自动化所成立了AI智适应教育联合实验室,机器学习教父、CMU前任计算机院长Tom Mitchell教授任其首席AI科学家,CMU计算机及心理学系教授、Cognitive Tutor创办者K
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2019 人工智能 发展 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。