计算机视觉研究报告.pdf
《计算机视觉研究报告.pdf》由会员分享,可在线阅读,更多相关《计算机视觉研究报告.pdf(46页珍藏版)》请在咨信网上搜索。
1、 前前 言言 本报告深入分析了计算机视觉产业链及核心技术,提出产业链相互融合的发展趋势,以及核心技术向轻量化&低成本及端边云协同方向发展,以解决成本高、时延高、功耗高、部署难、隐私顾虑等产业痛点问题,并介绍了六大行业领域对计算机视觉的场景需求及解决方案。希望能够为产业在规划设计计算机视觉相关产品和解决方案时提供参考和指引。1 目录目录 1.计算机视觉概述.1 1.1 计算机视觉的概念.1 1.2 产业发展驱动力分析.1 1.3 产业链分析及发展趋势展望.2 2.核心技术及发展趋势.7 2.1 核心技术介绍.7 2.1.1 视觉传感器技术.7 2.1.2 计算芯片技术.8 2.1.3 计算平台技
2、术.9 2.1.4 开源框架技术.10 2.1.5 视觉算法技术.12 2.2 技术发展趋势.19 3.行业需求和解决方案.23 3.1 智慧城市.23 3.1.1 业务需求分析.23 3.1.2 解决方案介绍.26 3.2 工业.29 3.2.1 业务需求分析.29 3.2.2 解决方案介绍.31 3.3 医疗.33 3.3.1 业务需求分析.33 3.3.2 解决方案介绍.34 3.4 农业.35 3.4.1 业务需求分析.35 3.4.2 解决方案介绍.36 3.5 教育.37 3.5.1 业务需求分析.37 3.5.2 解决方案介绍.38 3.6 自动驾驶.39 3.6.1 业务需求分
3、析.39 3.6.2 解决方案介绍.39 4.展望.41 参考资料.附录 1 联合编写单位及作者.附录 2 1 1 1.计算机视觉概述计算机视觉概述 1.11.1 计算机视觉的概念计算机视觉的概念 计算机视觉是计算机科学的分支,是指用摄像头和电脑代替人眼对目标进行识别、跟踪和测量,并处理成更适合人眼观察或传送给仪器检测的图像。作为科学学科,计算机视觉试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉的最终研究目标是使计算机能像人那样通过视觉观察理解世界,并具有自主适应环境的能力。与计算机视觉概念相关的另一专业术语是机器视觉。机器视觉是计算机视觉在工业场景中的应用,目的是替代传统
4、的人工,提高生产效率,降低生产成本。计算机视觉与机器视觉侧重有所不同。计算机视觉主要是对质的分析,如物品分类识别。机器视觉主要侧重对量的分析,如测量或定位。此外,计算机视觉的应用场景相对复杂,识别物体类型多,形状不规则,规律性不强。机器视觉则刚好相反,场景相对简单固定,识别类型少,规则且有规律,但对准确度、处理速度要求较高。1.21.2 产业发展驱动力分析产业发展驱动力分析 计算机视觉产业的发展受到市场与技术的双重驱动。2 一是市场驱动,随着人口红利的消失以及人生理能力的局限性,机器代人过程的不断进行,带来巨大的经济效益。以工业机器视觉系统为例,在发达国家一台典型的 10000 美元的工业机器
5、视觉系统可替代 3 个年工资在 20000 美元左右的工人,投入回收期非常短,且后续维护费用低,具备明显的经济性。二是技术驱动,以 5G 为代表的新一代信息通信技术及以深度学习为代表的人工智能技术,推动计算机视觉产业不断成熟。一方面,在 4G 时代就出现了简单的计算机视觉业务,例如人脸识别、OCR等。随着 5G 的普及,高速率、无线化、可移动视觉的需求将得到进一步满足。另一方面,人工智能技术随着算力的提升和算法的更新迭代,结合行业大数据,适用场景将更加广泛,能够大幅提升安防、工业制造、医疗影像诊断等领域的效率并降低人工成本。1.31.3 产业链分析及发展趋势展望产业链分析及发展趋势展望 人工智
6、能四要素为数据、算力、算法、应用,计算机视觉作为人工智能发展最为迅速的领域之一,受益于行业数据的不断丰富、专用算力的持续提升、行业算法的演进优化,以及行业应用的拓展丰富。计算机视觉产业链如图 1 所示,包括上游感知层、中游计算层、下游应用算法层,分别提供数据采集服务、计算算力服务、算法及应用服务。其中感知层是基础,精准而丰富的数据是实现计算机视觉的前提。3 计算层的芯片是保障,主要被国外企业垄断,技术与专利壁垒较高,卡脖子现象严重。应用算法层是核心,国内企业在某些领域已走在世界前列。图图 1 1 计算机视觉产业计算机视觉产业链链 1、产业链上游:感知层 感知层以视觉传感器(摄像头)为主,其中图
7、像传感器占摄像头50%左右成本,是摄像头的核心部件。图像传感器分为 CMOS 和CCD 两类,CMOS 以高速度(帧速率)、高分辨率(像素数)、低功耗等优势,逐步取代 CCD 传感器。2018 年全球 CMOS 图像传感器市场规模 155 亿美元,预计 2024 年市场逐渐饱和,达 240 亿美元。CMOS 图像传感器行业主要由国际巨头主导,市场长期被索尼、三星和豪威统治,三家市场份额 70%,依托于先进的技术和专利形成了较高的壁垒,国内高端图像传感器严重依赖进口。豪威 19 年被国内公司韦尔股份收购,其红外图像传感器在安防领域较为领先,是海康、大华的主要供货商。国内企业主要服务中低端市场,在
8、安防领域较为突出。格科微电子优势在 COM 封装技术,专注中低端手机和 4 安防领域应用。思特威安防市场连续两年全球第一,在物理防抖技术上较有优势。综上,在消费电子领域,图像传感器与国外巨头差距较大,技术、渠道等壁垒较高,但在行业细分领域有望突破。2、产业链中游:计算层 计算层包括芯片、深度学习框架和计算平台。芯片为应用算法提供高性能算力服务,深度学习框架为算法提供软件承载环境,计算平台为应用算法提供基础设施服务及 AI 算力服务。(一)芯片方面,通用计算芯片 CPU、GPU,被 Intel、Nvidia 等美国芯片厂商垄断。Intel 掌握着 X86 架构,在 CPU 芯片领域一直领先。Nv
9、idia 则是全球最大的独立 GPU 供应商,其产品线覆盖各种不同性能要求的业务领域。国内通用芯片起步晚,芯片厂商尚未崛起,短期内难以实现规模应用,加之美国封锁,国内企业需要较长时间突破壁垒。近些年全球智能计算市场呈现快速发展态势,国内外多家集成电路龙头企业与初创公司陆续发布了多款 ASIC 智能芯片(下简称智能芯片)产品。2015 年寒武纪研发出世界首款深度学习专用处理器原型芯片,可大幅提升深度学习的计算效率和能效。2016 年Google 发布了名为 TPU(Tensor Processing Unit)的智能芯片,很快在其各类业务中实现商用。2016 年底寒武纪推出了全球首款商用终端智能
10、处理器 IP 产品寒武纪 1A。2017 年华为发布其旗舰手机芯片配备专用 NPU。智能芯片按场景分为终端、边缘端、云端,云 5 端和边缘智能芯片仍处推广期,主要厂商和产品为寒武纪(思元100/270/220)、华为海思(Ascend 310/910)、Google(TPU V1/V2/V3、TPU EDGE)等;终端智能芯片处理器多集成于手机 SoC中,已实现大规模应用,主要厂商和产品为华为海思(麒麟970/980/990)等。(二)深度学习框架方面,国外先后推出用于深度学习模型训练的开源框架,包括 Caffe、Theano、Torch、MXNet、TensorFlow等,极大降低了人工智能
11、技术在实践中的入门门槛。国内方面,百度的飞桨(PaddlePaddle),清华大学的计图(Jittor)和华为推出的MindSpore 也先后问世。飞桨是百度自主研发的深度学习平台于2016 年开源,向上承载应用,兼顾开发的灵活性和高效性;向下对接硬件芯片,携手芯片厂商共同打造硬件生态环境。截至 2020 年 9月,飞桨已有 210 万开发者,服务 9 万家企业,创造 29.5 万模型,覆盖通信、电力、城市管理、制造、农业等行业。(三)计算平台方面,国内外市场被亚马逊、谷歌、阿里、腾讯等公司基本垄断,但小公司的计算平台凭借价格优势仍有生存空间。计算平台之间的竞争核心在于算力与资费。算力方面,各
12、大平台均提供以 GPU 为主的分布式算力集群,算力服务性能差异不大,且均有高低配置可选。3、产业链下游:应用算法层 6 (一)算法方面,部分国内企业不断走向领先地位。如人脸识别领域,2018 年全球人脸识别算法测试结果,中国包揽了前五名,其中依图科技包揽了前两名,商汤科技获得第三名和第四名。在物体检测识别领域,商汤科技在 2016 ImageNet 挑战赛中,蝉联视频物体检测冠军。同时一举揽下物体检测、视频物体检测和场景分析三项冠军,19年发表的TSD算法大幅度提高目标检测精度,荣获 Open Images Object Detection Challenge 2019 冠军。(二)应用方面,
13、计算机视觉行业应用在国内发展迅速,国内外应用领域差异明显。国内应用现阶段以安防、金融、互联网为主,国外则以消费、视觉机器人、智能驾驶等场景为先。差异的原因主要有三点:一是在于国内市场需求的推动。安防、金融数字化成为了计算机视觉最重要的应用场景,带动了相关产业的发展;二是发展时间和阶段不同。国外计算机视觉发展较早,从实验室走向应用,经历了几十年的发展,早已进入稳定发展时期,而我国起步晚,2010 年以后相关企业才迅速成立发展起来,所以我国企业进入阶段就赶上了大规模视觉技术应用时期和互联网大爆发时期;三是市场重视程度不同。国外市场认为芯片和硬件作用力大于软件算法技术,所以更加注重芯片研发和市场的垄
14、断。而我国市场则重点将行业知识和工程经验转化为垂直解决方案,将业务解决方案涵盖各种水平垂直方案之中。计算机视觉的感知层、计算层、应用算法层有相互融合的趋势,7 以满足场景对低时延、高可靠、数据隐私等方面的需求。一是上游企业向中下游的延伸,专业摄像头产品(上游)向 AI芯片(中游)及应用算法(下游)延伸,如人工智能芯片融合人脸识别算法广泛应用于安防等领域。二是下游企业向中游的延伸,实现算法与算力的高度匹配。如基于人脸识别算法(下游),研发与之高度匹配的专用人脸识别芯片(中游),提升算法实时性与准确率,进一步降低部署成本。2.2.核心技术及发展趋势核心技术及发展趋势 2.12.1 核心技术介绍核心
15、技术介绍 通过对计算机视觉产业链上中下三层的分析,列举出计算机视觉的核心技术包括:视觉传感器技术、芯片技术、计算平台技术、开源框架技术、视觉算法技术。2.1.1 视觉传感器技术 视觉传感器作为底层基础,是整个计算机视觉系统的主要信息来源,其输出图像的分辨率直接决定后续的分析处理、智能识别的精度。视觉传感器可以扩展人的视觉范围,使人们看到视觉范围以外的微观世界和宏观世界,并与计算机视觉结合,提供对物体形态和特征的复杂分析。8 视觉传感器主要由镜头、图像传感器、模数转换器、图像处理器、图像存储器等组成,有时还要配以光源及其他辅助设备。根据场景对放大倍率、焦距、景深等参数的需求,视觉传感器可以选取不
16、同镜头将光线聚焦在图像传感器上,将光线转换成电子信号,并通过模数转换器将图像传感器上传来的电信号转换为数字信号,只有经过这个环节才能将一个记录着画面中各部位电压高低的文件,转换为一个 0与 1 的二进制数字文件。电压信号转化为数字信号后,还需通过影像处理单元才能将数字信号转换为图像,并存放至图像存储单元中,为后期智能视觉处理分析提供数据。2.1.2 计算芯片技术 计算机视觉应用与芯片技术的发展历程是紧密相关的,图像分类、目标检测、目标跟踪和图像分割等智能算法任务都需要以芯片为核心的智能算力设备进行支撑,目前视觉计算芯片有CPU、GPU、FPGA、智能芯片几种类型,在人工智能数十年的发展历程中,
17、CPU、GPU、FPGA 等传统芯片曾长期为其提供底层计算能力。它们在设计之初并非面向人工智能领域,但可通过灵活通用的指令集或可重构的硬件单元覆盖人工智能程序底层所需的基本运算操作,从功能上可以满足人工智能应用的需求,但在芯片架构、性能、能效等方面并不能适应人工智能技术与应用的快速发展,从而发展了专门针对人工智能领域设计的智能芯片。9 智能芯片其架构和指令集针对人工智能领域中的各类算法和应用做了专门优化,可支持各类智能处理任务。智能芯片对计算机视觉等各类人工智能技术具备较好的普适性,无需像 CPU 一样支持控制密集型计算任务,或者像 GPU 一样兼顾图形处理与科学计算任务,架构完全针对人工智能
18、处理的实际需求所设计。智能芯片按功能可分为训练芯片和推理芯片,训练需要通过大量数据输入训练出复杂的神经网络模型,对于芯片的计算能力、精度、扩展性等要求高;推理是利用好训练完的模型,用实际数据去推断出各种场景分析结果。智能芯片在指令集、处理器架构以及基础系统软件等方面具备较高的技术壁垒。2.1.3 计算平台技术 计算平台是指基于 CPU、GPU 等算力设备提供计算服务的平台,具有实时高速的并行计算和浮点计算能力。智能计算平台,能发挥极致性能,具有高并行、高吞吐、低时延等特点,在科学计算表现中,性能比传统架构提高几十倍。智能计算平台通常用于深度学习训练和推理,平台架构如图 2所示包含 IaaS、P
19、aaS、SaaS 三层。其中 IaaS 层包括算力设备、存储、网络等设备;PaaS 层底层采用 Docker 等容器技术进行环境的管理、资源的隔离和任务的调度。包含开源框架,提供基于各类神经网络的常用深度学习算法;提供基础模型库,包括图形模型、语音模 10 型、时序模型、视频模型和 NLP 模型等;提供负载均衡、模型优化、弹性 GPU、自动学习、应用环境管理、快速部署环境等应用部署功能;以及为用户提供环境访问等交互接口;SaaS 层为计算机视觉的各类行业应用场景。图图 2 2 计算机视觉云平台架构计算机视觉云平台架构 计算平台基础功能包括租户计费、资源管理、性能监控、告警分析等。通常厂商提供和
20、标准云服务器租用一致的管理方式,可以有效解放用户的计算压力,提升产品的计算处理效率与竞争力,较传统自建服务器的模式有很多优势。如用户无需预先采购、准备硬件资源,可按时租用,免除硬件更新带来的额外费用,能有效降低基础设施建设投入。2.1.4 开源框架技术 11 随着深度学习的广泛应用,迫切需要强大的编程框架和开发平台来提升效率。一方面模型越来越复杂,迫切需要更简洁高效的开发方式。另一方面,深度学习训练和推理的硬件环境也愈发丰富多样,如何有效对接不同的芯片和应用环境也带来很大挑战。与此同时,深度学习技术的编程特性和计算特性给深度学习统一编程框架的出现提供了便利。通过对深度学习计算的抽象,向下屏蔽硬
21、件对接以及训练、推理计算逻辑,向上只提供模型(神经网络)结构定义和执行的简易接口,深度学习框架应运而生。当前所说的人工智能开发框架,一般即指深度学习框架。设计良好的深度学习框架,可支持很多传统机器学习任务。基于深度学习框架,开发者无需关注前向反向计算、梯度优化以及具体的底层计算,只需要通过 API 调用,就可以完成深度学习模型的开发、训练和部署。深度学习框架处于硬件层和应用层之间。向上支持深度学习模型的设计、训练和部署,支撑人工智能应用的开发,成为算法研发和落地的标准环境;向下对接芯片、硬件设备,充分发挥硬件计算性能的同时对用户屏蔽不同芯片的编程差异,并进一步影响人工智能芯片的设计。因此,业界
22、普遍认为,深度学习框架是人工智能领域最为核心的基础设施之一。基于深度学习框架的全流程开发平台,可以更好对接云计算、大数据资源,搭载全面的开发部署服务工具还可以大大解放生产力,这 12 将对人工智能技术的创新和应用起到巨大的支撑作用;还关系到人工智能技术发展的自主可控和人工智能应用的安全性问题。得深度学习框架者,就可以掌握人工智能技术甚至是整个行业的话语权。因此在全世界范围内,深度学习框架平台的建设已经被高度重视。2.1.5 视觉算法技术 计算机视觉领域的算法资源非常丰富且应用广泛,在行业应用中常见的算法技术有人脸识别、姿态估计、行为识别、目标追踪、行人重识别等。1、人脸识别 深度学习方法的主要
23、优势是可用大量数据来训练,从而学到对训练数据中出现的变化情况稳健的人脸表征。这种方法不需要设计对不同类型的类内差异(比如光照、姿势、面部表情、年龄等)稳健的特定特征,而是可以从训练数据中学到它们。卷积神经网络对平移、缩放、倾斜和其他形式的形变具有高度的不变性有点,并且具有深度学习能力,可以通过网络训练获得图像特征,不需要人工提取特征,在图像样本规模较大的情况下,对图像有较高的识别率,因此卷积神经网络是人脸识别方面最常用的一类深度学习方法。人脸识别过程包括人脸检测、人脸对齐、人脸识别等部分,具体流程如下。13 (一)在整个图像中检测到人脸区域,常用方法有HOG,MTCNN等等。(二)根据检测到的
24、关键点位置,对人脸的检测框的关键点进行对齐,比如使眼睛,嘴巴等在图像中有同样的坐标位置,主要是有利于后面的训练。(三)在人脸的检测框内用来检测关键点位置,比如眼睛,嘴巴,鼻子等关键点位置,具体可以检测多达几十个关键点位置。(四)使用神经网络前向抽取人脸特征进行训练,训练得到的模型用来部署。(五)将每张人脸区域使用模型抽取特征,得到一个特征向量,将特征向量使用余弦方法等计算距离,小于指定的阈值则认为是同一个人。2、姿态估计 姿态估计的目标是在 RGB 图像或视频中描绘出人体的形状,其涉及额很多计算机视觉任务,如目标检测、姿态估计、分割等等。姿态估计的应用场景不仅包括关键点(如头、左手、右脚等)定
25、位,如图形,AR,人机交互,还包括 3D 目标识别的很多方面。一般可将人体姿态估计问题具体细分为 4 个任务:单人姿态估计、多人姿态估计、人体姿态追踪、3D 人体姿态估计。14 (一)单人姿态估计,输入是一个行人,然后在行人区域位置内找出需要的关键点,比如头部,左手,右膝等。(二)多人姿态估计的输入可能包含多个行人,目的是需要把图片中所有行人的关键点都能正确的做出估计。针对这个问题,一般有两种做法,分别是 top-down 以及 bottom-up 的方法。对于top-down 的方法,往往先找到图片中所有行人,然后对每个行人做姿态估计,寻找每个人的关键点。单人姿态估计往往可以被直接用于这个场
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算机 视觉 研究 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。