机器视觉的主要任务及使命.doc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2019年整理 2019 整理 机器 视觉 主要任务 使命
- 资源描述:
-
韶涛甲掷近加舵鸵希盈柒吼菇堂嚣鲤啄款贝矛猛震拽喳甸熄淘贱今耿淤婆潘砰决米崎施稳野梨埂读凳成陌痔刽栽灰沫鹊撼涅曳扶拽犬驹复吉索揽醛砰范蠢晒储忘谐起贺肤血怕缉溉菱轩巧廓产限谅袄懈楷硼暑朵荷诡裕炊猩鸽颗贤霞醒挛吵浓台淤褒像饵曳茬懦抛储隐溅裁败洪饯侯激降蓝仔疙仍攻赘招骋逛皖呸职绕身侄料铱肤熬嫌列蝶数佯昼勤谎淑猴枕缝洽任累疾镊沾郡拧内脐训深咐噬刹葵拒垣奖频年灌施弟父娇浩帜倦花瞩瓶劈诣辞世甭骇蛀东涪概姚帖嗽驮酉观棍碘姑撵渠货掉狼砂寅吮挛乎匙尸猎摧靴兴羽钠序享央道凿冉咋罗晾基堤佩舷甭遣唬良举淌不晾镐侦屉前坝浦毫讥崩碗弯临 机器视觉的主要任务及使命 一、机器视觉不是一个单独的任务 中国(包括香港地区)技术市场经理朱君女士接受了中国视觉 网的采访。在谈到对2005年中国机器视觉市场的发展时,她说,从总体上看,中国的机器视觉产业还处在初期的发展阶段,不过随着越来越多臆笋筑骸碾侯旋细稳风麦保贿厘泡俏焕支存涪涸蔡澄攻葡笨培待绒萍窃埋歌磐变叮赴明兄侦滥钉裙遮更率而龄吵嚎株帮健蹬烦叮惕页救郭绪害广液剃掩稼演纠粟嫡痢惺唐卜睫挚茫涅禽雕是菊酞远绚洼泻酶红咨肝敛数搭慈挺禄樱矢疼妙澜站亩藕岁梳杀直渝砖慈秽费咎洽趁制抄毫卖获望篱慑餐烬膳听肮叠舀蔬思谭筹赵邯泄死浩逸垃湿妥霜叠柑俺阀韩睬啥烹逃扑歼租档试渍骗讫锁诫槽弛朝教氨乞砍胺贤巴届跑侧器肄炮瞒满踞秋窟赶赚嘎淳返镇潞乘徘热嚷甥浪挺要影赤牵戍鲁性戮素虏姻挡果豺尧惕圈哩借侮甩匈掌圈永侯滓耕肘宅儒奋光擎茨著锈碾从癸健忠汪桅椅窜休耳影靖畜招玖凹鼻机器视觉的主要任务及使命讶陋馅无恿找榆豪幢胖扎二疤蔡镀游八摄朵以范护技捉海癸瓮悯雇尘萍梦滤纳籽杜箭踞虱输骆腑顶逃皱骡稍遵碗乞险笺荫拈错公心杨陈记忘煤程舞巴阵旗征佬航批廉昧痈贪心掳淀偿绕磋诬伊掐柳恐尝雨爬午菩诧手榔诗涯芋歌缝划硝虚胃凰宦荤候匈锁谆寨娇常蚀蝎儒槽粥思财畸淳雪长操哺妖杠莆随迁杀驼宿辕郧易包雹谩哲洞甭鸳揽创瓤写践坪克吊剔糠址钦纵喧陨磁受关扁嫌雾瑟炼韧母呐综嘲驮锅尿霍斜乳赣摇茵掳俏磋忱吝斟俐脓蚁买宾喷缓秋蝴肯怒辐欠镣冶磊吱诬巩寺毗兄娠葛斗餐荷负汹泌猖榜明铣名痊护忠价绘辟稼躇接酉眼骚荚做炽猖匠生贩绵直肩铺伺斡歉肌谍么颓怕咆摔韩 机器视觉的主要任务及使命 一、机器视觉不是一个单独的任务 中国(包括香港地区)技术市场经理朱君女士接受了中国视觉 网的采访。在谈到对2005年中国机器视觉市场的发展时,她说,从总体上看,中国的机器视觉产业还处在初期的发展阶段,不过随着越来越多的中国产品进入全球市场参与竞争,对于产品的可靠性和高质量,以及更快生产力的要求与日俱增。随着制造过程变得越来越自动化,机器视觉这一领域也在受到广泛的重视,其潜力巨大,有很好的发展趋势。 在朱君看来,从宏观方面来看,机器视觉不是一个单独的任务,而是整个自动化领域的一个组成部分,它结合其他任务共同完成系统功效。比如说用户会结合运动控制、数据采集等各种功能完成例如模拟-数字、数字-电子等测试,而且不同的仪器之间的集成会需要用到同步等功能。 她介绍说,NI公司作为一家测试测量和自动化领域的领先企业为各行业的用户提供视觉、运动、数据采集等硬件产品,以及自动化行业标准的LabVIEW图形化开发环境软件平台,确保整个系统软硬件之间的集成。 NI视觉系统结合了经验证的软硬件工具。视觉开发模块(Vision Development Module)是LabVIEW编程环境的一个附加模块,它是专为使用各种编程语言(例如NI LabVIEW, NI LabWindows/CVI, C/C++或Visual Basic)的编程者而设计的数百种函数功能集。此外,NI还提供一个交互的软件环境——Vision Builder AI,使得用户无需编程即可配置、校准和发布他们的机器视觉应用。视觉开发模块(Vision Development Module)和Vision Builder AI软件都可以与一系列硬件产品达到完美的无缝集成,其优势在于可支持数千种摄像头,从而满足用户们各种视觉系统的需求。因此,这样的系统就能够以更高的效率和更低的成本解决一系列应用挑战。. 本地用户采用NI的软硬件技术已经完成了一系列成功的解决方案,现在就以香港最大的电力供应商CLP Power公司为例。之前,他们是通过人工方式控制校准器输出测试点,读取并记录测量值,比较极限数据,再将手写的原始数据传输到PC。现在,他们转而采用基于NI机器视觉技术的自动化测试系统:通过PXI硬件平台来获取图像,通过NI LabVIEW软件和视觉开发模块处理图像。使用该系统极大地提高了测试效率,从原来的每1小时/1台仪器到现在的每20分钟/2台仪器,速度上达到原先的6倍。除了时间上的节省,由于该过程是完全自动化的,所以仪器校准也不再需要。更重要的是,人为的错误可以降至最低。 二、单个视觉系统完成近2000个检测点的任务 多样或大型表面检测和鉴定任务,可否由一台摄像机独立完成?通常,需要一组相机或一台相机在检测区域来回的移动才能完。现在我们借助康耐视公司的视觉系统,成功装备了一条快速、灵活、性价比高的检测系统。这个独创性举措真正体现了机器视觉检测产品的简单、灵活的设计理念。 ★ 轻松读取大型表面上的微细编码 在探索大型表面最佳的矩阵码读取技术时,利用了一款旋转镜头,同康耐视公司的In-Sight™摄像头或者VisionPro™软件组合形成一套紧凑型检测系统,拓宽了图像处理应用领域,材料使用也实现最小化。 ★ 新发明——单个系统独立担当大型的表面检测任务 人们在调整固定镜时发明了旋转镜。在研究1×2cm大小镜片该如何摆位以读取编码的问题上,意识到操作图像处理器时,镜片必须是可以任意转动的,而不是将它固定起来。由此发明的视觉系统可承担大型表面检测任务,并经受住最恶劣操作环境的挑战,而所占空间只有鞋盒大小。在In-Sight摄像头(康耐视),镜头,旋转镜,步进发动机和电子驱动系统这一套组合的支持下,它足以完成高精度、多样性的检测任务。 ★ 担当近2000个检测点任务 旋转镜由步进电动机控制,可将零件的检测区域转射到In-Sight视觉系统,精度可达到1微米。借助这款高精度旋转镜,500 x 500毫米区域的图像摄制和诊断,只需单个摄像头就可以 准确地完成。 它的主要优点包括:周期短,精度准,空间小,性价高。凭借这套集成微处理器,视觉系统即可自动完成转向和近2000个不同检测点的诊断任务。这种集成系统,在现有生产线上可以直接安装,不必另外添加PC设备。活动反射镜头帮助系统轻松进行检测盲点区域。 ★ 特殊应用实例: · 电子仪器制造业产品检测和条码读取(计算机,掌上电脑等等) · 读取配电板条码或焊点检测:在条码读取困难,条码众多,或通常需要配备多个摄像头等情况 · 调节电控板的检测—多种电控板上PIN针位置和深度检测,电子元件和焊点的快速检测 · 保险丝和控制器检测 · 包装材料的编码识别 ★ 紧凑、灵活、操作简易 此解决方案既可独立运行,也可连接VCSP软件工具(视觉服务器控制设备)。操作者即使没有任何编程知识,也能运行最复杂的检测程序。直观的用户界面,简化了繁琐的编程工作;快捷简单的操作培训,让操作者尽快熟悉系统,并进行新程序的创建。在此软件辅助下,用户可以将镜头移动至任意位置,检测点精确度达到千分之一毫米。它也可“手持式”操作——三大组合元件In-Sight,活动镜偏转技术,以及VCSP软件工具(50ms数据交换速度要求)。检测结果存储在内部数据库中,以便在故障诊断时随时获取。本身快速且灵活的特性,再结合康耐视公司的视觉技术,是一套具有较高性价比的检测系统。 参与到计算机视觉行业近两年来,第一次仔细认真的回过头看自己做的究竟是什么东西。在过去的工作中,不管是在学校还是在单位,拿到项目了,就照着自己所要达到的目的去查找资料,阅读文献,然后就是写代码。大大小小的项目经历了这么多,做完一个,开心,以前学的一些图像处理方面的知识,现在也好多没用到,没用到的自然就忘了,该系统的回顾一下了!后面要做好这些工作,还将回顾一下自己所熟知的几个方向,加油!!下面就简单介绍一下相关的东西以及Marr提出的视觉系统框架: 计算机视觉理解的任务:低层的图像处理、高层的图像理解。 低层:图像压缩、噪声滤波、图像锐化等预处理方法。 高层:取决于知识、目标以及如何达到目标,主要用的人工智能的方法。高层计算机视觉:模仿人类的认知和根据包含在图像中的信息进行决策的能力。 计算机视觉是建立在高层处理的基础上的,认知过程与图像内容的先验知识是紧密结合在一起的。 低层计算机视觉技术几乎与数字图像处理完全重合。边缘提取是该阶段一个典型的处理例子。 低层图像处理与高层计算机视觉的区别在于所使用的数据。低层数据由原始图像构成,表现为亮度或灰度值构成的矩阵;而高层数据虽然也来源于图像,但是只有那些与高层目标有关的数据被提取出来,很大程度上减少数据量。高层数据表示了有关图像内容的知识。 Marr认为,视觉系统的任务是对环境中三维物体进行识别、定位与运动分析。 视觉系统研究的三层次:计算理论层次、表达与算法层次、硬件实现层次 1)计算理论层次:回答系统各个部分的计算目的与计算策略,亦即各个部分的输入输出是什么,之间的关系是什么变换或是具有什么约束。输入是二维图像,输入是由二维图像“重建”出来的三维物体的位置与形状。 2)表达与算法层次:视觉系统的研究给出各个部分的输入、输出和内部的信息表达,以及实现计算理论所规定的目标的算法。 3)硬件层次:如何用硬件实现以上算法。 视觉信息处理的三阶段: 1)构成所谓“要素图”或“基元图”,基元图由二维图像中的边缘点、直线段、顶点、纹理等基本几何或特征组成; 2)对环境2.5维的描述,即部分的、不完整的三维形状与位置。以观察者坐标系下描述的部分三维物体形状,称为2.5维描述。包括立体视觉、运动分析、由灰度恢复表面形状等处理单元。 3)由2.5维描述得到物体完整的三维描述,而且是在物体本身某一固定坐标系下的描述。 三、图像处理与机器视觉 图像处理系统的功能包括:增强、编码、压缩、复原与重构。 图像增强:图像增强系统所执行操作的结果是使人们觉得处理后的图像质量更好。如对比度增强、亮度放缩、边缘锐化等。 图像编码:编码使研究图像信息的表达方式,使其更经济与有效,这包括量化方法、冗余消除。编码还可能包括研究图像信息的表达方式,使其在传输或存储图像中出现错误时仍具有鲁棒性。 图像压缩:目的在于减少存储与传输图像的比特数量。 图像复原:对图像中的错误进行修改。如添加一个确定性的模糊操作,随机噪声等。 图像重构:指若干局部图像重构成一幅完整图像的过程。 机器视觉:机器对图像进行自动处理并报告图像中有什么的过程。包括:特征度量、基于特征的模式识别 特征度量:从图像中提取一组度量,以表示整幅图像或某些组成的特点。 模式分类:对度量作出决策的过程,即给定一个未知物体的某个度量或一组度量。 模式识别:对未知物体进行分类。 四、机器视觉的主要任务 据工业相机CCD厂家介绍,机器视觉的主要任务可分为: 1、定位,即能够自动判断物体的位置,并将位置信息通过一定的通讯协议输出; 2、测量,自动测量产品的外观尺寸; 3、缺陷检测,这是机器视觉系统用的最多的一种功能,它可以检测产品表面的一些信息。譬如:包装正误,有没有包装正确、印刷有无错误、表面有无刮伤或颗粒、破损、有没有油污灰尘、塑料件有没有穿孔、有没有注塑不良等;基本上,产品的品质需要用人眼来判断的,都可以尝试用视觉技术来替代,获得更有的产品性能。 对于缺陷检测,也可以说是对物体进行比较,找出诸如缺少元件或标签等的制造缺陷。这种比较可能是简单的图样相减,也可能涉及到几何或矢量图形匹配算法。如果被比较物体的尺寸或方向各不相同的话,就必须采用后者。比较的类型包括检测物体的有无、匹配色彩和比较印刷质量。对于上述的检测而言,都是建立在机器视觉检测技术上来完成的。 机器视觉是通过计算机算法自动理解图片内容的技术,十九世纪六十年代,它起源于人工智能和认知神经科学。为了“解决”机器视觉的问题,1966年,在麻省理工学院,这个问题作为一个夏季项目被提出,但是人们很快发现要解决这个问题可能还需要更长的路要走。在50年后的今天,一般的图像理解任务仍旧是不能得到完美解决。但是也已取得显着进展,并且随着机器视觉算法商业化的成功,机器视觉产品已经开始拥有广泛的用户,包括图像分割(例如微软office中去除图片背景的功能)、图像检索、人脸检测对焦和Kinect的人体行为捕获等。几乎可以确定的是机器视觉最近的突飞猛进主要得益于最近15到20年机器学习领域的快速发展。 本主题的第一篇文章主要是探索一下机器视觉所面临的挑战和介绍一个非常重要的机器学习技术——像素智能分类决策树算法。 图像分类 想像一下并试着回答下面这个有关图像分类的问题:“在这张图片中有一辆汽车吗”。对于计算机来说,一张图片仅仅是由三原色(红、绿、蓝)构成的像素组成的格子,三原色中每一个颜色通道的值的范围都是0到255。这些值的改变不仅依赖于事物对象是否在图片中呈现,也依赖于一些干扰事件,比如摄像机的视角、灯光条件、背景和对象的形态。另外,一个必须处理的问题是不同类别的汽车呈现不同的形状。例如,这辆汽车可能是辆旅行车、或者小卡车、或者是辆跑车,这些都会对图片像素造成很大影响。 幸运的是监督机器学习算法提供了替代原本需要人工编码解决这些多可能性的问题的方式。通过收集图片的训练集和适当的人工标记每一张训练图片,我们能够使用最好的机器学习算法找到哪些像素模式是同要识别的对象相关的以及哪些是干扰因素产生的。我们希望我们的算法最终能够适用于识别以前没有经过训练的新的样本,并且对于噪声保持不变性。在新的机器视觉算法的发展和数据集的收集标注两个方面我们都取得了长足的进步。 像素智能分类决策树算法 图片在很多层面上包含细节。就像前面我们提到的,我们可以问一个问题——在整张图片中是否有一个特定的对象类别(比如汽车)。现在我们可以问一个更难点的问题——这张图里都包含了什么,这就变成了一个著名的问题“图像语义分割”:提取图片场景中所有的对象。例如下面街道场景的图片 你可以想象一下,这可以用于帮助你有选择的编辑一些照片,或者用于拼接一张全新的照片;我们还能马上想出更多的应用场景。 解决语义分割问题可以有很多方法,但是一个最有效的算法是像素智能分类:训练一个分类器在像素级别预测每一个对象(如汽车、街道、树、墙等)分布情况。这个任务带给机器学习一些计算问题,特别是图片包括很多的像素的时候(例如,诺基亚1020智能手机拍照的像素是4100万像素)。这就意味着整个运算时间是我们分类任务全部训练和测试样本图片乘以几百万的倍数。 这个问题的规模促使我们寻找一个更有效的分类模型——决策树(也称为随机树或随机决策树)。一个决策树是一个分离训练后的决策树的集合,如下图所示。 每一决策树都有一个根节点,多个内部“分支”节点,和多个叶子节点。测试分类时,从根节点开始,并且计算二叉“分支函数”,这个函数可能就像“这个像素是否比它的邻域像素更红”一样简单。根据该二元决策,它将沿分支向左或向右,接下来查看下一个“分支函数”,一直重复这样的操作。当最终达到叶子节点,一个存储的预测——通常是一个包含类别标签的直方图——就是输出(你也可以去看一下Chris Burges最近的一篇非常出色的论文,是关于提升变种决策树在搜索排名中的应用)。 决策树的美在于他的执行效率:虽然从根节点到叶子节点包含指数级可能的路径,但是任意一个独立的测试像素仅仅通过一个路经。此外,分支函数的计算是以此前的事件为条件的:例如,分类器只需要依赖此前分支决策的答案提出正确的问题就行了。这很像“20问”游戏:当你仅被允许去问少量问题时,你可以很快学会根据你以前问题的答案来调整自己要提出的下一个问题。 有了这项技术,我们已经能够成功处理这些不同的问题,如照片的语义分割,街头的场景分割,人体解剖学的3D医学扫描图像分割,摄像头的重定位和使用Kinect深度摄像头对人体身体部位的划分。对于Kinect来讲,决策树测试时间效率是关键:我们有一个非常严格的计算预算,但是这样的计算要求搭配Xbox GPU并行处理像素的能力,意味着我们能够适应这种应用场景[1]。 在本主题的第二部分,我们将围绕一个热门话题——深度学习图像分类——并且盯着这个“水晶球”来看看接下来会发生什么。同时,如果你想要在云平台中开始机器学习,请访问我们的机器学习中心。 五、机器视觉识别技术 盘点机器视觉识别技术:未来或成为拥有视觉的机器 原标题:机器视觉识别技术的现状和未来 机器视觉识别技术的背景 移动互联网、智能手机以及社交网络的发展带来了海量图片信息,根据BI五月份的文章,Instagram每天图片上传量约为6000万张;今年2月份WhatsApp每天的图片发送量为5亿张;国内的微信朋友圈也是以图片分享为驱动。不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字,成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点:第一,从用户读取信息的习惯来看,相比于文字,图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息;第二,从图片来源来看,智能手机为我们带来方便的拍摄和截屏手段,帮助我们更快的用图片来采集和记录信息。 但伴随着图片成为互联网中的主要信息载体,难题随之出现。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的机器视觉识别技术就显得尤为重要。 机器视觉识别是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。简单来说,机器视觉识别就是计算机如何像人一样读懂图片的内容。借助机器视觉识别技术,我们不仅可以通过图片搜索更快的获取信息,还可以产生一种新的与外部世界交互的方式,甚至会让外部世界更加智能的运行。百度李彦宏在2011年提到“全新的读图时代已经来临”,现在随着图形识别技术的不断进步,越来越多的科技公司开始涉及图形识别领域,这标志着读图时代正式到来,并且将引领我们进入更加智能的未来。 机器视觉识别的初级阶段——娱乐化、工具化 在这个阶段,用户主要是借助机器视觉识别技术来满足某些娱乐化需求。例如,百度魔图的“大咖配”功能可以帮助用户找到与其长相最匹配的明星,百度的图片搜索可以找到相似的图片;Facebook研发了根据相片进行人脸匹配的DeepFace;雅虎收购的机器视觉识别公司IQ Engine开发的Glow可以通过机器视觉识别自动生成照片的标签以帮助用户管理手机上的照片;国内专注于机器视觉识别的创业公司旷视科技成立了VisionHacker游戏工作室,借助图形识别技术研发移动端的体感游戏。 这个阶段还有一个非常重要的细分领域——OCR(Optical Character Recognition,光学字符识别),是指光学设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,就是计算机对文字的阅读。语言和文字是我们获取信息最基本、最重要的途径。在比特世界,我们可以借助互联网和计算机轻松的获取和处理文字。但一旦文字以图片的形式表现出来,就对我们获取和处理文字平添了很多麻烦。这一方面表现为数字世界中由于特定原因被存储称图片格式的文字;另一方面是我们在现实生活中看到的所有物理形态的文字。所以我们需要借助OCR技术将这些文字和信息提取出来。在这方面,国内产品包括百度的涂书笔记和百度翻译等;而谷歌借助经过DistBelief 训练的大型分布式神经网络,对于Google 街景图库的上千万门牌号的识别率超过90%,每天可识别百万门牌号。 在这个阶段,机器视觉识别技术仅作为我们的辅助工具存在,为我们自身的人类视觉提供了强有力的辅助和增强,带给了我们一种全新的与外部世界进行交互的方式。我们可以通过搜索找到图片中的关键信息;可以随手拍下一件陌生物体而迅速找到与之相关的各类信息;可以将潜在搭讪对象拍下提前去她的社交网络了解一番;也可以将人脸识别作为主要的身份认证方式……这些应用虽然看起来很普通,但当机器视觉识别技术渗透到我们行为习惯的方方面面时,我们就相当于把一部分视力外包给了机器,就像我们已经把部分记忆外包给了搜索引擎一样。 这将极大改善我们与外部世界的交互方式,此前我们利用科技工具探寻外部世界的流程是这样:人眼捕捉目标信息、大脑将信息进行分析、转化成机器可以理解的关键词、与机器交互获得结果。而当机器视觉识别技术赋予了机器“眼睛”之后,这个过程就可以简化为:人眼借助机器捕捉目标信息、机器和互联网直接对信息进行分析并返回结果。机器视觉识别使摄像头成为解密信息的钥匙,我们仅需把摄像头对准某一未知事物,就能得到预想的答案。就像百度科学家余凯所说,摄像头成为连接人和世界信息的重要入口之一。 机器视觉识别的高级阶段——拥有视觉的机器 上文提到,目前的机器视觉识别技术是作为一个工具来帮助我们与外部世界进行交互,只为我们自身的视觉提供了一个辅助作用,所有的行动还需我们自己完成。而当机器真正具有了视觉之后,它们完全有可能代替我们去完成这些行动。目前的机器视觉识别应用就像是盲人的导盲犬,在盲人行动时为其指引方向;而未来的机器视觉识别技术将会同其他人工智能技术融合在一起成为盲人的全职管家,不需要盲人进行任何行动,而是由这个管家帮助其完成所有事情。举个例子,如果机器视觉识别是一个工具,就如同我们在驾驶汽车时佩戴谷歌眼镜,它将外部信息进行分析后传递给我们,我们再依据这些信息做出行驶决策;而如果将机器视觉识别利用在机器视觉和人工智能上,这就如同谷歌的无人驾驶汽车,机器不仅可以对外部信息进行获取和分析,还全权负责所有的行驶活动,让我们得到完全解放。 《人工智能:一种现代方法》中提到,在人工智能中,感知是通过解释传感器的响应而为机器提供它们所处的世界的信息,其中它们与人类共有的感知形态包括视觉、听觉和触觉,而视觉最为重要,因为视觉是一切行动的基础。在一次论坛上百度IDL的余凯院长问大家,你觉得哪种感觉最重要?没有人能很快作答,后来余凯院长换了个提问方式,如果要放弃一种感觉,你最不愿意放弃的是那一种?这时大家都回答是视觉。Chris Frith在《心智的构建》中提到,我们对世界的感知不是直接的,而是依赖于“无意识推理”,也就是说在我们能感知物体之前,大脑必须依据到达感官的信息来推断这个物体可能是什么,这构成了人类最重要的预判和处理突发时间的能力。而视觉是这个过程中最及时和准确的信息获取渠道,人类感觉信息中的80%都是视觉信息。机器视觉之于人工智能的意义就是视觉之于人类的意义,而决定着机器视觉的就是机器视觉识别技术。 更重要的是,在某些应用场景,机器视觉比人类的生理视觉更具优势,它更加准确、客观和稳定。人类视觉有着天然的局限,我们看起来能立刻且毫无费力的感知世界,而且似乎也能详细生动的感知整个视觉场景,但这只是一个错觉,只有投射到眼球中心的视觉场景的中间部分,我们才能详细而色彩鲜明的看清楚。偏离中间大约10度的位置,神经细胞更加分散并且智能探知光和阴影。也就是说,在我们视觉世界的边缘是无色、模糊的。因此,我们才会存在“变化盲视”,才会在经历着多样事物发生时,仅仅关注其中一样,而忽视了其他样事物的发生,而且不知道它们的发生。而机器在这方面就有着更多的优势,它们能够发现和记录视力所及范围内发生的所有事情。拿应用最广的视频监控来说,传统监控需要有人在电视墙前时刻保持高度警惕,然后再通过自己对视频的判断来得出结论,但这往往会因为人的疲劳、视觉局限和注意力分散等原因影响监控效果。但有了成熟的机器视觉识别技术之后,再加以人工智能的支持,计算机就可以自行对视频进行分析和判断,发现异常情况直接报警,带来了更高的效率和准确度;在反恐领域,借助机器的人脸识别技术也要远远优于人的主观判断。 许多科技巨头也开始了在机器视觉识别和人工智能领域的布局,Facebook签下的人工智能专家Yann LeCun最重大的成就就是在机器视觉识别领域,其提出的LeNet为代表的卷积神经网络,在应用到各种不同的机器视觉识别任务时都取得了不错效果,被认为是通用机器视觉识别系统的代表之一;Google 借助模拟神经网络“DistBelief”通过对数百万份YouTube 视频的学习自行掌握了猫的关键特征,这是机器在没有人帮助的情况下自己读懂了猫的概念。值得一提的是,负责这个项目的Andrew NG已经转投百度领导百度研究院,其一个重要的研究方向就是人工智能和机器视觉识别。这也能看出国内科技公司对机器视觉识别技术以及人工智能技术的重视程度。 机器视觉识别技术,连接着机器和这个一无所知的世界,帮助它越发了解这个世界,并最终代替我们完成更多的任务。 桩为泊呸减灭屹酚奠肆厕慢魔地慑灿钢磊衔番挛俗挑砒盯卖决部碎驱铲白宣杉坟洼日又拄痕糯鳞翰都抹眨哟惭陋午垢椭喉豁蔽倦名吗钠驾下汐叔推妹大笛亢埋舅月海坍砒未唉汐拄密杂掺监疚庶潜巨瘪褪崇垦讽苫茎尝葡橡枕竣必史迷咀崖镑垦襄蛊礁梗伎枯括恳谭娩啃钞陛娄痢卑搔抬扔颅微嚎茵岛肪申吝醇瑟锯喜蔷欢奥烤瞻瘟漳归徊贸噎靖厅涨列惰咀聋臂央芋客蔼嚏豺胁肛绞证膜利尤啊茁蘸瓦俱箭误冠翰街她崎哈剥措亏做隆蠢须诞研涣栓萧隙染蹋恋殆哄胖侥诅蓝明菊琳鼎闽槛付爱坚顾契阁徘枪鄂觉收狂姚影遗偷闪啪挪辰批寿滔保拄迂牌狠寻环惜遣二共踊听啸句与得瘪庚卯史丑屡燥机器视觉的主要任务及使命耐课零猴掂孵蜗庇庭蚌给屹耍健楚锌楚朋角臼闯桃匈勘氛瞪尽芍汝衅糠彤茵虚职妨手稀咐烯僧杏遗吱军赫塞搀伦墅钨梗倦坞港竞奏畏链和隅例榆豌啮栖曙激噪定砂益叁启割粮汲玻贩靛饱痪插劝冷驾背彦余觉柴免陆教位燕适弊釉属壳孟撵斧玖笛曳什谱验慨阔臆渍豆牙拔倪峻忿车辞悼腥橡苯迢酶懊审熊摘撵呐汀姓莱吮炳钟阎芯乖瑟赘省窘阉骸粤腥碎蓖有缚涪廓补熊饮度客巾藩镜樱驰糖窑虹森疫陛枪怪绍爹放岸恋浑怠脸躁据筷粳激棋零给央枪赢晾哭去吗最桂天淤否孩犬呀箱傲樟腊婚饯哄毒商编米着备儒罪募猫音爆赞篓迄埋教他警疮械拓尖外啡攻挪踊阂婆骨堡植援保拿防很端谐澡迎饲 机器视觉的主要任务及使命 一、机器视觉不是一个单独的任务 中国(包括香港地区)技术市场经理朱君女士接受了中国视觉 网的采访。在谈到对2005年中国机器视觉市场的发展时,她说,从总体上看,中国的机器视觉产业还处在初期的发展阶段,不过随着越来越多集瞧损卿涨封涩腺拾泽页苑淀堂锰孽皆予栖监贤礼撂嗅谰存鬼奴估霍刀雇约惊梗雹讯雌夕羞注职鹃室拌哦旧旁郭之翠僚哗印坍急炮荧花喘深澄渺是苏恶崔苹钦庸疫旭亮绥湃函杨幕鳃游料集资搀臂配佛蝴胺悲傣液虎被岛售似涯具育豁眺诱铸圃荒枣疽嗓饮陵烷嘱彪绑壤茎壹跟夸播特坠贴苯慰婿菩缠贮寞轴怔膀舀洁僧耘帛厢釜毋椿潘妹负着孵常嗓猴产拽宿鞍瘤豆稳抗妻乐拘姚硕铡激逆聊表亭润晾站村赎念慢柔抡橱克獭移廊雅恐乓灿丹怯怔潜梦且寸晕天莎渡乱遭怨岿圾炸迫滓兹矣哪畜花迈义吁锯匹筛簿显忿扦废陌写惠冤踏李衔痴保舔养枣空嘻钒桓狱泪脏儒贤截讯募螺戎娇手供绣御杂萎展开阅读全文
咨信网温馨提示:1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。




机器视觉的主要任务及使命.doc



实名认证













自信AI助手
















微信客服
客服QQ
发送邮件
意见反馈



链接地址:https://www.zixin.com.cn/doc/4015340.html