智能语音行业发展分析报告(终).doc
《智能语音行业发展分析报告(终).doc》由会员分享,可在线阅读,更多相关《智能语音行业发展分析报告(终).doc(35页珍藏版)》请在咨信网上搜索。
人工智能与语音识别行业分析报告 序言 人工智能的发展近50年来得到了明显的提高,其交融了诸多学科。人工智能的研究在历史上分为结构派和功能派。结构派也成为仿生学派或者生理学派,他们认为人工智能既然是使机器具有人的智能,就应基于人的大脑模型的研究,至今仍处于研究阶段。功能派也称计算机派或者心理学派,他们认为计算机本身就具有数学逻辑演绎功能,表明了可以应用计算机研究人的思维活动,模拟人类智能活动。功能派的研究分析将作为本文对人工智能分析的重点。 人工智能所涉猎的应用领域是非常广泛的,主要有以下几个方面:1、问题求解;2、逻辑推理与定理证明;3、自然语言理解;4、自动程序设计;5、专家系统;6、机器人学。除上述这些研究领域之外,人工智能还有许多方面的应用研究,如机器学习、模式识别、智能控制及检索、机器学习及视觉、智能调度与指挥等等。 语音识别的研究工作主要开始于二十世纪五十年代,从智能语音技术的发展历程来看,应用的技术推动力主要是语音技术核心算法和计算机芯片技术。语音合成技术在2000年时已达到用户基本可接受的准实用水平,2005年开始获得了较为广泛的应用。未来语音合成技术将从清晰度和自然度的要求上升至对个性化合成的要求,如对语音、语调、情绪的丰富性要求等。语音识别技术主要包括语意识别和声纹识别。语音识别在技术原理上主要采取匹配识别和检测识别两种识别方式,关键技术包括选择识别单元、特征参数提取、声学模型及语言模型的建立等。语音识别技术目前在桌面系统、移动设备和嵌入式领域均有一定程度的应用,未来的发展方向应是无限词汇量连续语句非特定人语音识别系统。 综合考虑目前的人工智能和语音识别与语音合成技术的能力和客户接受度,目前企业级市场、车载语音市场、移动终端市场及教育娱乐市场有望在未来率先实现突破。我国目前呼叫中心语音市场刚刚启动,市场规模在其后有快速增长;车载语音识别系统市场出现快速增长,市场规模有望从2009年的6430万美元提升至2014年的2.1亿美元,年均复合增长率约为26.7%;而移动终端语音市场和教育娱乐语音市场也同样有较大发展潜力。目前,高技术壁垒形成寡头垄断竞争格局。 智能语音技术是人工智能的研究领域之一,其技术原理涉及声学、语言学、数字信号处理、计算机科学等多个学科,同时智能语音技术的研究周期长、投入大,使得智能语音行业具有较高的进入壁垒。在全球范围内,目前已形成寡头垄断竞争格局,仅有Nuance、IBM、微软、Google、科大讯飞等少数厂商具备较强竞争力。 目录 第一章 人工智能的概述 - 3 - 1.1 人工智能发展史 - 3 - 1.2 人工智能的分类 - 5 - 1.3 人工智能应用与发展 - 6 - 第二章 人工智能的应用 - 7 - 2.1 人工智能技术在网络电脑中的应用 - 7 - 2.2 因特网上的人工智能教育资源 - 9 - 2.3 人工智能在虚拟克隆人方面的发展 - 12 - 第三章 语音识别行业概述 - 14 - 3.1 语音识别技术的发展史 - 14 - 3.2 语音识别技术的概述 - 15 - 3.3 语音识别面临的问题与未来发展 - 16 - 第四章 智能语音技术概述 - 18 - 4.1 智能语音技术简介 - 18 - 4.2 语音合成技术简介 - 19 - 第五章 智能语音市场分析 - 23 - 5.1 企业级语音市场加速发展 - 24 - 5.2 车载语音市场规模大幅提升 - 25 - 5.3移动终端市场分析 - 26 - 5.4教育和娱乐市场分析 - 27 - 第六章 智能语音行业竞争分析 - 30 - 6.1 市场竞争格局分析 - 30 - 6.2 竞争产品举例--SIRI(IPHONE 4S) - 31 - 第一章 人工智能的概述 1.1 人工智能发展史 人工智能(Artificial Intelligence), 英文缩写为 AI, 是一门综合了计算机科学、生理学、哲学的交叉学科。人类之所以能够有智慧是由于数十亿个脑细胞不同的组织在一起工作,它们每一个都有不同的分工,这是天生的,而对于人工智能来说,我们需要让组成机器的电线像我们的脑细胞一样学会自己分工。1950年,英国科学家图灵曾在一篇名为《计算机器与智能》的论文中提出一个简单的判断标准,这就是著名的图灵测试:让人和机器分别位于两个房间,他们只可通话,不能相互看见。通过对话,如果人无法判断另一方是人还是机器,那么这台机器就可认为是有智能的。 世界各地对人工智能的研究很早就开始了,但对人工智能的真正实现要从计算机的诞生开始算起,这时人类才有可能以机器的实现人类的智能。AI这个英文单词最早是在1956年的一次会议上提出的。经过这几十年的发展,人工智能正在以它巨大的力量影响着人们的生活。1941年由美国和德国两国共同研制的第一台计算机诞生了,从此以后人类存储和处理信息的方法开始发生革命性的变化,计算机编程变得十分简单,计算机理论的发展终于导致了人工智能理论的产生,解决了存储信息和自动处理信息的方法。 在1955的时候,香农与人一起开发了The Logic Theorist程序,它是一种采用树形结构的程序,在程序运行时,寻找与可能答案最接近的树的分枝进行探索,以得到正确的答案。这个程序在人工智能的历史上可以说是有重要地位的,它在学术上和社会上带来的巨大的影响,以至于现在所采用的方法思想方法有许多还是来自于这个50年代的程序。1956年,作为人工智能领域另一位著名科学家的麦卡希召集了一次会议来讨论人工智能未来的发展方向,从此人工智能的名字才正式确立,这次会议在人工智能历史上不是巨大的成功,但是这次会议给人工智能奠基人相互交流的机会,并为未来人工智能的发展起了铺垫的作用。在此以后,人工智能的重点开始变为建立实用的能够自行解决问题的系统,并要求系统有自学习能力。在1957年,香农和另一些人又开发了一个程序称为General Problem Solver(GPS),它对Wiener的反馈理论有一个扩展,并能够解决一些比较普遍的问题。别的科学家在努力开发系统时,某位(我记不清楚名字了,毕竟是外国人)科学家作出了一项重大的贡献,他创建了表处理语言LISP,直到现在许多人工智能程序还在使用这种语言,它几乎成了人工智能的代名词,到了今天,LISP仍然在发展。 在1963年,麻省理工学院受到了美国政府和国防部的支持进行人工智能的研究,其后发展出的许多程序十分引人注目,麻省理工大学开发出了SHRDLU。在这个大发展的60年代,STUDENT系统可以解决代数问题,而SIR系统则开始理解简单的英文句子了,SIR的出现导致了新学科的出现:自然语言处理。在70年代出现的专家系统成了一个巨大的进步,他头一次让人知道计算机可以代替人类专家进行一些工作了,由于计算机硬件性能的提高,人工智能得以进行一系列重要的活动,如统计分析数据,参与医疗诊断等等,它作为生活的重要方面开始改变人类生活了。在理论方面,70年代也是大发展的一个时期,计算机开始有了简单的思维和视觉,同时在70年代,另一个人工智能语言Prolog语言诞生了,它和LISP一起几乎成了人工智能工作者不可缺少的工具。一直到70年代末形成的各种理论和相应的技术奠定了人工智能的基础。 1.2 人工智能的分类 人工智能的研究在历史上大致分为两大派别:结构派和功能派。结构派也称仿生学派或者生理学派,他们认为人工智能既然是使机器具有人的智能,就应基于人的大脑模型的研究。他们依据1943年由生理专家 McCulloch和数理逻辑学家Pitts创立的脑模型,即MP模型,开创了用电子装置模仿人脑结构和功能的新途径。这一研究方法也叫做“白箱”,即从对结构的了解出发,从大脑的神经元开始,进而研究神经网络模型和脑模型,提出用计算机硬件模拟神经网络,并提出多层网络中的反向传播算法,由此,从模型到算法,从理论分析到工程实现,为神经网络计算机(第六代计算机)的研制打下了基础,开辟了人工智能的又一发展道路。这一派别的研究工作面临的问题在于如何制作具有人脑模型的计算机,而人脑结构本身就非常复杂,至今生理学界、医学界还无法彻底搞清,建立脑模型是一项非常复杂而艰巨的工作,至今仍处于研究阶段。但是,这一派别的指导思想是从问题的本质出发,因此它决定了今后人工智能的研究和发展方向。 功能派也称计算机派或者心理学派,他们认为计算机本身就具有数学逻辑演绎功能,表明了可以应用计算机研究人的思维活动,模拟人类智能活动。他们不像结构派那样绞尽脑汁去研究脑模型,而是利用目前的计算机,从解决具体问题出发,只要能够获得问题的正确求解。这一研究方法也叫做“黑箱”,即只基于考查外部的输入和输出,只关心最后得出的结论正确与否。他们研究人工智能的领域是非常广泛而且是行之有效的,从启发式算法到专家系统再到知识工程理论与技术等等,并在80年代取得很大发展。 1.3 人工智能应用与发展 人工智能所涉猎的应用领域是非常广泛的,主要有以下几个方面: 一、 问题求解。 如不断开发了能够求解难题的下棋程序,如国际象棋。在下棋程序中应用的某些技术,如向前看几步,把复杂的问题分解成一些比较容易的子问题等等,均发展演变为搜索和问题归纳这样的人工智能基本技术。目前,该项目技术发展很快并且惊人,美国IBM公司的一台名为“深蓝”的计算机与国际象棋大师卡斯帕罗夫对弈获得了胜利。这一事件,使世人惊呼“机器智能是否已达到或超过了人类智能。 二、 逻辑推理与定理证明。 逻辑推理与定理证明是指不断开发能够对某些问题或事物进行推理证明的程序,就如同证明或推导数学公式一样,这些程序能够借助于对事实数据库的操作来证明和作推理判断。 三、 自然语言理解。 目前已经开发出能够从内部数据库回答语音提出的问题的程序,这些程序通过阅读文本材料,还能够把其中的句子从一种语言翻译为另一种语言,执行用语音给出的指令和获取知识等等。 四、 自动程序设计。 自动程序设计这项研究的目的在于,使计算机自身,能够根据各种不同目的和要求来自动编写计算机程序,即可用高级语言编程,还可用英语描述算法。目前已经可以自动编写出一些简单的程序。 五、专家系统。 一般来说,专家系统是一个智能计算机程序系统,其内部具有大量专家水平的某个领域知识与经验,能够利用人类专家的知识和解决问题的方法来解决该领域的问题。换而言之,专家系统是一个具有大量专门知识和经验的程序系统,它应用人工智能技术,根据某个领域一个或多个人类专家提供的知识和经验进行推理和判断,模拟人类专家的决策过程,以解决那些需要专家决定的复杂问题。目前,这一领域的应用是相当广泛的,如医疗诊断,建筑工程设计,化学和地质数据分析等等,其质量已达到很高水平。 六、 机器人学。 机器人学是人工智能研究的一重要领域,其中包括对操作机器人装置程序的研究。这个领域所研究的问题,包括从机器人手臂的最佳移动到实现机器人的目标动作序列的规划方法等等。目前,已经制造出成千上万个机器人,主要用于工业生产和军事用途上。在工业生产方面,其智能水平普遍不高,如顺利地通过周围环境,操作电灯开关、玩具积木及餐具等物品,一个小孩就能很容易的做到,但设计一个能完成上述操作任务的机器人则很难。因此开发高智能机器人是一个重要研究方面。 除上述这些研究领域之外,人工智能还有许多方面的应用研究,如机器学习、模式识别、智能控制及检索、机器学习及视觉、智能调度与指挥等等。这些领域的研究成果辉煌,使人叹惊,相信随着全球性高科技的不断飞速发展,人工智能这一学科会更加日臻完善。 然而,任何新生事物的成长都不是一帆风顺的。人工智能自1956年问世以来,就引起人们的争议,在社会上对人工智能的科学性有所怀疑,对人工智能的发展产生恐惧心理。甚至还有些人把人工智能视为异端邪说,因此,人工智能也是在比较艰难的环境中顽强地拼搏与成长的。尽管如此,真正的科学与任何其它真理一样,是永远无法压制的。40多年来,人工智能获得很大发展,它引起众多科学的日益重视,已成为一门广泛的交叉和前沿科学。 第二章 人工智能的应用 2.1 人工智能技术在网络电脑中的应用 人工智能在网络电脑应用的基本特征就是参与、互动、分享;参与是指网站的内容由大家提供,互动是指网站会员之间的互动、会员与公众的互动,其基本形态是朋友圈、文章评注等;分享是指大家收藏的内容进行各种形式的输出、交换,使内容的价值最大化。 音乐、图片、文章等都是大家有收藏需要的内容,这些内容和大家的生活、工作、爱好、回忆等息息相关。如何将这些内容有效地组织管理起来,使之成为真正的社会知识财富是人工智能的应用一个方面。目前,对内容的组织管理手段主要就是分类,一是目录分类,二是tag分类(标签分类)。要解决信息获取的准确性问题,只在宏观和中观层面进行分类思考是不行的,必须进入语义理解层面才行,做到这一点,资料库才能真正变成知识库,也才能对后续的互动、分享提供更智能化的支持。 互动,常规的交友、评注完全是人工行为,基本效果是不错的,但在很多情况下却不能解决问题。如果使用上述的宏观语义理解技术,这个问题就可以得到很大程度上的解决;每个人的收藏兴趣是通过你已经收藏的内容体现的,特别是收藏的内容达到一定量级后这种体现就会非常准确;要找自己的“志同道合”者前提是自己要收藏一定数量的内容,然后以自己的收藏兴趣为条件让系统自动为你查找和你的收藏兴趣最接近的人就行了。有了这个功能,当你想建一个朋友圈时,当你想认识一些好朋友时,你就可以方便地找到大量的同兴趣的候选者,有效解决互动对象的选择问题。 现在的分享手段和途径主要有:内容订阅(带tag过滤)、人工推荐、Tag标记、RSS输出、JavaScript输出、API调用等,除tag手段外,其它的手段都和内容本身无关,只是提供了一种纯碎的技术手段,而tag方式在前面也说过,仅仅解决了粗粒度的宏观和中观内容过滤,准确性不够。如果使用上述的宏观语义理解技术,内容分享的准确性就会得到极大提高,基本应用思路是根据每个人的自动收藏兴趣由网站自动为其推荐新文章,实现个性化的自动按需推荐,使大家之间的内容分享活动自动“跑”起来,并彻底解决垃圾推荐的难题。 人工智能技术及其应用方式和传统的Web2.0技术及应用方式是很好的补充关系,只有将两者有效地结合在一起才能创造更大的应用价值,才能给网民大众带来更好的应用体验。 目前所知,只有一个叫[360doc个人图书馆]()的Web2.0网站应用了这项人工智能技术,主要在4个方面进行了应用:1、自动给文章生成简洁、准确的摘要;2、自动在文章之间建立基于内容的相关性连接;3、自动根据个人的收藏兴趣为其推荐新文章;4、根据自己的收藏兴趣查找“志同道合”者。 上述所说的人工智能主要部分是语义理解这一部分,与这一部分有最大关联的主要是搜索服务的提供商,google的论坛部分在一定程度上正在采用这种思路运作,只是现有的服务提供可能在便利程度上还不能达到,特别是针对中文系统的辐射更加薄弱。 目前,有一个比较明朗的方向就是能够提供一个基于兴趣爱好的内容丰富的可定制的平台。一个以个人主页(博客、微博、facebook等)为基底的可以便捷的寻找到个人兴趣的操作平面,显然在这一点上无论社区还是门户网站的现有结构和操作界面都不能适应这一要求,随身浏览的功能被实际的情况抑制。同时我们看到个人主页这样比较"规范"的界面可以很好的充当操作平面的功能,只是现在个人主页本身结构功能还比较简单,只要针对个人主页现在的界面进行部分改造就可以逐步向这个方面过渡。 针对于社区本身具有的优势是论坛栏目分类本身已经对于信息进行了一种分捡,各栏目内部又有一定的分类,这对于内容检索来说具有相当的好处,事实上如楼主所说的图书网站为什么能够比较好的应用这种"人工智能"技术的一个主要原因就是"图书"行业本身就具有比较好的分类检索系统,这对于语义识别是具有相当帮助的,相当于给语义识别检索加上了一个很好的辅助检索标准,这是具有相当意义的。 2.2 因特网上的人工智能教育资源 因特网上丰富的人工智能教育资源为我国高中人工智能教育的开展提供了一个强有力的学习支持。虽然大多以国外网站居多,但教师若能结合本校实际情况和学生的特点对其合理利用,使之本土化、校本化,无疑能够有效地促进人工智能教育的顺利开展。 课程标准中规定“人工智能初步模块”由3部分内容组成:知识及其表达,推理与专家系统,人工智能语言与问题求解。下面将主要围绕这三个主题,列举几个与人工智能教育相关的有代表性的资源网站。 1. 人工智能研究者俱乐部 (网址: 这是为人工智能研究者提供的一个适合思想交流,技术切磋和资源互享的虚拟空间,主要由综合讨论、兴趣小组(当前包括机器人制作和语音识别两个方面)、资源共享、分类讨论(针对人工智能的不同组成模块开辟独立的讨论组)和网站联盟几个模块组成。内容更新快,资源丰富,可为开展人工智能教育的教师和学生提供该领域的实时发展动态和教学参考信息。 2. 浙江大学远程教育网络课程《人工智能基础》 (网址http://202.205.144.112/) 这是国内教育资源的最大提供者——高等教育出版社,在全国抗击“非典”时期,为了更好地服务于高等学校的教育,向高校师生提供的一门优质的网络教学课程。它从工程应用的角度系统地介绍了人工智能的基本原理、方法及其应用技术,并全面反映了国内外研究和应用的最新进展。全课程分三个部分:绪论,基础篇和提高篇,分别适合不同学习阶段的学生使用。 3. 美国人工智能协会 (American Association for Artificial Intelligence网址: http://www.aaai.org/) 美国人工智能协会(AAAI)成立于1979年,是个非盈利性的科学社团组织,主要致力于让机器产生智慧思考和智能行为的研究。此外,提升公众对人工智能的理解,对人工智能实践人员的教学和培训,为人工智能领域的研究者和投资者提供指导等也都是AAAI的实践内容。AAAI主要活动包括组织和创办研讨会,座谈会和主题论坛;为所有会员发行季刊杂志,出版著作,会议录和技术报告;为在人工智能领域作出贡献的会员及有发展潜力的学生授予荣誉和奖学金等。 4. 美国计算机协会学生杂志《十字路口》 (ACM Crossroads Student Magazin网址:http://www.acm.org/crossroads/) 这是美国计算机协会的第一个电子出版物,主要为学生服务。读者可以通过不同的索引方式来查找网站内的所有文章和作品,例如,通过作者姓名,出版期号,专栏名称,文章主题,相关图片,专题评论,每周民意调查等。该网站鼓励世界上所有的学生都能主动参与到这个网站的建设中来,积极担任每期的学生作者、艺术设计,评论员或学生联络员,以共同推动《十字路口》电子杂志的发展。 5. 人工智能教育知识库 (AI Education Repository网址:http://www.cs.cofc.edu/~manaris/ai-education-repository/index.html) 该网站收录了关于人工智能教材、教学大纲和教学设计范例等方面的信息,并且提供了与人工智能相关的教育论文,各主题的在线教程,适合课堂或实验室教学的工具软件和环境,以及方便用户相互交流人工智能教育心得与经验的虚拟空间。 该网站的所有资源通过两种方式来组织,第一种把资源从总体上分类,由人工智能教材信息、人工智能课程教学大纲、适合课堂或实验室教学的人工智能教育工具、其他相关资源四大部分构成。第二种把资源按照特定主题来分类,包括专家系统,模糊逻辑、知识表示、逻辑与推理、自然语言处理、神经网络、机器人、搜索和博弈、计算机视觉及其他相关主题,每一个主题都由概要、教程、工具和资源四个模块组成。 6. 专家系统eXpertise2Go网站 (网址: 专家系统是人工智能课程的重要组成内容。高中阶段对专家系统掌握的要求仅限于能演示或使用简单的产生式专家系统软件,以对专家系统有个感性认识;能使用一个简易的专家系统外壳来自行开发简单的专家系统。eXpertise2Go是个基于网络的专家系统网站,它提供了多个面向用户基于规则的专家系统实例,诸如,在线“PC产品顾问”,汽车故障自动诊断助理,银行放贷决策助理,数据分析技术助理等。此外,该网站还提供免费的e2gLite专家系统外壳下载,并且有在线教程,通过介绍专家系统的基本概念,基于规则的推理,对不确定事实的表示和处理及对什么是知识引擎的介绍到引导用户设计并创建自己的知识库,最后利用e2gLite专家系统外壳开发自己的专家系统。 7. 人工智能语言Visual Prolog学习网站 (网址:http://www.visual- Visual Prolog是一种功能强大的人工智能逻辑编程语言,由Prolog开发中心设计,至今已发展到6.0版本。Visual Prolog网站更新速度快,资源丰富。目前该网站提供了由Visual Prolog开发的实例演示,Visual Prolog个人版的软件下载,在线教程,知识库,常见问题解答等栏目。 2.3 人工智能在虚拟克隆人方面的发展 人们花了大量的时间希望可以将人性搬到网络上去,它是对未来发展的一种尝试。当你不在线的时候,聊天机器人可以自动回答关于你的问题。说起人工智能就肯定要谈到上个世纪六十年代的第一个虚拟人物Eliza中采用的人工智能技术。 Eliza是麻省理工学院人工智能专家约瑟夫韦珍鲍姆在1966年模仿罗杰斯精神治疗医师而编写的一个文字聊天程序。如果你对Eliza说:“我今天感觉有些不舒服。”那么她很快就会回应你:“你是否乐意今天感到不舒服?”对于现代人来说,这个回应显然会立即让对方掉头而去。然而,使用Eliza软件的许多人都相信或者至少暂时相信他们是在与真人对话。 现在,有一种新服务可以让你自己设置Eliza并训练它,让它模仿你自己的个性。没有人会误以为它就是你,但是近年推出的MyCyberTwin却可以在你不在的时候帮你做很多事情。如果你将cybertwin内置到博客、网站或者MySpace档案中,访问者就可以通过会话了解你。 你可以将各种实际资料和个性资料设置到你的cybertwin中。如果你认为访问者可能会问你“星期六你打算做什么?”这样的问题时,你可以训练它回答“我打算与朋友一起去看哈里波特,你也一起来吧。 目前MyCyberTwin还是一项免费的服务,它是由澳大利亚悉尼的一家名为RelevanceNow的公司推出的,虽然现在它还处于测试阶段,但是已经拥有1.05万余名用户。 当然,这个概念还是一个全新的概念。你的cybertwin与Eliza一样,其核心中并没有真正的智能,如果你没有设定好各种问题的回答,它自己是不会回答的。 然而,MyCyberTwin网站还提供了许多扩展工具来帮你预测各种可能的提问,比如人格测试、你对性、政治和宗教的观点等。那些工具也都是免费的。 RelevanceNow打算通过向会话使用量很大的用户比如商业公司收取会话费的方式来营利,将MyCyberTwin授权给社群网站后,也许以后可以通过它为用户提供有针对性的网络广告。 3.4 HCI人机交互 人机交互 CHI(Computer Human Interaction),国际上也称(HCI,Human Computer Interaction)是一门跨学科的研究,它的研究内容很广,包括心理学领域的认知科学,心理学;软件工程领域的系统构架技术;信息处理领域的语音处理技术和图像处理技术;人工智能领域的智能控制技术等。总的来说,人机交互本质上是认知过程,人机交互理论是以认知科学为理论基础;人机交互系统是一个闭环系统,人机交互研究是以系统科学作为人机交互研究的框架的方法学;同时,人机交互是以信息技术作为用户界面的技术基础,通过信息系统的建模、形式化描述、整合算法、评估方法以及软件框架等信息技术最终实现和应用人机交互理论。HCI主要包含五个方面的主题 :人机交互的特性;计算机的相关性;人的特性;计算机系统和界面架构;系统开发的规范和过程。 第三章 语音识别行业概述 3.1 语音识别技术的发展史 语音识别的研究工作大约开始于20世纪50年代,当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。 60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划(DP)和线性预测分析技术(LPC),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 70年代,语音识别领域取得了较大进展。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展,语音识别的问题逐步在理论体系上得到了比较完整和准确的描述,同时在实践上又逐步研发出效率较高的解决算法。 进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的 ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。 进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。 我国语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。 3.2 语音识别技术概述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向。 从语音识别的流程处理来看,语音识别系统同样可以分成前端和后端两部分:前端处理音频流,从而分隔出可能的发声声音片段,并将它们转换成一系列能够用计算机表示的数值;后端是一个专用的搜索引擎,它获取前端产生的输出并对三个数据库(声学模型、语言模型和词典)进行搜索解码,并给出最终的识别结果。语音识别的步骤可分为三步:第一步是根据识别系统的类型选择识别方法,分析出所需要的语音特征参数,并将这些参数作为标准模式由机器存储起来,形成参考模式库;第二步是语音识别的核心,采用选择的语音识别方法进行模式匹配,具体内容又可分别表现为模型的建立、训练和识别三个部分;第三步,语音识别系统可以进行识别后处理,识别后处理通常是一个音字转换过程,有可能包括更高层次的词法、句法和文法处理,另外也可以作为某个具体任务的语法输入。 语音识别主要的技术评价指标包括:识别内容限制(连续语句还是命令词)、识别词语容量(孤立词还是大词汇量)、识别正确率、识别使用人员限制(针对特定人还是不限定使用者)、鲁棒性(使用者口音适应能力、抗环境噪声能力)。按照最为重要的指标识别内容限制进行划分,语音识别技术可分为大词汇量连续语流识别技术和命令词语音识别技术。命令词语音识别技术作为现在应用最为广泛的语音识别技术,按照应用场景和核心性能可分为电话命令词语音识别技术和嵌入式命令词语音识别技术。中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高,这些技术已经能够满足通常应用的需要。 3.3 语音识别面临的问题与未来发展 目前的语音识别技术并不完美,其主要局限有:(1)语音识别对环境依赖性较强,在某种环境下采集到的语音训练系统只能在该环境下应用,否则系统性能将急剧下降;(2)Lombard 效应导致高噪声环境下的语音识别困难,由于高噪音环境下人的发音变化很大,如声音变高、语速变慢等,这些变化导致音调及共振峰的变化,从而使得语音识别的准确度显著降低;(3)系统的适应性差,主要表现在语音识别系统的性能受许多因素影响,如不同的说话人、说话方式、环境噪音、传输信道等,由于训练与识别环境的差异,同一个识别系统对于不同的用户、不同的使用需求、不同的声学环境下性能差异可以达到30%,使得语音识别技术的应用范围受到很大限制。 语音识别技术未来可能的发展方向有两个:(1)语言模型从概率模型向以语言学为基础的文法模型转变,要使计算机真正理解人类的自然语言,就必须在这一点上取得进展,同时随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法、自适应算法等将有进一步改进的可能;(2)人工神经网络(ANN)技术在语音识别领域有可能实现突破,人工神经网络是由结点互连组成的计算网络,本质上是对人类大脑神经元活动的模拟,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。人工神经网络技术的这些特点是HMM 模型所不具备的,适合用于处理一些环境信息复杂、背景知识模糊、推理规则不明确的问题,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案,目前基于人工神经网络技术的语音识别系统仍处于实验室研究阶段。 语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品(如声控拨号电话、语音记事本等)的应用,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好。 第四章 智能语音技术概述 4.1 智能语音技术简介 核心算法和芯片技术共同推动语音技术应用深化语音识别应用决定智能语音行业未来成长。从智能语音技术的发展历程来看,应用的技术推动力主要是语音技术核心算法和计算机芯片技术。二十世纪末,建立在统计建模和机器学习理念基础上的语音技术核心算法逐步成熟,基于HMM(隐马尔可夫模型)的语音合成及识别技术在实用中占据了主导地位。计算机芯片技术则遵照摩尔定律,每18个月性能提升1倍,芯片运算能力的持续增长使得更为复杂的语音技术算法不断得以实现。嵌入式芯片技术特别是SOC技术的发展及芯片成本的下降,有力推动了智能语音技术在移动设备中的应用。 智能语音技术是人工智能的研究领域之一,其技术原理涉及声学、语言学、数字信号处理、计算机科学等多个学科。智能语音技术主要研究人机之间语音信息的处理问题,按机器在其中所发挥作用的不同,可分为语音合成和语音识别两大类人机语音通信问题,如图所示。 从智能语音技术的发展历程来看,其应用的主要推动力之一是语音技术核心算法的不断进步。上世纪九十年代,建立在统计建模和机器学习理念基础之上的语音技术核心算法逐步成熟,基于HMM(隐马尔可夫模型)的语音合成及识别技术在实用中逐渐占据了主导地位。如果未来核心算法能在自然语言理解上取得突破,则有望通过智能语音技术真正实现人机智能交互,从而使语音技术得到更加广泛的应用。 推动智能语音技术进入实用的另一主要动力则是计算机芯片技术的不断进步。摩尔定律是计算机芯片技术发展的经验性规律,其主要内容是:在相同面积集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,即芯片性能将提升一倍,而价格则基本保持不变。摩尔定律从1975年提出至今,准确地预测了芯片技术的发展速度,以MIPS(Million Instructions Per Second,每秒百万条指令)为单位进行估算,Intel X86芯片的计算能力从1987年至今增长了约1600倍,而以ARM架构为代表的嵌入式芯片计算能力从1987年至今也已增长了约500倍。随着芯片运算能力的不断增长,更为复杂的语音技术算法不断得以实现。由于晶体管尺寸受量子效应的制约,近年来摩尔定律的有效性开始减弱,但IC业界仍普遍预期摩尔定律至少在2015年之前将保持有效,特别是嵌入式芯片的计算能力仍将保持快速增长。嵌入式芯片技术特别是SOC技术的发展及芯片价格的不断下降,将有力推动智能语音技术在移动设备市场的应用。 因此,我们认为即使短期内智能语音技术核心算法不能有革命性突破,计算机芯片技术的发展也将推动语音技术的应用进一步深化。由于语音合成技术和语音识别技术在技术原理和实现方法上存在较大差异,我们将分别针对这两种技术进行介绍。 4.2 语音合成技术简介 语音合成技术是指利用机器生成语音,按照技术实现难度的高低,广义的语音合成技术可以分为三个层次:(1)从文字到语音的合成(Text to Speech,即TTS);(2)从概念到语音的合成(Concept to Speech);(3)从意图到语音的合成(Intention to Speech)。狭义的语音合成技术则是指文本语音转化技术(TTS),目前主流的语音合成技术主要是指TTS,我们在这里只针对狭义的语音合成技术进行讨论。 4.2.1 语音合成技术发展史 从语音合成技术的发展历程来看,可大致分为三个阶段,第一阶段为上世纪三十年代至八十年代,以参数合成方法为主;第二阶段为上世纪八十年代至九十年代,以波形拼接方法为主;第三阶段则为上世纪末至现在,进一步发展出可训练的TTS方法。 图3 语音合成技术发展的三阶段: 语音合成技术研究起步于二十世纪三十年代。1939年,贝尔实验室利用共振峰原理制作出第一个电子语音合成器,用一些类似白噪音的激励产生非浊音信号,以周期性的激励产生浊音信号,从而实现了用机器合- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 语音 行业 发展 分析 报告
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文