基于智能生成技术的手语数字人发展现状与趋势.pdf
《基于智能生成技术的手语数字人发展现状与趋势.pdf》由会员分享,可在线阅读,更多相关《基于智能生成技术的手语数字人发展现状与趋势.pdf(12页珍藏版)》请在咨信网上搜索。
1、 20 0 引言目前,人工智能技术不断发展,使得智能化系统和应用场景的范围不断扩大,为人们的生活和工作带来了极大的便利。然而,在这个快速变化的数字化时代,仍有一些人无法用语言进行有效的交流(如聋哑人士、失语症患者等)。手语数字人技术的出现,为这些人士提供了一种全新的交流方式,使他们能够用手语进行沟通和表达。通过手语数字人技术,聋哑人士可以用手语进行交互式的沟通和表达,促进社交互动、提高工作效率、辅助学习和享受娱乐体验等,在日常生活、工作场所、教育文化和社交媒体等领域都具有广泛的应用前景。同时,手语数字人技术还可以与其他技术相结合(如虚拟现实、增强现实等),进一步扩展其应用范围,为聋哑人士带来更
2、加丰富的体验和更多的机遇。总之,手语数字人系统的开发和发展将有力地促进残障人士的社交融入和生活改善,也将为数字时代的发展和进步带来新的机遇和挑战。1 人工智能发展介绍人工智能(Artificial Intelligence,AI)自 20 世纪 50 年代初发展至今,已有近基于智能生成技术的手语数字人发展现状与趋势文/唐申庚*,修雪玉,郭丹,洪日昌(合肥工业大学 计算机与信息学院(人工智能学院),合肥 230601)摘要:随着智能生成技术的不断发展与应用,手语数字人技术的应用场景也在不断扩大。智能生成技术可以将文本、语音等不同形式的信息转化为手语数字人的形式,为聋哑人士提供更加多样化和便捷的交
3、流方式。此外,智能生成技术还可以通过机器学习和人工智能算法不断优化手语识别和生成的准确性与速度,提高手语数字人技术的用户体验和应用效果。本文将从人工智能的发展历程出发,详细介绍基于智能生成技术的手语数字人发展现状、所遇到的挑战,以及未来发展趋势。关键词:智能生成技术;手语数字人;人工智能中图分类号:TP37 文献标志码:A 文章编号:2096-5036(2023)04-0020-12DOI:10.16453/j.2096-5036.2023.04.003基金项目:国家自然科学基金(U20A20183);中央高校基本科研业务费专项资金(JZ2023HGQA0097)专题:AIGCAI-VIEW2
4、023 年第 4 期 21 基于智能生成技术的手语数字人发展现状与趋势70 年的发展历史,共历经三次发展高潮。第一次高潮始于 20 世纪 50 年代,早期的人工智能研究主要集中在推理和问题解决方面(如使用逻辑推理解决数学问题)。在 20 世纪60年代和20世纪70年代,人工智能的研究逐渐扩展到了更广泛的领域,包括机器翻译、语音识别、图像识别等。这些领域的研究成果为今后的人工智能技术奠定了基础,但是支撑研究的数据量并不充足,而且计算能力也十分有限。20 世纪 80 年代,神经网络算法和特定领域的专家系统等新技术的广泛应用迎来了人工智能发展的第二次高潮,这些技术使得人工智能的实现更加高效和智能化。
5、同时,计算机的性能也得到了大幅提升,这为人工智能的发展提供了更好的硬件支持。进入 21 世纪,随着大数据和云计算等技术的发展,人工智能进入第三次高潮,人工智能已经涵盖了自然语言处理、计算机视觉、机器人技术、智能生成技术等领域,为人类的生产和生活带来了巨大的改变和便利。下文将具体对人工智能的三次发展高潮进行介绍。20 世纪 50 年代,随着第一台通用计算机 ENIAC 的问世,打开了人工智能技术飞速发展的大门。1956 年,美国新罕布什尔州达特茅斯会议的成功举办标志着人工智能研究的起点,该会议旨在将计算机科学与认知科学相结合,研究机器可以如何模拟人类智能。在此期间,研究者们提出了一些早期的人工智
6、能概念和算法,如逻辑推理和专家系统,例如由 Allen Newell 和 Herbert A.Simon 等编写的首个可以推理自动化的计算机程序“Logic Theorist”1,它的关键思想是使用自动搜索和规则应用构建一个逻辑的证明树,可以通过不断地应用逻辑规则和公理,尝试从初始条件到达所需的结论,也可以自动选择和应用不同的规则,进行搜索和探索,并通过剪枝等技术提高搜索效率。然而,许多应用难题并没有随着时间推移而被解决,神经网络的研究也陷入停滞。20 世纪 80 年代,迎来了人工智能发展的第二次高潮,神经网络和特定领域的专家系统等新的技术得到了广泛应用。BP 算法的提出,让非线性分类问题得以
7、解决,并且具有较高的准确性和泛化能力。此外,特定领域的专家系统的兴起掀起了浪潮,代表性项目为 Edward Shortliffe 等开发的专家系统“MYCIN”2。它的目标是利用人工智能技术辅助医生开展在感染性疾病的工作,展示了人工智能在医学领域的潜力,并为后来的医疗决策支持系统和临床决策辅助系统指明了发展方向。然而,BP 算法容易陷入局部最优解,需要较长的训练时间和大量的计算资源,特定专家系统也出现了数据获取困难,应用范围不广等问题。从 2010 年开始,随着计算能力的提高和数据的大量积累,深度学习成为了当前人工智能研究的主流技术之一,掀起了人工智能第三次高潮。深度学习是一种通过多层的神经网
8、络结构进行模式识别并特征提取的机器学习技术,目前在模式识别3、图像生成4、目标检测5等领域取得了很多突破性成果。深度学习的优势在于其具有强大的学习能力和表达能力,能够自动学习并提取数据中的特征,从而实现对大规模数据的高效处理和分析。这一技术的发展,为人工智能领域的研究和应用提供了全新的思路,尤其是智能生成技术,发展十分迅速,这让大模型也变得越来越流行。例如,2018 年谷歌发布的 BERT6(Bidirectional Encoder Representations from Transformers)是一种预训练的自然语言处理模型,采用了 Transformer 架构,并使用了双向编码器学
9、22 专题:AIGCAI-VIEW2023 年第 4 期习句子的上下文信息,从而能够更好地理解自然语言中的语义和语法;2019 年,由卡内基梅隆大学(CMU)、Google Brain 和纽约大学等机构的研究人员提出的 XLNet7是一种基于 Transformer 的预训练自然语言处理模型,采用了自回归和自编码两种预训练方式的结合,从而能够更好地理解自然语言中的语义和语法;2023 年,由OpenAI 开发的 ChatGPT8(Chat Generative Pre-trained Transformer),一种基于 Transformer 架构的预训练语言模型,可以生成连贯和合理的自然语言
10、文本,并具有很强的语义理解能力。它在多个 NLP 任务上取得了显著的成果,包括文本生成、机器翻译、文本摘要等。随着时间的推移,人工智能领域的各个研究均取得了显著进展,但也面临一些挑战和问题。例如,数据隐私和伦理问题,人工智能对就业市场的影响,算法的公平性和透明性等都是当前人工智能发展中需要解决的重要议题。人工智能的发展是一个持续不断的过程,未来还将涌现出更多新的技术和应用。随着技术的不断进步和创新,人工智能将继续对我们的生活和社会产生更加深远影响。2 基于深度学习的智能生成技术智能生成技术是深度学习中的一个热门研究领域,涵盖了从早期的文本语音到后期的图像视频生成的技术。随着深度学习模型的不断发
11、展,智能生成技术已经取得了很大的进展。在早期的文本语音生成9方面,深度学习模型主要应用于语音识别和自然语言处理。语音识别技术可以将语音信号转化为文本,使得机器能够理解人类的语言。自然语言处理技术则可以对文本进行分析和处理,实现自动化的文本生成、摘要和翻译等功能。随着深度学习模型的不断发展,智能生成技术开始应用于图像生成10方面。生成对抗网络是一种流行的深度学习模型,可以用于生成高质量的图像。近几年,智能生成技术还开始应用于视频生成11方面。深度学习模型可以通过学习视频序列中的特征生成新的视频内容(如视频剪辑和电影特效等)。另外,深度学习模型还可以用于视频超分辨率重建,提高视频的清晰度和细节。总
12、之,随着深度学习技术的不断发展,智能生成技术在文本语音、图像和视频等方面都取得了很大进展。这些技术将会在各个领域产生广泛的应用,推动人工智能技术的发展和创新。2.1 文本生成循环神经网络(Recurrent Neural Networks,RNNs)(如图 1 所示)与 Transformer 是常用的文本生成模型,它们能够学习语言的语法和上下文关系,并生成具有一定连贯性和语义的文本。图 1传统的循环神经网络(RNN)模型 23 RNN 是一种递归的神经网络结构,具有循环连接,使其能够处理具有时间依赖性的序列数据。循环神经网络通过将当前时刻的输入与前一时刻的隐藏状态进行组合,可以传递信息和记忆
13、序列中的上下文信息。这使得循环神经网络在机器翻译、语音识别等方面有着广泛的应用。然而,传统的循环神经网络存在梯度消失或梯度爆炸等问题,使得其很难捕捉到长时间相依性。为了改善这个问题,出现了一些改进的 RNN 变体,如长短期记忆网络(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU),通过引入门控机制,从而能够更好地控制信息的流动和记忆的更新。Transformer12是一种基于自注意力机制的序列建模模型,该模型最初应用于自然语言处理任务(如机器翻译等)。与传统的循环神经网络不同,Transformer 模型不需要循环连接,
14、而是通过自注意力机制同时考虑序列中的所有位置。Transformer 模型通过编码器-解码器架构,将输入序列转化为中间表示,进而由解码器生成输出序列。自注意力机制能够在编码器与解码器之间建立全局关系,使得模型能够更好地捕捉长距离的依赖关系。这一创新性的模型,为序列建模任务的处理提供了全新思路,具有广泛的应用前景。2.2 图像生成以深度学习为基础的图像生成技术能够生成逼真的图像,包括自然景观、人脸、动物等。其中,生成 对 抗 网 络(Generative Adversarial Networks,GANs)是一种常见的方法(如图 2 所示),它由一个生成网络和一个判别网络组成,通过对抗学习的方式
15、持续地对所产生的图像进行优化。生成器和判别器在对抗性中互相竞争,互相学习。在训练期间,生成器产生一组虚假样本,并把它们传送到判别器。判别器对这些样本进行分类,并返回分类结果。生成器根据判别器的反馈优化自己的生成策略,使生成的样本能够更好地欺骗判别器。同时,判别器也会根据生成器生成的样本更新自己的分类能力。生成对抗网络的优点是能够生成具有多样性和逼真度的样本数据,而无需显式地对生成过程进行建模。它在图像生成、图像修复、图像转换、语音合成等任务中取得了显著的成果。然而,GANs 也面临一些挑战,如训练的不稳定性、模式坍塌问题和生成样本的多样性控制等。因此,研究人员一直在努力改进生成对抗网络的模型结
16、构,并推动其在各个领域的应用。除了传统的生成对抗网络方法,近期比较火的图像生成模型还有 Diffusion Model13,一种基于去噪技术的图像生成模型(如图 3 所示)。Diffusion Model 的基本思想是通过一系列的逆向微分方程迭代地改变噪声信号,逐步逼近目标数据分布。基于智能生成技术的手语数字人发展现状与趋势图 2GAN 与 DiffusionModel 对比图 24 专题:AIGCAI-VIEW2023 年第 4 期具 体 而 言,Diffusion Model 将目标数据视为一个潜在噪声信号的转换过程,其中每个步骤都会引入一定的噪声,并通过一系列的逆向转换恢复出更接近目标数
17、据的信号。这个过程可以看作是在随机性和确定性之间进行权衡的过程。Diffusion Model 在图像生成、图像去噪、图像修复等任务中取得了显著的成果。它为建模复杂分布的数据提供了一种新的思路,并在机器学习和生成模型的研究中得到了广泛应用。2.3 视频生成 针对视频生成,目前应用较广泛的是卷积神经网络(Convolutional Neural Networks,CNNs),可以提取视频的空间和时间特征,通过学习现有视频数据,生成具有连续动作和场景变化的新视频。为了处理视频数据,通常会使用 3D 卷积神经网络(3D Convolutional Neural Networks,3D CNNs)。3
18、D 卷积神经网络通过在时间和空间维度上应用卷积操作提取时空特征。它在卷积层中同时考虑了图像的高度、宽度和时间维度,这样能够捕捉到视频中的动态特征。近期,谷歌还发布了 Imagen Video,它采用了级联视频扩散模型,实现了基于文本条件的视频生成(如图 4 所示)。通过输入文本提示,该系统可以生成高清视频,其中包含了一个基础视频扩散模型、一个 frozen 文本编码器,以及一个空间和时间超分辨率模型。整个系统共计 116 亿个参数,在生成高质量视频方面具有很高的性能。此外,Imagen Video 还具有高度控制力和知识,可以产生多种不同的美术风格的影片、文字动画,并可以对三维物体进行理解。图
19、 3DiffusionModel 原理图图 4谷歌 ImagenVideo 文本条件视频生成系统 25 3 手语数字人系统的发展现状3.1 智能手语生成技术研究现状在早期,手语动作生成主要侧重于对手语合成动画的研究,主要采用基于计算机图形学方面技术和统计模型等。在此基础上,通过收集不同的手语姿势样本,建立手语词汇姿势模型,再与手语库中的手语词组和单词相匹配,从而生成一段连贯、可视化的手语动画录像。例如,Glaubert 等14设计了一个语音手语助手交互系统,该系统使用语音或文本输入,并在特定主题领域内进行解析,将其转化为短语序列。然后,通过与手语数据库进行搜索匹配,系统找到与输入内容最匹配的手
20、语短语。接下来,利用基于SIGML 的手语动画转录技术,生成手语动画描述,最终输出完整的手语动画视频序列。还有一些研究为了给聋哑人士提供更多的教学资源,Karpouzis 及其团队15提出了一种方法,利用语法解析器分析书面文字的结构,并提取出关键信息和语义模式。然后,他们将这些结构模式与手语的对应模式进行匹配,以确定最佳的手语动作序列。通过这种方法,他们能够将书面文字转化为手语动画,实现文字和手语之间的转换。其中,标准虚拟字符动画技术被应用于合成手语动画序列,确保生成的手语动画具有准确性和流畅性。为了便于手语教育产业发展,Sagawa 等16专注于日本手语,开发了一种手语教学系统,其中包含手语
21、识别和生成的功能。他们利用 3D 计算机图形动画技术,通过根据句子描述连接 3D 计算机图形的一系列参数,生成同步的手语动画。此外,该系统还具备自由改变手势方向和动画大小的功能,以增强用户的交互性和创造性。总而言之,以动画合成为基础的手语视频生成方法具有操作简便、效率高等优点,但是其性能在很大程度上依赖于构建大型的手语动画数据库。同时,合成的动画缺乏众多手势等逼真细节,对手语语义表达有限。因此,目前主流的研究趋势转向了更加逼真的手语智能生成技术研发。随后,随着跨模态和图像生成技术的发展,更多的研究人员尝试将普通的手语动画生成转向了手语姿态视频的生成。Cui 等17提出了一种方法,将 DAE(D
22、ropout Auto Encoder,DAE)与 LSTM 模型相结合。长短期记忆网络作为一种循环神经网络结构的变体,它可以通过最后一个动作,预测当前动作。而 DAE 通过对人体骨骼的隐性限制进行滤波,从而对手势动作进行最优化。Zelinka 等18提出了一种将前馈Transformer 与循环 Transformer 相结合的优化姿势序列产生框架,用于提高手语姿势产生的效率与性能。除此之外,Xiao19等还提出了一种以 VAE 为基础的概率骨架序列生成方法,其中利用基于 VAE 的编解码模型,生成具有随机性的姿态编码序列,并保持序列顺序和其他基本模式的不变性。Saunders 等20提出了
23、一个对抗性多通道手语生成系统,它包括一个改进的 Transformer 生成器和条件判别器组成,它可以同时接受语音单词和手势,从而对手势序列的真伪做出判断。他们还通过端到端的方法将离散化的手势动作转换为连续化的表示,并在此基础上建立基于渐进式 Transformer 的手语生成模型。除了手语姿态视频的生成,在目前阶段,我们还能够利用多阶段数据拟合产生逼真基于智能生成技术的手语数字人发展现状与趋势 26 专题:AIGCAI-VIEW2023 年第 4 期的手语视频。Ventura 等21则重点是探讨如何从 2D 姿态生成手语视频,并引入了一种独立的生成对抗网络,以捕捉脸部的细节,从而获得更加准确
24、逼真的手语生成视频。而 Stoll 等22通过结合深度卷积生成对抗网络和卷积图像编码器的方法构建了一个手语视频生成系统。在此基础上,利用手势骨骼、表情等特征信息,通过图像编码器产生具有真实感的视频画面,并通过判别器对其进行评价。同时,将视频渲染技术引入到手语视频中,以增强其逼真度。3.2 虚拟手语数字人技术发展动态1985 年,哈拉维首次将虚拟数字人定义为有机体与无机物机器的结合体。在实际应用方面,虚拟数字人23的概念在 1982 年的动画作品 超时空要塞 中初次提出,引进了世界上第一位虚拟偶像“林明美”;随后,日本的 Crypton Future Media 在 2007年发布了 VOCAL
25、OID 语音合成技术,创造出了虚拟偶像“初音未来”;2016 年,日本森仓圆设计的角色形象绊爱(Kizuna AI)在 YouTube 上线,成为了世界上第一个虚拟主播;2021 年,由清华大学计算机系、北京智源研究院、智谱 AI 和小冰公司联合培养的中国原创虚拟学生华智冰,通过对其进行不断的学习训练,展现了惊人的学习能力;京东云言犀团队24,提出了一个多模态的话语决策模型,应用于客户服务中,包含了四个层次的知识体系,四十多个独立子系统,三千多个意图,三千万个问答知识点,涵盖了一千多万种自营商品的电商知识图谱,在为用户提供服务时不仅能解决用户需求,还能够考虑用户情绪、运用对话技术,提供可用、可
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 智能 生成 技术 手语 数字 发展 现状 趋势
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。