2021量子位白皮书-虚拟数字人深度产业报告.pdf
《2021量子位白皮书-虚拟数字人深度产业报告.pdf》由会员分享,可在线阅读,更多相关《2021量子位白皮书-虚拟数字人深度产业报告.pdf(19页珍藏版)》请在咨信网上搜索。
1、虚拟数字人深度产业报告技术背景篇定义、关键词、分类、技术细节市场规模、发展阶段、细分场景及判断、产业链、竞争格局、中外对比、产业瓶颈产业现状篇1量子位硬科技深度产业报告虚拟数字人核心观点如需进一步交流探讨、加入垂直社群等,请联系量子位官方或量子位分析师:刘萌媛(请标注所在单位+职位)邮箱:1.虚拟数字人的三大特征是虚拟化、NLPCV语音等多种技术共同成熟、高度拟人化。在技术层面上分为灵活的真人驱动型和基于深度学习的计算驱动型。2.在2030年,我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。3.虚拟数字人
2、的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。4.虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。6.国内外在细分市场上的竞争差异较大,具体包含技术层面、商业模式、细分市场及发展路线。7.行业门槛及瓶颈主要来源于三方面:上限偏高的技术及美术门槛;客户积累带来的业务认知;在各细分市场亟待实现的标准化复制特别感谢:魔珐科技、相芯科技、追一科技、中科深智、火山引擎、小冰公司、黑镜科技、科大讯飞、搜狗、百度及相关行业从事者对本报告的深度参与(排名不分先后)。量子位硬科技深度产业报告虚拟数字人技术背景虚拟数字人指存在于非物理世界中,由计算机
3、图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。1.1 定义人 在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线外表:虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模)、渲染水平、设计审美等影响行为:虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制
4、调节等)、驱动模型类别(精细面部肌肉驱动、语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响交互:虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等影响。虚拟存在于非物理世界中,不同场景实现难度不同目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备与全息投影也将成为其重要存在方式。需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的
5、深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。数字依托多项技术存在,相关技术成熟成为其发展重要推动力虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。多位从业人员认为,虚拟数字人近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动捕等相关技术的共同成熟。英雄联盟 Seraphine风格化三星 Neon 基于真人采集Unreal Engine Metahuman Creator高保真建模Genies 基于真人明星的虚拟数字人风格化其具体特征可拆分为“
6、虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个场景中取代真人,完成语音交互方式升级的重要标准。1UneeQ 虚拟助手相芯科技 虚拟客服魔珐科技 漫画IP齐麟虚拟直播搜狗&新华社 虚拟主持人新小微Source:UneeQ官网,相芯科技产品手册、魔珐科技产品手册、网络公开报道量子位硬科技深度产业报告虚拟数字人真人驱动型技术流程1.形象设计及建模基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点2.建模绑定将识别关键
7、点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。3.表演捕捉利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。4.驱动及渲染真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成,形成特定设置语音5.生成内容,进行互动进行直播,或录制其动作生成内容在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。计算驱动的虚拟数字人
8、最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。计算驱动型技术流程1.设计形象。扫描真人形态及表演、采集驱动数据利用多方位摄像头,对通用/特定模特进行打点扫描(视最终需求可进行全身或局部扫描),采集其说话
9、时的唇动、表情、面部肌肉变化细节、姿态等数据从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在
10、于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone 12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。美国虚拟主播CodeMiko采用真人驱动方法调整虚拟主播的动作及表情1.2 技术细节2量子位硬科技深度产业报告虚拟数字人计算驱动型技术流程2.形象建模,进行绑定设计所需的模型,或基于特定真人进行高还原度建模。进行关键点绑定。关键点绑定的数量及位置影响最终效果。当需要基于真人照片生成虚拟内容时,一类做法是将通用的人脸模型迁移至该真人照片上,形成虚拟形象
11、,实质为表情迁移。另一类则是生成动漫类效果,基于预先设置的形象分类算法,将真人照片中的眼型、发型等元素进行分类,并与预先设置的动漫元素进行匹配,最终生成动漫式的虚拟形象。3.训练各类驱动模型:决定最终效果的核心步骤利用深度学习,学习模特语音、唇形、表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。魔珐科技等业界领先的模型可组合出超千种表情效果,并包含眼神驱动。科大讯飞、竹间智能等公司会对语音/文本中的因素进行提取,增加情感驱动模型等。目前为止,大多数厂商的驱动模型大多是语音-唇形
12、,语音-驱动。动作、手势等驱动大多依靠人为现场指令或预设置驱动。对于需对特定真人定制化的数字化虚拟数字人,部分公司会基于在通用驱动模型的基础上,结合少量真人驱动数据训练定制化驱动模型。这种情形可视作预训练模型+小样本学习。4.内容制作:基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数核心的技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术),将输入的本文转化为语音。基于语音,结合第3步得到的驱动模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。通过时间戳,将语音和每帧的数字人图片进行结合。5.进行渲染,生成最终内
13、容。直播时进行实时渲染为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到虚拟数字人的最终生成效果附加步骤:针对需要进行交互的虚拟数字人,生产商会预先设置有问答库、知识图谱等,并承接入虚拟数字人的对话系统。当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。CG建模/图像迁移技术影响外观呈现NLP交互技术影响交互体验CV等深度学习模型影响驱动效果体现为虚拟数字人外观的拟人程度。国内外在该项上的技术差异,部分导致了目前国内外玩家主要专注于不同的细分场
14、景和发展路径以对话能力为核心。继文本对话助手、语音AI助手后,该技术继续在虚拟数字人中发挥核心作用,可以视作为虚拟数字人的大脑。在AI交互助手方面已有理想成效,如小冰等,公司能够为其添加较好的通用式互动能力。追一科技等公司则通过知识图谱、业务问答库、对话型工程引擎等增强虚拟数字人的业务互动能力。受数据量、计算框架、关键特征点等因素深刻影响。能否呈现自然的面部表情变动、肢体变动等,在极大程度上取决于语音驱动的深度模型效果。除此之外,能否对情感等因素进行特别设计,同样会产生重要影响。值得一提的是,2021年,Fable Studio的新虚拟数字人Charlie and Deck背后将有GPT-3支
15、撑,生成类语言模型的加入有望显著提升虚拟个人助手的日常交互能力,这也将是GPT-3实现商业化的全新途径。3量子位硬科技深度产业报告虚拟数字人行业现状2.1 市场规模基于国内外多家虚拟数字人厂商的业务,本报告将虚拟数字人按照其产业应用划分为两类:服务型虚拟数字人和身份型虚拟数字人。服务型虚拟数字人服务型虚拟数字人身份型虚拟数字人身份型虚拟数字人核心功能功能性,提供服务替代真人服务,完成内容生产、简单功能多模态AI助手,提供日常陪伴、关怀等服务身份性,用于娱乐/社交虚拟IP/偶像,推动虚拟内容生产虚拟世界第二分身,用于社交娱乐及Metaverse产出定位现实世界中主持人、导游、购物主播等服务型角色
16、的虚拟化具有关怀感和真实感的AI助手虚拟偶像或为真人偶像的辅助分身个体在虚拟世界(或Metaverse)中的第二分身代表应用虚拟主播、虚拟老师、标准化内容制作虚拟关怀师、虚拟陪伴助手虚拟偶像VR Chat、虚拟形象构建应用产业价值1.降低已有服务型产业的成本,为存量市场降本增效2.提升AI助手的交互效果,扩展其接受度与适用场景1.为未来的虚拟化世界提供人的核心交互中介,在增量市场创造新价值增长点2.降低虚拟内容的制作门槛经过测算,我们认为,在2030年,我国虚拟数字人整体市场规模将达到2700亿。其中,得益于虚拟IP的巨大潜力,以及虚拟第二分身的起步,身份型虚拟数字人将占据主导地位,约1750
17、亿,并逐步成为Metaverse中的重要一环。服务型虚拟数字人则相对稳定发展,多模态AI助手仍有待进一步发展,多种对话式服务升级至虚拟数字人形态,总规模超过950亿。955.41747.2服务型虚拟人身份型虚拟人35.4%64.6%840.2115.2替代真人服务多模态AI助手87.9%12.1%亿亿1474.3262.1虚拟IP虚拟第二分身服务型虚拟数字人2030年我国虚拟数字人整体市场规模人民币2703亿85.1%14.9%身份型虚拟数字人4量子位硬科技深度产业报告虚拟数字人理想的市场规模体现在虚拟数字人这一市场行业天花板高,实现路径明确,且已出现了有相当竞争力的技术公司。在各行业近两年开
18、始意识到其技术可行性和商业价值后,行业将快速进入高速发展期。首先,作为多模态升级的代表技术,虚拟数字人的应用场景众多,可广泛与各行业领域相结合,变现路径和市场潜力明确。其中虚拟直播、虚拟偶像已得到明确的商业价值验证。而虚拟分身生成等场景也已得到了资本和相关产业方的认可。其次,大多数国内玩家为综合实力较强,发展成熟的AI科技公司,在客户积累、技术实力、销售渠道、资金供给等方面较为可靠,行业预计可直接进入平稳发展期。最后,在多家业内代表公司看来,虚拟数字人作为Metaverse 主要的交互载体,具有明确的巨大增长潜力,并基于NFT、VR等有理想的延展空间。行业天花板高,能够维持长期和衍生发展。2.
19、2 行业发展阶段火山引擎、追一科技等公司基于自身观察,认为虚拟数字人行业目前仍处于孵化培育的阶段。相芯科技基于XR行业技术成熟度曲线,认为虚拟化身技术在未来2-5年内将进入稳步爬坡期。而在行业的长期发展方面,可以依据面向市场、解决方案及产品成熟度、基础设施及衍生产业进行划分。相芯科技基于自身认知,将虚拟数字人的未来发展划分为三个阶段,依次为1.B端行业探索与教育的成长期。该阶段主要用于完善行业解决方案,同时通过2B2C对C端客户进行市场教育;2.B端场景成熟向C端渗透的发展期。该阶段B端应用场景将与行业深度结合,逐渐成熟。同时厂商开始关注UGC,消费级工具、C端消费订阅制、虚拟内容生产迎来井喷
20、。3.B、C端应用成熟,并形成数字资产及经济体系,技术迭代的成熟期。基于我们的观察,目前三大阶段的对应现象均已有所出现。但目前,面向B端探索成熟的落地场景仍然为各厂商的主要关注点。据分析,虚拟数字人行业未来的主要驱动力包括:用户代际变化,新一代消费者对内容消费和虚拟世界更为渴求;虚拟数字人相关技术(如计算机图形学、深度学习等)门槛相对降低,成本有所回落;资本热度上升,受Metaverse概念和国外成功厂商引导,虚拟化的趋势逐渐成为共识;VR眼镜等相关配套设备逐渐回暖,有望实现大规模商用。2.3 细分场景及相关判断2.3.1 服务型虚拟数字人目前,国内的服务型虚拟数字人主要用于替代真人进行播报等
21、内容生成,并进行简单问答交互等。而国外则由于在CG(Computer Graphic,计算机图形学)方面具有技术优势,能够打造具有高度关怀感的虚拟数字人,率先在医疗等场景落地了虚拟陪伴助手、心理咨询顾问等。整体而言,由于虚拟数字人提供动作、表情等更多维度的信息,之前仅基于文本、图像或语音的单模态服务及内容都能以虚拟数字人的形态进行更丰富的呈现。内容方面,有声读物、文本内容等将有望快速扩展至视频领域。据相在本部分中,会对服务型虚拟数字人和身份型虚拟数字人进行具体展开,说明其核心价值、主要赛道、推动力、相关玩家及其特征,并基于分析师的观察给出一定判断。5量子位硬科技深度产业报告虚拟数字人a.替代真
22、人服务短期主要价值增长点核心价值及主要功能:代替真人进行内容生产和简单交互 降低对真人表演的需求,减少标准化内容的制作成本;特定场景下(政务、金融等)客服、虚拟主播、新闻播报主要赛道:企业服务、内容行业未来推动力:业务快速更迭导致的服务类人力培养难度与成本增加;内容行业向视频时代升级的需求主要判断:需关注对拟人化有强烈需求的特定服务场景;通过知识图谱、客户积累等专注垂直行业服务的短期内更易变现;内容行业更易实现规模化复制,需强调SaaS及预设模板等标准化工具在内容生产方面,虚拟数字人内容生成平台已成为多家厂商共同的发力点。国内厂商包括火山引擎、科大讯飞、相芯科技等,平台以新闻播报为主要场景。国
23、外厂商以英国的Synthesia和Hour One为代表。中外主要差异点主要在可供选择的虚拟数字人数量,以及预设模板等线下细节。在这类平台上,使用者只需将需要播报的内容输入平台,选择主持人形象、音色、背景后,即可快速生成相关播报视频。使用者可以利用时间轴,对虚拟数字人进行动作等调节。部分产品还支持插入演示面板、根据时间轴调整位置等,最终生成图文并茂,带有解释说明的视频。尽管国内各平台的产品设计中,更多的倾向于新闻播报。但我们认为,对于产品说明书、教学内容、产品说明视频等内容相对固定,观看者对于视频灵活度无过高要求的说明性内容,都可以采用这种方式进行制作,以降低相关投入。芯科技,除去常见的课件等
24、内容生产外,部分面临着人才短缺,但希望能够融媒体转型的县市级媒体,也在试图通过有服务型虚拟人,低成本地生成所需媒体内容。服务方面,通用的语音助手、个性化顾问、车载系统,针对特定场景的指引、导览等均能够以更为人性化和易于使用的方式呈现。不过,尽管虚拟数字人似乎通用性很强,但仍需要注意,目前的制作成本仍高达百万级,需要首先关注对多模态信息和拟人化具有强烈需求的场景。HourOne的虚拟内容生成平台配有36个虚拟形象,多类标准化模板及视频管理系统Synthesis的虚拟内容生成平台配备40个虚拟形象,虚拟数字人视频内容生成领域融资最高简单交互方面,虚拟数字人不适用于通用性、专业性、交互性过强的领域,
25、会暴露其现有技术短板。国内目前多专注于特定细分市场,主要用于提供简单业务交互。虚拟主播是目前国内商业化竞争最为激烈的场景,以中科深智为代表,部分厂商开始提供一站式服务,包括客户端、布置方案、硬件系统、乃至流量运用等配套服务。个别厂家会将直播场景中的运营细节融入产品设计中,用于更好的迎合消费者心理和平台的流量分发机制。目前,虚拟直播的价格门槛已从数万级下降至数千级,使用门槛也大幅降低。其次为各家均在摸索部署的虚拟客服,据追一科技,在现有的技术条件下,业务需求和规则流程相对明确的客服场景成为虚拟数字人落地的理想方式。除去替代真人外,由于能够基于知识图谱、数据迭代等进行更快的业务知识升级,虚拟人在客
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 量子 白皮书 虚拟 数字 深度 产业 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。