生成式伪造语音安全问题与解决方案.pdf
《生成式伪造语音安全问题与解决方案.pdf》由会员分享,可在线阅读,更多相关《生成式伪造语音安全问题与解决方案.pdf(8页珍藏版)》请在咨信网上搜索。
1、信息安全研究第10 卷第2 期2 0 2 4年2 月Journalot lntormationSecurity ResearchVol.10No.2Feb.2024DOl:10.12379/j.issn.2096-1057.2024.02.05生成式伪造语音安全问题与解决方案冯畅吴晓龙3赵熠扬徐明星2郑方21(清华大学计算机科学与技术系北京100084)2(清华大学北京信息科学与技术国家研究中心北京10 0 0 8 4)3(新疆大学计算机科学与技术学院乌鲁木齐830046)(fc19 )Generative Fake Speech Security Issue and SolutionFeng
2、 Changl-2,Wu Xiaolong3,Zhao Yiyangl*2,Xu Mingxingl2,and Zheng Fangl.?1(Department of Com puter Science and Technology,Tsinghua University,Beijing 100084)2(Beijing National Research Center for Information Science and Technology,Tsinghua University,Beijing 1084)3(School of Computer Science and Technol
3、ogy,Xinjiang University,Urumqi 830046)Abstract The development of generative artificial intelligence algorithms has made the generationof fake speech increasingly natural and fluid,making it challening for human listeners todistinguish the genuine and fake speech.This paper firstly analyzes a series
4、 of threats to societyposed by the improper abuse of generative fake speech,including an increase in telecommunicationfraud,a decline in the security of voice-operated applications,judicial fairness of forensicidentification,and deception to the public through the combination of falsified informatio
5、n acrossvarious domains.Subsequently,the paper summarizes and classifies the algorithms of fake speechgeneration and fake speech detection technology from the perspective of technology development.We explains the procedural aspects of the technologies and their key points,along with an analysisof th
6、e challenges encountered in the process of application.Finally,this paper outlines strategies toprevent and address these security issues from four aspects:technical application,institutionalregulation,public education and international cooperation.Key words generative artificial intelligence;fake s
7、peech;security issue of fake speech;fakespeech detection;solution to fake speech threat摘要生成式人工智能算法的发展使得生成式伪造语音更加自然流畅,人类听力难以分辨真伪。首先分析了生成式伪造语音不当滥用对社会造成的一系列威胁,如电信诈骗更加泛滥、语音应用程序安全性下降、司法鉴定公正性受到影响、综合多领域的伪造信息欺骗社会大众等.然后从技术发展角度,对生成式伪造语音的生成算法和检测算法分别进行总结与分类,阐述算法流程步骤及其中的收稿日期2 0 2 3-11-2 7基金项目:国家自然科学基金项目(2 0 12 1
8、3 0 2 17 3)通信作者:郑方(fzhengtsinghua,)引用格式:冯畅,吴晓龙,赵熠扬,等。生成式伪造语音安全问题与解决方案J.信息安全研究,2 0 2 4,10(2):12 2-12 9122人工智能安全专题.IssueonArtificial Intelligence Security关键点,并分析了技术应用的挑战点.最后从技术应用、制度规范、公众教育、国际合作4方面阐述了如何预防以及解决生成式伪造语音带来的安全问题.关键词生成式人工智能;伪造语音;伪造语音安全问题;伪造语音检测;伪造语音威胁解决中图法分类号TP309.1生成式伪造语音是基于生成式人工智能算法产生的语音.生成
9、式人工智能通常是指“一种利用现有数据生成新的、真实的、反映训练数据特点但具有原创性内容的新数据的人工智能技术”1.生成式人工智能一般要通过各种机器学习根据给定的输入数据或模式,自动生成新的输出数据或模式.近年来,随着深度神经网络研究和计算机算力的持续突破,通过生成式人工智能技术学习大量样本数据中的模式和规律,可以生成质量越来越高的文本、图像、语音、视频等各种模态的内容.生成式人工智能具有可自动生成大量内容、可根据用户需求和偏好进行定制化生成等优点,能帮助人们更快地获取信息,提高创造力和效率,也可以为人们提供更多的娱乐和文化体验.然而,生成式人工智能的运用也存在一些风险,例如可能生成不准确或不合
10、适的内容,或者被用于恶意目的.在语音领域,生成式伪造语音在人机交互中的不当使用带来的安全威胁同样令人担忧.因此,针对正在发展的生成式伪造语音技术,需要同时发展伪造语音检测技术,加强治理体系建设,对技术应用进行充分评估和监管,以保证技术发展朝着正确的道路前进,确保技术应用的安全性和合法性。生成式伪造语音滥用引发的威胁1.1增加电信诈骗防范难度当前,随着生成式伪造语音技术的发展,电信诈骗已经演化到一个新的层次.诈骗者不再需要利用传统的社会工程手段模仿他人的声音,而是通过软件创建目标对象的克隆语音进行诈骗.国内外都有此类案例报告.诈骗者使用这种技术假冒亲人、银行工作人员或权威机构人员的声音,诱使受害
11、者转账或泄露个人信息。2022年,美国和加拿大发生了一系列利用AI合成声音实施诈骗的案件,这类案件不仅频发而且手段高明,涉案金额高达110 0 万美元,而且主要的受害群体为老年人.这些诈骗行为通常是通过获取目标受害者亲人的声音样本进行操作的,这些样本可能来自于社交媒体上的视频、电话留言或公开场合的语音录音.诈骗者利用AI语音合成软件处理这些声音样本,生成与受害者亲人极其相似的声音.接着,他们通过电话联系受害者,伪装成亲人,并编造紧急情况,比如事故、被捕等,以此来诱使受害者汇款或转账.由于合成的声音与真实语音有极高的相似性,使受害者难以识别出电话中的语音是伪造的,特别是在情绪紧张和发生紧急情况时
12、,受害者往往会出于关心、担心、害怕而没有产生怀疑,就给犯罪分子进行汇款。数据统计显示,这种新型电信诈骗的成功率远高于传统诈骗电话,它所带来的安全威胁正在呈现日益上升的趋势 2 。1.2降低语音应用程序安全性随着智能家居和个人助理设备的普及,语音应用程序变得越来越重要,它们广泛应用于智能家居、移动设备以及企业系统中,使日常任务如购物、搜索信息和家居设备控制变得更加便捷.然而,由于上述语音应用通常采用声纹识别技术作为安全验证方式,生成式伪造语音技术的发展对这些语音应用程序的安全性构成了直接威胁。以智能助理为例,这些设备通常通过声纹识别技术来识别和执行用户的命令.但现在,生成式伪造语音技术可以生成与
13、用户声音听起来几乎相同的语音,这使得恶意攻击者可以通过模仿用户的声音控制智能设备,甚至进行非授权的购买或访问敏感信息。1.3石破坏司法鉴定证据链公正性由于语音设备的广泛使用以及通信技术的发展,以录音记录事件变得更加普遍.录音的语音作为证据已经在近几年的案件中作为重要线索和关网址http:/1123信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024键证据.所以录音语音的真实性与完整性是司法程序中判案的基石.在2 0 2 3 年通告的一起案例中,公安部鉴定中心的专家运用先进的技术对涉
14、案的录音笔内的音频文件进行了深入的恢复和分析,以语音内容作为证据之一.鉴定中心的专家特别抽取了音频内容,通过与留存的语音样本进行声纹比对,并结合现场调查的具体情况,最终确认这些录音音频是否由比对者本人所录制.更重要的是,鉴定中心的专家还通过详细的声音分析,确认录音内容未经过人为的合成或篡改,确保了音频证据的真实性,保障了证据的公正性,为破案进一步提供了关键证据.伪造语音使得语音证据在司法领域使用的公正性和可信度面临前所未有的挑战.这对司法部门提出了更高的要求,不仅需要更新的技术支持,也需要更为严谨的法律和程序规范,以应对未来可能出现的更加复杂的伪造案例.1.4作催生更多语音和图像结合的视频伪造
15、欺骗在生成式伪造技术的应用中,视频伪造尤其引人注目,它结合了精准模仿的语音和与之同步的视觉元素,能够对目标人物的语音和面部表情进行高度还原,从双模态上给人更高的信任度,使得伪造的视频更加逼真,具有极大的欺骗性.特别是国内外知名人士的视频语音数据,这类资料众多,更容易被获取并用于伪造.近年已有多个以知名人士作为主角的视频被伪造产生,以篡改原视频或生成全新视频的方式,负面影响包括有散布虚假言论或表现主角不当行为,可能导致公众对于真实事件的误解和混淆,损害其声誉和形象.虚假视频还有可能被用于传播虚假信息或进行欺骗活动,从而干扰社会秩序和破坏公信力.同时,互联网和社交媒体的普及也为这些虚假视频的传播提
16、供了广阔的平台,使得它们能够迅速传播并引起公众的关注.根据对视频平台的监测,此类伪造视频的传播速度之快、观看量之高,均显示出其在社交网络中的强大影响力.这些案例表明,深度伪造不仅能够在短时间内吸引巨大的观众量,而且其内容的可信度和真实性常常令人难以辨认,对于个人声誉、公众信任以及社会秩序都可能造成深远的负面影响.因此,探寻和发展相应的检测技术、防范策略,以应对这类视频伪造欺骗已经成为呕待解决的问题12412生成式伪造语音技术2.1生生成式伪造语音算法生成式伪造语音是指通过语音合成、语音转换这2 种生成式语音技术产生的语音信号,其中:语音合成技术是从给定的文本信息生成朗读该内容的语音信号;语音转
17、换技术是从给定的源说话人语音转换为目标说话人说相同内容的语音.语音合成技术可划分为发音器官模拟合成、共振峰合成、拼接合成、声学参数合成.发音器官模拟合成方法3 通过模拟人类的发音器官(包括声门、声道、嘴唇、舌头等)的运动行为产生相应的声音,再根据语音信号的相关知识对每个模仿部位的声音进行滤波、卷积等操作,组合出最终的语音信号;共振峰合成方法 4是利用发音器官模型简化的源-滤波器模型,将语音分解为共振峰结构与其他频谱结构,这2 个结构用一个加性合成模块组合起来,最后通过估计这3 个部分的参数实现合成语音;拼接合成方法 5 是将已有的真实语音片段根据文字内容提示进行拼接,语音片段是以句子、单词、字
18、、音节等语音单位进行提前录制并分割好的,拼接算法包含搜索语音片段、平滑语音片段间的连接、统一整句语音风格等工作;声学参数合成方法是通过先生成语音中的声学特征参数,再从声学参数转换为语音采样点,就得到数字语音信号.早期的声学参数合成是采用统计参数合成的方法 6 ,由文本分析、声学模型预测声学参数、声码器转换采样点3 个部分组成:文本分析是对文本进行预处理,转换为音节、音素等更细粒度的语言特征,根据语言特征采用声学模型预测基频、频谱等声学参数,将预测的声学参数用声码器的声码分析合成语音波形采样点.近年的声学参数合成方法采用深度神经网络分别实现文本分析语言特征、声学参数建模和声码器转换采样点这3个模
19、块,更直接的还有从语言特征生成语音采样点波形,如WaveNet7的提出.完全的端到端模型,将文本分析也与语言特征合并进行联合训练,如FastSpeech28等实现从文本直接生成波形采样点.此外,视频合成算法中,利用文本-图像扩散模型,生成时间一致视频可以同时完成语音合成与图像合成的任务 9 。人工智能安全专题.Issueon Artificial Intelligence Security语音转换技术方案的基本原理是将输人的源说话人语音信号转换为源特征表示;然后将源特征表示转换为目标说话人的特征表示;最后将目标说话人的特征表示运用声码器等恢复为目标语音信号.源特征表示和目标特征表示可以是频谱包
20、络、频谱图等语音声学特征.对特征表示的转换方法有早期的高斯混合模型、频率弯折、样例语谱图分解、说话人特征转换等方法 10 ,还有近年来以生成对抗网络 11、自编码器 12 为代表的神经网络转换模型框架.随着语音合成中端到端模型的有效运用,语音转换中也能采用如WaveNet7等模型框架将特征转换和语音采样点恢复联合训练成一个模型.2.2伪造语音效果及应用伪造语音以生成自然流畅、符合人类听觉感知、具有内容可理解性、语音质量稳定的语音信号作为目标.当前的各类伪造语音已经能够达到以下效果 13;1)自然度.非常接近自然语音,人类听力测试上已经难以分辨某些伪造语音.2)准确度和理解度.能准确表达相应的文
21、本内容,在发音、语调、语速上均能保持可理解性。3)多音色支持.支持多种音色,包括男、女、老年、儿童等不同人群的音色.甚至能够根据用户的需求,在声音特征、语言习惯上进行定制.4)多场景支持.支持不同使用场景、不同采样设备下的定制表现,语音质量也能保持稳定.语音合成已经广泛地用于实现人机交互的各种功能:可以将电子书、新闻文章等文本信息转换为语音,朗读读出,用户用“听书”实现电子阅读;在导航程序中将导航信息转换为导航语音;结合聊天机器人技术,可以在客服系统中将文本转换为语音,完成智能客服交流;还能用于语音广播、语音教育、语音翻译等实现让用户以听的方式接受信息输入;在新闻采访视频等领域,为了保护被采访
22、人隐私,通过生成具有特定音色和语调的语音,掩盖原说话人的语音.3伪造语音的检测技术人类发出的声音信号是一种模拟信号,需通过麦克风等传感器转换为数字语音信号才能在计算机等电子设备中进行处理和传输.为了检测伪造语音,通常使用语音信号处理技术和机器学习算法来分析语音信号的特征和模式,将伪造语音与真实语音的特征和模式进行比较,以确定语音的真伪.伪造语音检测可以用于声纹认证、语音取证等领域,检测语音输人的真伪性以预防语音和视频欺诈,确保语音认证系统的安全可靠,证明音频证据的真实有效性,解决本文第1节中提到的各类伪造语音滥用安全问题.根据听力测试 14,人类对伪造语音的敏感性主要集中在对韵律、字词衔接与连
23、续性等语义听感方面.目前,对伪造语音检测研究主要集中在2大类上:对伪造语音特征的研究;对真伪语音模式学习的分类器模型研究.3.1伪造语音检测算法伪造语音检测以特征提取作为前端操作,将数字语音信号时序采样点表示为适合分类器的声学特征输人.传统方法是人工设计的声学特征,基于信号处理的相关知识,从频域、相位域、倒谱域及相关的信号变换操作中提取声学特征.如语音频谱图、梅尔倒谱系数(Mel frequency cepstrum co-efficient,M FCC)、线性倒谱系数(linear frequen-cy cepstrum coefficient,LFCC)15,采用常数 Q变换提取常数Q倒谱
24、系数(constant Q cepstrumcoefficient,CQ CC)16 ,对相位信息进行描述的群延迟特征 17 等。针对伪造语音与真实语音的不同点,还可以设计韵律相关的可区分性特征.近年学者们开始使用深度神经网络学习特征表示,通过卷积神经网络及残差模块、记忆模块等,以学习真伪2 类语音分布为目标,提取具有真伪可区分性的语音特征 18 。随着预训练模型在语音类任务中的推广,也使用如Wav2Vec2.019,XL S-R 2 0 1等大规模自监督模型计算语音特征表示.此外,端到端模型的出现使语音特征也可以直接以采样点原始数值的方式呈现,而无需经过其他变换.在伪造语音检测中使用的分类器
25、是以语音特征作为输人,输出真伪判决结果,早期的分类器包括混合高斯模型 2 1、支持向量机 2 等.近年深度神经网络提高了对数据的学习和建模计算能力,以卷积神经网络、循环神经网络、全连接层 2 3 为基本架构的神经网络分类器也开始应用.端到端模型将网址http:/1125信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024语音采样点作为输人,通过频-时域图注意力网络模块 2 4、异构堆叠图注意力网络模块 2 5 等以真伪语音分类为目标直接学习采样点信息,模型内语音特征和分类器能够实现
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生成 伪造 语音 安全问题 解决方案
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。