分销赏收藏举报申诉 / 15

立即下载开通VIP

当前位置：首页 > 学术论文 > 论文指导/设计 > 基于双哈希索引的高效语音生物哈希安全检索算法.pdf

基于双哈希索引的高效语音生物哈希安全检索算法.pdf

上传人：自信****多点

文档编号：2948983

上传时间：2024-06-11

格式：PDF

页数：15

大小：2.48MB

《基于双哈希索引的高效语音生物哈希安全检索算法.pdf》由会员分享，可在线阅读，更多相关《基于双哈希索引的高效语音生物哈希安全检索算法.pdf（15页珍藏版）》请在咨信网上搜索。

1、第 9 卷第 2 期信息安全学报 Vol.9 No.2 2024 年 3 月 Journal of Cyber Security March 2024 通讯作者:黄羿博,博士,副教授,Email:huang_。本课题得到甘肃省科技计划项目资助,甘肃省自然科学基金(No.21JR7RA120)和国家自然科学基金(No.61862041)资助。收稿日期:2022-04-05;修改日期:2022-12-21;定稿日期:2023-11-02 基于双哈希索引的高效语音生物哈希安全检索算法黄羿博1,陈德怀1,张秋余2 1西北师范大学物理与电子工程学院兰州中国 730070 2兰州理工

2、大学计算机与通信学院兰州中国 730050 摘要针对语音数据在信道传输与云端存储时的安全性问题,以及由于语音数据数目大、维数高、空间复杂度高带来的检索效率问题,提出了一种基于双哈希索引的高效语音生物哈希安全检索算法。首先,在服务端分别提取语音信号的频谱通量与峭度因子特征并将两种特征融合,利用Bagging分类对语音信号的差分哈希分类,并基于分类结果构建密钥分配索引表;然后,根据密钥分配索引表建立具有单一映射密钥的生物特征模板,并将其量化构造生物哈希,得到哈希索引;同时,采用混合域置乱加密算法对原始语音加密,构建密文语音库;最后,将哈希索引与密文语音库上传至云端并构建云端生物哈希索引表。

3、在移动端,采用归一化汉明距离进行匹配检索。实验结果表明:本文算法的匹配阈值区间为(0.2694,0.4173),说明该检索算法能够灵活选取匹配阈值,具有较好的鲁棒性和区分性;检索过程中单条语音平均检索时间仅为 9.4957104s,并且经过 15 种内容保持操作后的查全率与查准率均为100%,说明该算法具有较好的检索性能,可以满足各种环境下的语音检索需求;同时提出的加密算法密钥空间大小为 1060,说明能够抵御穷举密钥攻击、保证语音数据的安全;此外,构建的生物特征模板具有良好的多样性、安全性和可撤销性。关键词安全语音检索;双哈希索引;生物特征模板;生物哈希;密文语音中图法分类号 TP391

4、.3;TN912.3 DOI 号 10.19363/J10-1380/tn.2024.03.06 Efficient Speech Biological Hashing Secure Retrieval Al-gorithm Based on Double Hash Index HUANG Yibo1,CHEN Dehuai1,ZHANG Qiuyu2 1 College of Physics and Electronic Engineering,Northwest Normal University,Lanzhou 730070,China 2 School of Computer and

5、Communication,Lanzhou University of Technology,Lanzhou 730050,China Abstract Aiming at the security of speech data in channel transmission and cloud storage,as well as the problems of retrieval efficiency caused by the large number,high dimension and high spatial complexity of speech data,an efficie

6、nt speech biological hashing secure retrieval algorithm based on double hash index is proposed.Firstly,the spectral flux and kurtosis factor features of speech signal are extracted in the server terminal,and then the two features are fused,Bagging classification is used to classify speech signals by

7、 differential hashing,and the key distribution index table is constructed based on the classification results;then,according to the key distribution index table,the biometric template with a single mapping key is established,and its biometric hash is quantized to obtain the hash index;at the same ti

8、me,the mixed do-main scrambling encryption is used to encrypt the original speech and construct the encrypted speech database;finally,the hash index and encrypted speech database are uploaded to the cloud and the biological hash index table is constructed.In the mobile terminal,using normalized hamm

9、ing distance for matching retrieval.The experimental results show that the matching threshold interval obtained by the algorithm is(0.2694,0.4173),which shows that the retrieval system can flexi-bly select the matching threshold and has good robustness and discrimination;the average retrieval time o

10、f a single speech in the retrieval process is only 9.4957 104s,and the recall and precision after 15 kinds of content preservation operations are 100%,it shows that the algorithm has good retrieval performance and can meet the needs of speech retrieval in various environments;at the same time,the si

11、ze of the encryption algorithm key space is 1060,which shows that it can resist ex-haustive key attack and ensure the security of speech data;in addition,the constructed biometric templates have good di-versity,security and revocability.Key words secure speech retrieval;double hash index;biometric t

12、emplate;biological hashing;encrypted speech 70 Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期 1 引言 1.1 研究背景云计算的发展推动了语音等多媒体数据的制造、传播和存储。要从海量多媒体数据中准确、高效地查询到精确信息,仅仅依靠简要文本标签难以实现。基于内容的语音检索技术研究利用音频的物理特征、听觉特征以及语义特征实现音频信息检索1,成为现阶段音频检索领域的一项重要研究课题。此外,云存储技术作为云计算领域的一项重要技术,已经成为用户将数据外包存储的关键方式,极大的缓解了日益严重的

13、“数据丰富”问题。近年来,由于云环境半开放的特点,数据安全问题频发,用户隐私信息遭受泄露。因此,当云服务器中存储敏感数据时,如何在保护用户隐私的前提下实现高效、安全的语音检索,成为目前音频检索领域亟须解决的关键问题之一。针对语音内容检索的需求,基于哈希算法2的语音检索技术应运而生。哈希算法具有良好鲁棒性和区分性的同时耗费较低的计算和存储空间,因而被广泛用于语音内容检索以实现近似最近邻(Ap-proximate nearest neighbor,ANN)搜索3。用户将原始语音数据量化构造为特定长度的二进值哈希码,并通过计算哈希码之间的汉明距离获得对应语音数据,在实现精确检索的同时避免了原始数据直

14、接暴露于云环境而带来的安全隐患。但是,在语音数据海量化、高维化的发展趋势下,传统基于哈希的近邻检索算法的检索效率降低,难以达到在有效时间内寻找到目标的要求。索引表4的出现既能保证数据的灵活访问与共享又可以减少计算开销,实现快速查询。索引表是根据关键码值而直接访问内存存储位置的数据结构,可以有效提升查询速度。由于哈希算法与索引表的种种优势与特征,基于索引的语音哈希检索技术5被相应提出,将二进制哈希码作为索引,构建出具有安全性、高效性的哈希索引表。在实际生活中,不同语音数据的特征分布存在差异,可以通过机器学习算法来学习这些语音数据的特征分布,构建一种“可学习”索引结构,以达到优化索引结构的目的。因

15、此,双哈希索引的高效语音检索方案的研究具有重大的实际意义和应用价值。1.2 研究现状语音检索的研究由来已久,早期的语音检索主要通过语音识别技术6实现。但是识别系统的性能受多方面的影响,检索结果差强人意。20 世纪 70 年代,Bridle 首先提出关键词检出技术7,并定义为“给定词识别”。随后,Christiansen 等人8提出“关键词”的概念,并沿用至今。其提出的关键词检出技术是通过信号的线性预测编码技术(Linear Predictive Coding,LPC)实现对连续语音中关键词的检索和定位,对 10个数字以内的识别具有较高准确率。在 1985 年,Higgins 等人9提出了填充

16、模型(Filler)的概念,用来对关键词以外的发音现象建模,并利用模型连接的方法构建了关键词检索系统。在 2008 年,Felipe 等人10将 R-Tree 与叠加的文本签名相结合,引入了一种称为 IR2-Tree(信息检索 R-Tree)的索引结构,并使用该索引结构实现 top-k 空间关键字查询。在 2015年,Singh 等人11提出了一种基于投影和多尺度哈希(ProMiSH)的关键词搜索方案,使用随机投影和基于多尺度哈希的索引结构,显示出优越的可扩展性,实验结果表明,该方案的检索效率远远高于基于树的检索系统。虽然关键词检出技术已经发展得非常成熟,但是容易遭受字典和统计攻击,无法保证搜

17、索隐私性。因此,基于内容的语音检索技术逐渐成为研究重点。其思想是对语音内容特征进行分析和提取,然后将这些内容特征作为索引并采用一种近似匹配的思想进行检索,根据匹配距离与阈值的大小关系获得检索结果。其中,结合感知哈希12是基于内容的语音检索的一项重要技术手段,研究人员已经在此方面取得了众多研究成果。如:He 等人13提出了一种基于音节级感知哈希的加密语音检索算法,该算法利用声学模型提取语音特征并构造感知哈希,对各种信号环境下的语音数据都具有良好的查全率、查准率和感知鲁棒性。Zhang 等人14通过提取语音信号的短期互相关特征作为特征摘要构造感知哈希,并通过度量哈希码之间的汉明距离实现语音检索。尽

18、管感知哈希技术因其单向转换的特点而具有良好的鲁棒性与单向性,但是没有更好的权衡安全性与可撤销性。因此,基于生物特征模板15-16保护的语音检索方案引起了广泛关注。生物哈希17法又叫加盐法,是一种有效的生物特征模板保护方法,其在提取生物特征的基础上,使用特定密钥定义了一个正交随机变换函数,并利用该函数对生物特征进行变换,进一步量化获得生物哈希序列。Teoh等人18提出了一种基于随机多空间量化(RMQ)的生物哈希,该方法首先将原始特征转换为低维特征向量,然后映射到指定的随机子空间序列上,最后将特征向量重新映射量化后得到 RMQ 生物哈希序列。Wang 等人19提出了一种基于能零比和改进 LP-MM

19、SE 参数黄羿博等:基于双哈希索引的高效语音生物哈希安全检索算法 71 融合的多格式语音生物哈希方案,构建了具有可撤销性的生物特征模板。Huang 等人20提出了一种基于特征融合的生物哈希语音检索算法,首先通过FFT 与 IFFT 提取语音特征,并使用改进的 Marotto混沌矩阵生成密钥,最后将该密钥与语音特征迭代内积获得生物哈希序列。该算法构建的生物特征模板具有良好的安全性、多样性以及可撤销性。黄羿博等人21提出了一种基于混沌测量矩阵的生物哈希密文语音检索算法,该算法将混沌测量矩阵用于生物哈希构造,提高了生物特征模板的安全性、多样性和隐私性,缺点在于索引方式不够完善,处理高维数据时效率不

20、佳。在传统基于内容的语音检索方案中,建立有效的索引结构可以极大提高检索系统的效率,实现快速查询。现有的索引结构大多依据语音数据的特征分布差异,主要包括:树型索引22、哈希表索引23、语义视觉索引24和基于音节 Lattice 索引25等。Zhang等人26构建了一种基于B+Tree的安全聚类索引结构,实现了全文检索,有效提高了检索效率。Cao 等人27提出了深度柯西哈希(Deep Cauchy Hashing,DCH),主要思想是设计一个基于柯西分布的成对交叉熵损失,通过对汉明距离大于给定阈值的相似特征对进行惩罚,生成紧凑且集中的二进制哈希码,从而实现高效的汉明空间检索。Agrawal 等人2

21、8提出了一种新的索引结构 HashFile,该算法选择随机投影作为哈希函数生成哈希码,然后利用线性扫描递归地划分密集的桶并组织成树形结构。给定查询点 q,检索算法以自顶向下的方式查询该点附近的桶,将每个节点中的候选存储桶按照哈希值的升序顺序存储,最后加载到内存中进行线性扫描获得查询结果。由于随机投影有助于过滤掉远处的数据点,而线性扫描可以有效地处理剩余的候选数据点,因此检索性能得到了提高。此外,针对语音信号在云存储环境下的内容泄露问题,语音加密技术引起了国内外学者广泛关注,并将其与语音检索算法结合以实现安全语音检索,解决语音数据传输和存储安全问题。常见的语音加密方法有:时频域置乱加密29-30

22、、混沌加密31-32和音频隐写术33-34等。Khaleel 等人35提出了一种语音加密算法,并依赖于量子混沌映射和k-means聚类设计了两个置乱阶段对语音加密,使语音信号能够抵御不同类型的攻击,提高了算法的安全性。Abdullah 等人36提出了一种基于量子计算机制的音频隐写术新方法,该算法根据加密量子音频信号的状态修改宿主量子音频信号,选定最低有效量子位的状态,确保了宿主量子音频与其隐写版本之间的高度不可感知性,解决了原始音频的安全问题。1.3 本文贡献本文针对现有检索方案中存在的索引结构复杂、生物特征模板可撤销性差以及明文数据泄露问题,以基于内容保护的语音检索为背景,提出了一种基于双

23、哈希索引的高效语音生物哈希安全检索方案,具体贡献如下:(1)针对生物特征模板可撤销性差的问题,利用Bagging 分类对差分哈希分类,根据分类结果构建密钥分配索引表并建立具有单一映射密钥的生物特征模板。当受到攻击时,可以查询索引表快速更新密钥,生成新的生物特征模板,实现了生物特征模板的安全性与可撤销性。(2)针对云环境下的用户隐私安全问题,提出混合域置乱加密算法对原始语音数据加密。实验结果表明,该加密方案的密钥空间大小为 1060,可以抵御穷举密钥攻击,防止明文数据泄露。(3)针对现有索引结构复杂的问题,利用分级检索的思想,设计了一种双哈希索引的索引结构。用户先通过一级密钥分配索引表查询所属类

24、别,获得对应密钥后量化构造生物哈希码。检索时只需与二级云端生物哈希索引表中同类的哈希索引进行匹配,实现了类内检索,从而构建高效的语音哈希检索算法。2 提出的安全语音检索算法图 1 是本文提出的安全语音检索算法模型,主要包括密文语音库构建、生物特征模板构建、云端生物哈希索引表构建、以及移动端语音检索四个部分。在密文语音库构建方面,采用混合域置乱加密算法对原始语音数据加密,并将加密语音上传至云端构建密文语音库。在生物特征模板构建方面,首先,分别提取原始语音的频谱通量特征和峭度因子特征,进行特征融合得到原始语音的融合特征向量;然后,对差分哈希分类并基于分类结果构建密钥分配索引表;最后,查询密钥分配

25、索引表建立具有单一映射密钥的生物特征模板,生成原始语音的生物哈希序列并上传至云端。在云端生物哈希索引表构建方面,根据上传的密文语音库及生物哈希索引在云端构建生物哈希索引表。在移动端语音检索方面,用户输入待检索语音,利用上述方法生成待检索语音的生物哈希码并发送至云端。检索时分别将该条生物哈希码与云端生物 72 Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期图 1 语音检索算法模型 Figure 1 Speech retrieval algorithm model 哈希索引表中对应类属的哈希索引进行检索匹配,并将密文语音库中符合阈值

26、条件的密文语音发送给用户,用户在移动端可以根据对应密钥对加密语音进行解密。2.1 密文语音库的构建传统的置乱加密广泛应用于语音安全领域并取得了良好的加密效果,但它仍然存在一定的局限性,比如使用单一的一维伪随机序列作为密钥不能抵御已知明文攻击,且可能存在较多无效密钥。针对上述问题,本文采用了混合域置乱加密算法,并利用4D-Qi 超混沌系统37生成四个一维混沌序列作为该加密算法在不同域内置乱加密的初始密钥。其中4D-Qi 超混沌系统的动力学方程如式(1)所示:1111()()iiiiiiiiii iiiiiiiiiii ixyxy z wyxyx z wzzx y wwwx y z (1)式中,

27、x0,y0,z0,w0为系统初始值,为控制参量,且当=50,=4,=13,=4,=20 时,系统有两个正李雅普诺夫(Lyapunov)指数,呈现超混沌状态。该超混沌系统相图如图 2 所示。图 2 4D-Qi 超混沌系统相图 Figure 2 The phase portraits of 4D-Qi hyperchaotic system 由图 2 可以看出,该超混沌系统的动力学行为复杂,具有显著的混沌特性。因此将该混沌系统应用于语音加密,能够显著提高加密系统的安全性,扩大密钥空间。采用的混合域置乱加密算法模型如图 3 所示。黄羿博等:基于双哈希索引的高效语音生物哈希安全检索算法 73 图 3

28、混合域置乱加密算法模型 Figure 3 The mixture domain scrambling encryption algorithm model 具体加密过程如下:Step 1:通过加密密钥 Key 激发 4D-Qi 超混沌系统生成大小为 4L 的随机序列(2)。利用序列 X,Y,Z,W 对原始语音进行混合域置乱加密。12121212,LLLLXX XXXYY Y YYZZ Z ZZWW W WW (2)Step 2:通过序列 X 对原始语音 x(t)的时域方面进行置乱加密得到密文序列 S。()SXXx t (3)Step 3:将密文序列 S 进行离散余弦变换(DCT),得到 DC

29、T 域频谱序列 DS。通过序列 Y 对序列 DS 进行置乱加密得到加密 DCT 域频谱序列 EDS,进行 DCT 逆变换得到时域加密序列 ES。EDSYYDS (4)Step 4:将序列ES进行频域方面快速傅里叶变换(FFT),得到复数值形式的采样序列FS,然后分别提取其实部序列FR与虚部序列FI。通过序列Z和序列W分别对实部序列FR与虚部序列FI进行置乱加密,得到加密后的实部序列FR和虚部序列FI。根据序列FR和序列FI得到新的复数值形式的频域序列FS,最后进行FFT逆变换得到加密语音x(t)。RIRRIIRIFSFF iFZZFFWWFFF iFS (5)Step 5:将原始语音库中的语音

30、片段按照上述加密算法进行加密操作,构建密文语音库。2.2 特征融合频谱通量(Spectrum Flux,SF)表征所有相邻两个音频帧在频谱内差异的平均值,可用来描述某段语音信号的频谱能量变化并能表现语音信号能量的突变程度。其定义如式(6),式(7)所示:2(,)()()jknMnZ m kx n w mMn e (6)11111(1)(1)log(,)log(1,)MPmpSFMPZ m pZ mp (7)式中,x(n)是经过预处理后的语音信号,w(n)是窗函数,M是窗的长度,P是离散傅里叶变换的系数。峭度因子(Kurtosis Factor,Ku)是描述语音波形尖峰度的一个评价指标,用于表

31、达语音信号在某个频率范围内峭度值的大小,其定义如式(8)所示:422(,)()2(,)E X t fKu fE X t f (8)式中,符号|表示取模运算,E()表示数学期望,X(t,f)为语音信号x(t)在频率f处的复包络。本文提出的检索框架是基于内容的语音检索方法,故提取语音信号的频谱通量特征和峭度因子特征作为原始输入特征。由于语音信号由清音与浊音组成,相邻帧间能量的突变程度较大,导致单一的语音特征不能完整的表达语音信号。因此本文算法将语音信号的频谱通量特征与峭度因子特征迭代内积得到融合特征向量,如式(9)所示:74 Journal of Cyber Security 信息安全学报,202

32、4 年 3 月,第 9 卷,第 2 期 SFKuV (9)融合后的特征向量能够同时体现语音帧内以及帧与帧之间的特征,更加完整地表达语音信号特征。2.3 密钥分配索引表的构建采用索引的方式可以对系统中的数据进行快速的定位和操作,因此建立索引表可以有效组织存储系统中的数据,提高存储系统插入和查询性能。本文基于特征向量和Bagging分类算法构建密钥分配索引表,具体构建过程如下:Step 1:设原始语音为x(t),将x(t)进行预处理得到帧长为L,帧移为M,总帧数为N的语音信号xi(n)。其中,xi(n)表示第i帧的第n个采样值。然后,利用上一节提出的特征提取方法得到一维融合特征向量V=V(i)|

33、i=1,2,N。最后,将融合特征向量V进行二值化处理,得到原始语音的差分哈希序列h=h(i)|i=1,2,N。二值化处理过程二值化处理过程:设差分哈希序列h(1)为1。如果特征向量V(i)的第i个采样值大于第i1个采样值,那么差分哈希序列h(i)的值为1,否则为0。如式(10)所示:1,()(1)()0,V iV ih ielse (10)式中,i=1,2,N。Step 2:将原始语音信号的差分哈希序列h作为训练集,并定义分类标签为K,使用Bagging分类算法进行训练学习得到其分类模型。然后,根据分类结果定义各类属语音数据的单一映射密钥Key=Key(i)|i=1,2,K。其中,Baggi

34、ng算法是一种将多个独立的基分类器集成为一个分类器的集成学习方法,适用于对训练数据微小变化敏感的模型。其可重复取样的采样方式使得各训练子集间相互独立,从而得到具有较高泛化性能及较大差异度的基分类器。Bagging算法的训练过程如算法1所示。Step 3:根据原始语音的逻辑地址S、融合特征向量 V、差分哈希h,类别K以及对应密钥Key之间的单一映射关系构建密钥分配索引表。构建的索引表模型如图4所示。算法算法 1:Bagging 算法输入输入:样本集 D=(x1,y1),(x2,y2),(xm,ym),其中 x 为样本,y 为样本标签;训练轮数 P;基础学习算法。输出输出:分类结果 Z(x)。过

35、程过程:for t=1,2,P;do Dt=Bootstrapping(D);/对数据集 D 采样zt=(Dt);/在数据集 Dt上训练模型end 1()argmax()TttyZ xI z xy/I 为指示函数图 4 密钥分配索引表 Figure 4 Key distribution index table 黄羿博等:基于双哈希索引的高效语音生物哈希安全检索算法 75 2.4 生物特征模板与生物哈希索引表的构建利用上一节构建的密钥分配索引表可查询不同类别的特征向量V及其对应密钥Key,建立具有单一映射密钥的安全生物特征模板。生物特征模板构建模型如图5所示。具体构建过程如下:Step 1

36、:查询密钥分配索引表,获得各类语音的单一映射密钥Key。然后,根据不同的密钥Key激发3D-LSCM混沌系统38产生K个长度为N的一维随机序列q(i)。最后,将序列q(i)进行施密特正交化得到相互正交的随机序列Q(i)。其中,3D-LSCM混沌系统由Logistic映射与Sine映射相互嵌套耦合,具有更大的混沌映射范围和分布不均匀性。其数学表达式如式(11)所示:11111sin(3)(1)sin(3)(1)sin(3)(1)iiiiiiiiiiiixzxxyxyyzyzz (11)式中,为控制变量且0,5时,系统处于混沌状态。图 5 生物特征模板模型 Figure 5 Biometric t

37、emplate model Step 2:将不同类别语音数据的特征向量V分别与其对应的随机序列Q(i)进行迭代内积,可以得到相应的各类别生物特征向量D=D(i)|i=1,2,N。然后,将生物特征向量D(i)二值化生成生物哈希序列H=H(i)|i=1,2,N,即:哈希索引。哈希序列计算如式(12)所示:1,()(1)()0,D iD iH ielse (12)Step 3:将哈希索引上传至云端储存。该算法建立在可撤销生物特征模板的思想上,将差分哈希序列和Bagging分类算法结合,构建可供准确查询与定位的密钥分配索引表,并基于该索引表建立了K个生物特征模板,其中每个生物特征模板将根据其单一映射密

38、钥构建。对于受到攻击后的生物特征模板,可以更新密钥,快速生成新的生物特征模板。因此,该算法构建的生物特征模板具有多样性、安全性和可撤销性。在云端生物哈希索引表构建方面,云端服务器接收到上传的密文语音库以及哈希索引后,根据密文语音库中加密语音的逻辑地址AD,生物哈希序列H及其单一映射密钥Key之间的一一对应关系,构建用于语音检索的云端生物哈希索引表。构建的生物哈希索引表模型如图6所示。2.5 移动端语音检索移动端发出查询请求时,云端服务器获得待检索语音的哈希序列H 并查询云端生物哈希索引表,与所有符合权限的哈希序列进行匹配检索,将满足阈值条件的哈希序列所对应的密文语音作为检索结果反馈给用户。具

39、体检索过程如下:Step1:将待检索语音x(t)按照上述相同方法进行特征提取并得到差分哈希序列h。Step2:将序列h 作为测试数据并根据Bagging分类判断该条语音所属类别,查询密钥分配索引表获得对应密钥Key。然后,通过Key激发对应的生物特征模板,得到待检索语音的生物哈希序列H 并上传至云端。76 Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期图 6 云端生物哈希索引表 Figure 6 Cloud biological hash index table Step 3:将序列H 与生物哈希索引表中对应类别的哈希索引进行检

40、索匹配。在检索过程中,根据归一化汉明距离D(:,:)进行匹配查询,即比特误码率(BER)。其计算公式(13)为:11BER(,)()()NiD H HH iH iN (13)式中,表示异或逻辑运算,N表示生物哈希序列的长度。采用BER的假设检验对哈希序列的匹配结果进行描述。U0:如果两条语音片段内容相同,则有:D 。U1:如果两条语音片段内容不同,则有:D 。其中,为匹配阈值。当两条序列的汉明距离D小于等于阈值时,表示成功检索到相关语音片段;反之,当两条序列的汉明距离D大于阈值时,表示未检索到相关语音片段。Step 4;将匹配成功的哈希序列对应于密文语音库中相应的密文语音片段,并将相应密文语音

41、反馈给用户。用户在移动端可以根据相应解密方法对加密语音进行解密操作,其中解密为加密的逆过程,解密后的语音片段即为查询语音。3 实验结果及分析 3.1 实验环境实验所用语音均来自TIMIT(texas instruments and massachusetts institute of technology)语音数据库和TTS(text to speech)语音数据库。在原始语音数据库中有1200条不同的语音片段,其中,语音片段的格式为WAV,长度为4s。实验硬件平台为Intel(R)Core(TM)i5-4200H CPU,2.80GHz,计算机内存为8G。操作软件环境为Windows 10

42、系统的MATLAB R2020b。本文算法所用参数如下:帧长L=200,帧移M=80,总帧数N=798,分类类别K=150。3.2 区分性分析区分性用于表征不同内容语音或者相同语音的可靠性。不同语音信号生物哈希码的BER值基本服从正态分布。本实验中,1200条原始语音片段经过计算一共可以得到719400个BER值,它们基本服从正态分布,如图7所示。图 7 BER 正态分布图 Figure 7 Normal distribution of BER 根据棣莫弗-拉普拉斯中心极限定理,哈希序列的归一化汉明距离近似服从=p,(1)/ppN的正态分布,其中,为均值,为标准差,p为生物哈希序列中0或1发

43、生的概率,N为总帧数。表1给出了不同生物哈希序列长度时正态分布参数的理论值黄羿博等:基于双哈希索引的高效语音生物哈希安全检索算法 77 与实验值。表 1 不同哈希序列长度的正态分布参数 Table 1 Normal distribution parameters of different biological hash sequence lengths 理论值实验值 N t t e e 798bits 0.50 0.0177 0.4976 0.0179 639bits 0.50 0.0198 0.4971 0.0199 532bits 0.50 0.0217 0.4966 0.0219 4

44、41bits 0.50 0.0238 0.4957 0.0239 由表1可以看出,当哈希序列长度改变时,本文算法经过实验得到的正态分布参数均近似等于理论值,说明该算法有较好的随机性与抗碰撞性。为了进一步衡量本文算法的区分性,引入误识率(FAR)作为评价指标。FAR表示将不同语音片段错误判断为相同语音片段的概率,其公式(14)如下:22()21FAR(|,)dd2xf xxex (14)式中,FAR代表误识率,代表匹配阈值,代表BER均值,代表BER标准差。其中,FAR的值越小,表示误判语音的概率越小,算法的区分性越好。图 8 不同生物哈希序列长度的 FAR 曲线 Figure 8 FAR of

45、 different biological hash sequence lengths 由图8可以看出,选择不同生物哈希序列长度时实验得到的FAR曲线与理论FAR曲线基本重合。因此,本文算法具有较低的误识率。表2,表3分别对比了本文算法中选取不同生物哈希序列长度时的FAR值以及本文算法与其他算法的FAR值。从表2可以看出,随着哈希序列长度增加,FAR值逐渐变小,当生物哈希序列长度为798时,FAR值最小,区分性达到最佳。表 2 不同哈希序列长度的 FAR 值 Table 2 FAR of different biological hash sequence lengths 798bits 63

46、9nits 532bits 441bits 0.10 4.764e-1101.627e-88 7.264e-74 1.126e-610.20 1.283e-621.719e-50 3.069e-42 2.355e-350.25 5.455e-441.477e-35 8.100e-30 5.102e-250.30 9.568e-292.463e-23 1.190e-19 1.468e-160.35 7.082e-178.147e-14 9.934e-12 5.733e-100.40 2.321e-085.605e-07 4.941e-06 3.179e-05 表 3 不同算法的 FAR 值 Ta

47、ble 3 FAR of different algorithms 本文算法(798bits)文献39文献40 文献41文献420.104.763e-1108.006e-409.913e-47 3.654e-426.773e-470.201.283e-622.948e-235.271e-27 1.405e-242.992e-270.255.455e-441.014e-163.009e-19 1.215e-171.668e-190.309.568e-292.422e-116.870e-13 6.166e-123.893e-130.357.082e-174.092e-076.403e-08 1.8

48、74e-073.877e-080.402.321e-085,078e-042.540e-04 3.540e-041.714e-04 由于FAR值易受哈希序列长度影响,为了更好地反映本文算法在不同哈希序列长度时的区分性,可以引入熵率(ER)作为另一衡量标准。ER主要比较哈希算法的综合性能,且不受哈希序列长度的影响,是算法区分性和摘要性的联合评价指标,其取值范围是(0,1)。ER值越接近1,表示算法的区分性越好。ER的计算公式如式(15),式(16)所示:22ERlog(1)log(1)PPPP (15)2222|1(1)2teteP (16)式中,t和e分别表示BER值的理论与实验标准差;ER是

49、熵率,且ER值越大,区分性越好。由表4可以看出,本文算法在不同生物哈希序列长度时的ER值均接近于1,可以说明该算法有较好的区分性。由表3,表5可以看出,相比于其他算法,本文算法具有更理想的FAR值和ER值。当匹配阈值为0.35时,本文算法的FAR值为7.0821017,表示判断1017条语音片段时大约有7.082条被误识,在相同条件的匹配阈值下,是文献39的5.778109倍,文献40的9.041108倍,文献41的2.646109倍,文献42的5.474108倍。78 Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期表 4 不同

50、哈希序列长度的 ER 值 Table 4 ER of different biological hash sequence lengths N ER 798bits 0.9919 639bits 0.9964 532bits 0.9934 441bits 0.9970 表 5 不同算法的 ER 值 Table 5 The ER of different algorithms t e ER 本文算法 0.0177 0.0179 0.9919 文献39 0.0264 0.0304 0.8964 文献40 0.0264 0.0277 0.9651 文献41 0.0264 0.0295 0.9187

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于双哈希索引高效语音生物安全检索算法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。