基于双哈希索引的高效语音生物哈希安全检索算法.pdf
《基于双哈希索引的高效语音生物哈希安全检索算法.pdf》由会员分享,可在线阅读,更多相关《基于双哈希索引的高效语音生物哈希安全检索算法.pdf(15页珍藏版)》请在咨信网上搜索。
1、第 9 卷 第 2 期 信 息 安 全 学 报 Vol.9 No.2 2024 年 3 月 Journal of Cyber Security March 2024 通讯作者:黄羿博,博士,副教授,Email:huang_。本课题得到甘肃省科技计划项目资助,甘肃省自然科学基金(No.21JR7RA120)和国家自然科学基金(No.61862041)资助。收稿日期:2022-04-05;修改日期:2022-12-21;定稿日期:2023-11-02 基于双哈希索引的高效语音生物哈希安全检索算法 黄羿博1,陈德怀1,张秋余2 1西北师范大学 物理与电子工程学院 兰州 中国 730070 2兰州理工
2、大学 计算机与通信学院 兰州 中国 730050 摘要 针对语音数据在信道传输与云端存储时的安全性问题,以及由于语音数据数目大、维数高、空间复杂度高带来的检索效率问题,提出了一种基于双哈希索引的高效语音生物哈希安全检索算法。首先,在服务端分别提取语音信号的频谱通量与峭度因子特征并将两种特征融合,利用Bagging分类对语音信号的差分哈希分类,并基于分类结果构建密钥分配索引表;然后,根据密钥分配索引表建立具有单一映射密钥的生物特征模板,并将其量化构造生物哈希,得到哈希索引;同时,采用混合域置乱加密算法对原始语音加密,构建密文语音库;最后,将哈希索引与密文语音库上传至云端并构建云端生物哈希索引表。
3、在移动端,采用归一化汉明距离进行匹配检索。实验结果表明:本文算法的匹配阈值区间为(0.2694,0.4173),说明该检索算法能够灵活选取匹配阈值,具有较好的鲁棒性和区分性;检索过程中单条语音平均检索时间仅为 9.4957104s,并且经过 15 种内容保持操作后的查全率与查准率均为100%,说明该算法具有较好的检索性能,可以满足各种环境下的语音检索需求;同时提出的加密算法密钥空间大小为 1060,说明能够抵御穷举密钥攻击、保证语音数据的安全;此外,构建的生物特征模板具有良好的多样性、安全性和可撤销性。关键词 安全语音检索;双哈希索引;生物特征模板;生物哈希;密文语音 中图法分类号 TP391
4、.3;TN912.3 DOI 号 10.19363/J10-1380/tn.2024.03.06 Efficient Speech Biological Hashing Secure Retrieval Al-gorithm Based on Double Hash Index HUANG Yibo1,CHEN Dehuai1,ZHANG Qiuyu2 1 College of Physics and Electronic Engineering,Northwest Normal University,Lanzhou 730070,China 2 School of Computer and
5、Communication,Lanzhou University of Technology,Lanzhou 730050,China Abstract Aiming at the security of speech data in channel transmission and cloud storage,as well as the problems of retrieval efficiency caused by the large number,high dimension and high spatial complexity of speech data,an efficie
6、nt speech biological hashing secure retrieval algorithm based on double hash index is proposed.Firstly,the spectral flux and kurtosis factor features of speech signal are extracted in the server terminal,and then the two features are fused,Bagging classification is used to classify speech signals by
7、 differential hashing,and the key distribution index table is constructed based on the classification results;then,according to the key distribution index table,the biometric template with a single mapping key is established,and its biometric hash is quantized to obtain the hash index;at the same ti
8、me,the mixed do-main scrambling encryption is used to encrypt the original speech and construct the encrypted speech database;finally,the hash index and encrypted speech database are uploaded to the cloud and the biological hash index table is constructed.In the mobile terminal,using normalized hamm
9、ing distance for matching retrieval.The experimental results show that the matching threshold interval obtained by the algorithm is(0.2694,0.4173),which shows that the retrieval system can flexi-bly select the matching threshold and has good robustness and discrimination;the average retrieval time o
10、f a single speech in the retrieval process is only 9.4957 104s,and the recall and precision after 15 kinds of content preservation operations are 100%,it shows that the algorithm has good retrieval performance and can meet the needs of speech retrieval in various environments;at the same time,the si
11、ze of the encryption algorithm key space is 1060,which shows that it can resist ex-haustive key attack and ensure the security of speech data;in addition,the constructed biometric templates have good di-versity,security and revocability.Key words secure speech retrieval;double hash index;biometric t
12、emplate;biological hashing;encrypted speech 70 Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期 1 引言 1.1 研究背景 云计算的发展推动了语音等多媒体数据的制造、传播和存储。要从海量多媒体数据中准确、高效地查询到精确信息,仅仅依靠简要文本标签难以实现。基于内容的语音检索技术研究利用音频的物理特征、听觉特征以及语义特征实现音频信息检索1,成为现阶段音频检索领域的一项重要研究课题。此外,云存储技术作为云计算领域的一项重要技术,已经成为用户将数据外包存储的关键方式,极大的缓解了日益严重的
13、“数据丰富”问题。近年来,由于云环境半开放的特点,数据安全问题频发,用户隐私信息遭受泄露。因此,当云服务器中存储敏感数据时,如何在保护用户隐私的前提下实现高效、安全的语音检索,成为目前音频检索领域亟须解决的关键问题之一。针对语音内容检索的需求,基于哈希算法2的语音检索技术应运而生。哈希算法具有良好鲁棒性和区分性的同时耗费较低的计算和存储空间,因而被广泛用于语音内容检索以实现近似最近邻(Ap-proximate nearest neighbor,ANN)搜索3。用户将原始语音数据量化构造为特定长度的二进值哈希码,并通过计算哈希码之间的汉明距离获得对应语音数据,在实现精确检索的同时避免了原始数据直
14、接暴露于云环境而带来的安全隐患。但是,在语音数据海量化、高维化的发展趋势下,传统基于哈希的近邻检索算法的检索效率降低,难以达到在有效时间内寻找到目标的要求。索引表4的出现既能保证数据的灵活访问与共享又可以减少计算开销,实现快速查询。索引表是根据关键码值而直接访问内存存储位置的数据结构,可以有效提升查询速度。由于哈希算法与索引表的种种优势与特征,基于索引的语音哈希检索技术5被相应提出,将二进制哈希码作为索引,构建出具有安全性、高效性的哈希索引表。在实际生活中,不同语音数据的特征分布存在差异,可以通过机器学习算法来学习这些语音数据的特征分布,构建一种“可学习”索引结构,以达到优化索引结构的目的。因
15、此,双哈希索引的高效语音检索方案的研究具有重大的实际意义和应用价值。1.2 研究现状 语音检索的研究由来已久,早期的语音检索主要通过语音识别技术6实现。但是识别系统的性能受多方面的影响,检索结果差强人意。20 世纪 70 年代,Bridle 首先提出关键词检出技术7,并定义为“给定词识别”。随后,Christiansen 等人8提出“关键词”的概念,并沿用至今。其提出的关键词检出技术是通过信号的线性预测编码技术(Linear Predictive Coding,LPC)实现对连续语音中关键词的检索和定位,对 10个数字以内的识别具有较高准确率。在 1985 年,Higgins 等人9提出了填充
16、模型(Filler)的概念,用来对关键词以外的发音现象建模,并利用模型连接的方法构建了关键词检索系统。在 2008 年,Felipe 等人10将 R-Tree 与叠加的文本签名相结合,引入了一种称为 IR2-Tree(信息检索 R-Tree)的索引结构,并使用该索引结构实现 top-k 空间关键字查询。在 2015年,Singh 等人11提出了一种基于投影和多尺度哈希(ProMiSH)的关键词搜索方案,使用随机投影和基于多尺度哈希的索引结构,显示出优越的可扩展性,实验结果表明,该方案的检索效率远远高于基于树的检索系统。虽然关键词检出技术已经发展得非常成熟,但是容易遭受字典和统计攻击,无法保证搜
17、索隐私性。因此,基于内容的语音检索技术逐渐成为研究重点。其思想是对语音内容特征进行分析和提取,然后将这些内容特征作为索引并采用一种近似匹配的思想进行检索,根据匹配距离与阈值的大小关系获得检索结果。其中,结合感知哈希12是基于内容的语音检索的一项重要技术手段,研究人员已经在此方面取得了众多研究成果。如:He 等人13提出了一种基于音节级感知哈希的加密语音检索算法,该算法利用声学模型提取语音特征并构造感知哈希,对各种信号环境下的语音数据都具有良好的查全率、查准率和感知鲁棒性。Zhang 等人14通过提取语音信号的短期互相关特征作为特征摘要构造感知哈希,并通过度量哈希码之间的汉明距离实现语音检索。尽
18、管感知哈希技术因其单向转换的特点而具有良好的鲁棒性与单向性,但是没有更好的权衡安全性与可撤销性。因此,基于生物特征模板15-16保护的语音检索方案引起了广泛关注。生物哈希17法又叫加盐法,是一种有效的生物特征模板保护方法,其在提取生物特征的基础上,使用特定密钥定义了一个正交随机变换函数,并利用该函数对生物特征进行变换,进一步量化获得生物哈希序列。Teoh等人18提出了一种基于随机多空间量化(RMQ)的生物哈希,该方法首先将原始特征转换为低维特征向量,然后映射到指定的随机子空间序列上,最后将特征向量重新映射量化后得到 RMQ 生物哈希序列。Wang 等人19提出了一种基于能零比和改进 LP-MM
19、SE 参数黄羿博 等:基于双哈希索引的高效语音生物哈希安全检索算法 71 融合的多格式语音生物哈希方案,构建了具有可撤销性的生物特征模板。Huang 等人20提出了一种基于特征融合的生物哈希语音检索算法,首先通过FFT 与 IFFT 提取语音特征,并使用改进的 Marotto混沌矩阵生成密钥,最后将该密钥与语音特征迭代内积获得生物哈希序列。该算法构建的生物特征模板具有良好的安全性、多样性以及可撤销性。黄羿博等人21提出了一种基于混沌测量矩阵的生物哈希密文语音检索算法,该算法将混沌测量矩阵用于生物哈希构造,提高了生物特征模板的安全性、多样性和隐私性,缺点在于索引方式不够完善,处理高维数据时效率不
20、佳。在传统基于内容的语音检索方案中,建立有效的索引结构可以极大提高检索系统的效率,实现快速查询。现有的索引结构大多依据语音数据的特征分布差异,主要包括:树型索引22、哈希表索引23、语义视觉索引24和基于音节 Lattice 索引25等。Zhang等人26构建了一种基于B+Tree的安全聚类索引结构,实现了全文检索,有效提高了检索效率。Cao 等人27提出了深度柯西哈希(Deep Cauchy Hashing,DCH),主要思想是设计一个基于柯西分布的成对交叉熵损失,通过对汉明距离大于给定阈值的相似特征对进行惩罚,生成紧凑且集中的二进制哈希码,从而实现高效的汉明空间检索。Agrawal 等人2
21、8提出了一种新的索引结构 HashFile,该算法选择随机投影作为哈希函数生成哈希码,然后利用线性扫描递归地划分密集的桶并组织成树形结构。给定查询点 q,检索算法以自顶向下的方式查询该点附近的桶,将每个节点中的候选存储桶按照哈希值的升序顺序存储,最后加载到内存中进行线性扫描获得查询结果。由于随机投影有助于过滤掉远处的数据点,而线性扫描可以有效地处理剩余的候选数据点,因此检索性能得到了提高。此外,针对语音信号在云存储环境下的内容泄露问题,语音加密技术引起了国内外学者广泛关注,并将其与语音检索算法结合以实现安全语音检索,解决语音数据传输和存储安全问题。常见的语音加密方法有:时频域置乱加密29-30
22、、混沌加密31-32和音频隐写术33-34等。Khaleel 等人35提出了一种语音加密算法,并依赖于量子混沌映射和k-means聚类设计了两个置乱阶段对语音加密,使语音信号能够抵御不同类型的攻击,提高了算法的安全性。Abdullah 等人36提出了一种基于量子计算机制的音频隐写术新方法,该算法根据加密量子音频信号的状态修改宿主量子音频信号,选定最低有效量子位的状态,确保了宿主量子音频与其隐写版本之间的高度不可感知性,解决了原始音频的安全问题。1.3 本文贡献 本文针对现有检索方案中存在的索引结构复杂、生物特征模板可撤销性差以及明文数据泄露问题,以基于内容保护的语音检索为背景,提出了一种基于双
23、哈希索引的高效语音生物哈希安全检索方案,具体贡献如下:(1)针对生物特征模板可撤销性差的问题,利用Bagging 分类对差分哈希分类,根据分类结果构建密钥分配索引表并建立具有单一映射密钥的生物特征模板。当受到攻击时,可以查询索引表快速更新密钥,生成新的生物特征模板,实现了生物特征模板的安全性与可撤销性。(2)针对云环境下的用户隐私安全问题,提出混合域置乱加密算法对原始语音数据加密。实验结果表明,该加密方案的密钥空间大小为 1060,可以抵御穷举密钥攻击,防止明文数据泄露。(3)针对现有索引结构复杂的问题,利用分级检索的思想,设计了一种双哈希索引的索引结构。用户先通过一级密钥分配索引表查询所属类
24、别,获得对应密钥后量化构造生物哈希码。检索时只需与二级云端生物哈希索引表中同类的哈希索引进行匹配,实现了类内检索,从而构建高效的语音哈希检索算法。2 提出的安全语音检索算法 图 1 是本文提出的安全语音检索算法模型,主要包括密文语音库构建、生物特征模板构建、云端生物哈希索引表构建、以及移动端语音检索四个部分。在密文语音库构建方面,采用混合域置乱加密算法对原始语音数据加密,并将加密语音上传至云端构建密文语音库。在生物特征模板构建方面,首先,分别提取原始语音的频谱通量特征和峭度因子特征,进行特征融合得到原始语音的融合特征向量;然后,对差分哈希分类并基于分类结果构建密钥分配索引表;最后,查询密钥分配
25、索引表建立具有单一映射密钥的生物特征模板,生成原始语音的生物哈希序列并上传至云端。在云端生物哈希索引表构建方面,根据上传的密文语音库及生物哈希索引在云端构建生物哈希索引表。在移动端语音检索方面,用户输入待检索语音,利用上述方法生成待检索语音的生物哈希码并发送至云端。检索时分别将该条生物哈希码与云端生物 72 Journal of Cyber Security 信息安全学报,2024 年 3 月,第 9 卷,第 2 期 图 1 语音检索算法模型 Figure 1 Speech retrieval algorithm model 哈希索引表中对应类属的哈希索引进行检索匹配,并将密文语音库中符合阈值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 双哈希 索引 高效 语音 生物 安全 检索 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。