基于改进型B%2B树的电力多模态数据索引系统研究.pdf
《基于改进型B%2B树的电力多模态数据索引系统研究.pdf》由会员分享,可在线阅读,更多相关《基于改进型B%2B树的电力多模态数据索引系统研究.pdf(6页珍藏版)》请在咨信网上搜索。
1、2023 年 11 月第 19 卷 第 4 期系统仿真技术System Simulation TechnologyNov.,2023Vol.19,No.4基于改进型B+树的电力多模态数据索引系统研究张才俊,江帆*,张波(国家电网有限公司 客户服务中心,天津 300309)摘要:电力系统数据在指数级增长的同时也逐渐呈现出多模态特性,这使得传统索引方法不能满足电力业务对异构数据进行快速内容检索与协同管理的需求。因此,本研究在传统B+树索引的基础上,加入倒排索引,并针对电力多模态数据设计了双层混合索引结构。该结构对数据属性和属性值分别建立索引,并依据数据属性的不同类型构建不同的索引结构。双层混合索引
2、能够避免传统单一B+树的不足,在降低时间和空间开销的同时更好地满足了电力业务需求,从而为电力系统智能化分析与应用提供有效支撑。关键词:多模态数据;B+树索引;倒排索引;双层混合索引Research on Power Multimodal Data Index System Based on Improved B+TreeZHANG Caijun,JIANG Fan*,ZHANG Bo(Customer Service Center of State Grid Co.,Ltd.,Tianjin 300309,China)Abstract:The exponential growth of pow
3、er data gradually presents multimodal characteristic,which makes traditional indexing methods unable to meet the needs of content retrieval and collaborative management of data with different structure in power business.Therefore,based on the traditional B+tree index,the inverted index is introduced
4、,and the double-layer hybrid index structure is designed for multimodal data of electric power.The structure builds indexes for data attributes and attribute values respectively,and builds different index structures according to the type of data attributes.The double-layer hybrid index can avoid the
5、 shortcomings of the traditional single B+tree,and meet the needs of power business better while reducing the time and space expense,thereby providing effective support for intelligent analysis and application of the power system.Key words:multimodal data;B+tree index;inverted index;double-layer hyb
6、rid index随着电力行业朝着信息化、数字化、智能化方向发展,以及电力系统不断与物联网、云计算和大数据等信息系统进行深度融合,电力系统数据在呈现出指数级增长趋势的同时,也在朝着多元化和复杂化的方向发展,从其数据类型分布和信息表现形式来看,逐渐体现出多模态特性1。为了满足数据业务功能,各数据库除了将数据直接存储外,还需为各类数据建立文件内容索引,即根据指定信息定位匹配相关内容2。目前内容索引建立方法主要依据关系数据库普遍采用B+树索引结构3,该索引在处理中小型数量级且结构简单的文件时效率较高。然而,随着电力大数据的发展,以文本、图像、音频等为内容形式的多模态电力业务数据呈爆炸式增长,依据普通
7、B+树建立的索引结构由于自身节点分裂频繁和索引易失效的缺点就无法实现数资助项目:国网客服中心2020年网上国网服务后台设计开发实施项目(71993118000D)通信作者:江帆,E-mail:中图分类号:TM41 文献标志码:A DOI:10.16812/31-1945.2023.04.001张才俊,等:基于改进型B+树的电力多模态数据索引系统研究据高效处理4。针对B+树索引结构的局限性,本研究综合基础索引提出一种适用于电力多模态大数据的混合索引结构。1 B+树索引结构及改进 1.1B+树索引结构面对大数据量的存储,为了有效降低树的深度、提高查询效率,在平衡二叉树基础上发展出来的B树索引被提出
8、,其一个节点可存储多个关键字,这样在相同数据量级下,磁盘访问次数也伴随着树高的降低而减少,时空开销速度得到了降低5。B+树与B树的不同点在于,B+树改善了其叶子节点和非叶子节点的逻辑结构,使内部节点主要存储记录名称、索引指针,把所有的关键字都存储在叶子节点上,使得相同节点能够存储更多的信息,从而进一步降低磁盘访问次数6。一个m阶B+树具有如下特性:(1)B+树与B树不同,B+树节点分为叶子节点和内部节点,其中内部节点不存储数据,只保存索引结构,所有关键字的值都保存在叶子节点中;(2)B+树中每个内部节点至多含有m棵子树和m1个关键字;(3)除根节点外的所有内部节点至少有m/2棵子树和m/21个
9、关键字;(4)B+树中根节点至少有一个元素;(5)B+树中有头部指针指向第一个叶子节点,之后每一个叶子节点都指向下一个叶子节点,因此叶子节点中关键字的大小从左到右成为了一条顺序链表。B+树独特的结构使其适合用来对关系型数据库建立索引。然而,在对来源广泛、种类繁多、规模庞大的电力多模态数据建立索引时,B+树存在2个问题:(1)电力多模态数据总体可分为数值型数据和字符型数据,当B+树对字符型数据建立索引时,非叶子节点分裂较为频繁,使得树的高度增加,带来索引空间和时间的较大开销;(2)B+树自身顺序匹配的特点会在进行全文内容检索时带来索引失效的问题。因此,需要对传统索引结构进行改进。1.2索引结构改
10、进每一种模态具有一种信息形式,具有多种信息形式的电力多模态大数据主要来自数据采集与监视控制系统、能量管理系统、配电管理系统、市场运行系统等,这些系统以不同的方式汇集到电力业务中台,作为电力系统智能化分析的数据基础7。为了支撑电力系统中的多模态数据业务,需要针对不同类型的数据建立高效索引,并同时满足多样化数据检索的需求。倒排索引是用于全文内容检索的一种索引方法,该索引的结构主要采取“内容-文档”形式,记录某项内容在文档中出现的情况,以及某一文档中存在的不同内容项。倒排索引对内容和内容在文档中的位置进行了映射,主要由“内容词典”和“倒排列表”组成8。其中文档包含的对象有很多,涵盖以结构化、半结构化
11、、非结构化数据为内容形式的各种文件。从倒排索引的结构来看,其能够为不同类型的电力数据建立索引,在处理字符型数据时不会带来较大的时间和空间开销;从倒排索引的功能来看,虽然能够在进行全文内容索引过程中避免索引失效的问题,但无法满足电力业务中对于数值型数据按数值范围进行检索的需求。从电力系统中采集到的多模态数据通过文本、图像、音频等形式展现,单一的索引结构无法在保证性能和功能的情况下实现数据的索引建立和内容检索,因此,本研究综合考虑B+树索引和倒排索引特点,以B+树索引结构为基础提出一种可以用于处理电力多模态数据的双层混合索引。混合索引的第一层采用传统的B+树结构。假设现有电力系统某段输电线路关于微
12、小金具缺陷监测的文档,通过解析这些文档,可以确定文档内容包含如缺陷发现时间、缺陷数量的数值型数据,也有如缺陷类型、缺陷严重程度、缺陷发生地点等字符型数据,还有如缺陷采集照片的图像数据。数据的属性列表如表1所示。为表1文档数据建立混合索引的第一层B+树结构如图1所示,其中节点内容按属性标记的字母顺序进行排序。混合索引的第二层根据第一层叶子节点的数据属性来构建索引。如果第一层叶子节点的属性是数值型,第二层就针对这一类型的数据建立B+树索引;如果属性为其他类型,第二层就对这一类型的数据建立倒排索引,其中图像、音频等数据可经过处理转换为字符型数据。如图2所示为对输电线路监测数据加上第二层索引之后的混合
13、索引结构。表1输电线路微小金具缺陷数据的属性列表Tab.1The attribute list of data from micro hardware defecting in transmission line属性名缺陷采集照片缺陷发现时间缺陷类型缺陷数量缺陷严重程度缺陷类型属性标记dePicdeTimedeTypedeCountdeLeveldeType属性类型图像数值型字符型数值型字符型字符型图1混合索引的第一层结构Fig.1The first layer structure of the hybrid index303系统仿真技术第 19 卷 第 4 期图2中索引结构的第二层列举了具体
14、属性所对应的属性值混合索引的具体组成,其中B+Tree Index和Inverted Index分别表示第二层为B+索引和倒排索引,File表示包含该数据所在文件的文件名称,Freq表示该数据在File中出现的频数,Loc表示包含该数据所在文件的存储位置。在为字符型数据建立索引时,混合索引方法能够将文档内容以“内容-文档”的形式连续存储在倒排索引结构中,而不会出现长字符串无法保存在B+树非叶子节点中导致的节点频繁分裂问题。此外,倒排索引结构能够在对文档进行分词的过程中维护“内容词典”和“倒排列表”快速进行内容匹配,不会出现使用B+树进行全文内容检索时的索引失效问题。2 电力多模态数据索引构建
15、2.1电力多模态数据索引构建方法针对电力多模态数据创建混合索引的步骤如下。步骤1:分析从不同电力业务子系统采集到的数据文档,解析文档内容。对于某一文档内容,首先判断其属性类型,并且将其属性插入到第一层 B+树结构中,然后执行步骤2。步骤2:根据步骤1中内容属性为其属性值建立相对应的第二层索引结构。如果其属性是数值型就建立B+树索引;如果其属性是字符型、图像或音频就建立倒排索引。完成后继续执行步骤3。步骤3:若文档中所有内容均按属性和属性值的方式存在于索引结构中,索引创建完成;否则重复执行步骤1,判断文档内容属性,如果在第一层的B+树中已经存在这一属性,则只需在对应的第二层中添加该属性值;如果在
16、第一层的B+树中不存在这一属性,则先在第一层的B+树中添加新的属性节点,然后根据属性类型来创建第二层的索引结构。双层混合索引创建算法如算法1所示。2.2电力多模态数据检索方法双层混合索引下电力多模态数据的检索算法如下。步骤1:首先分析电力业务,明确需要检索的电力数据内容,然后执行步骤2。步骤2:确定要检索内容的属性。如果第一层属性B+树索引中没有该属性,那么需要检索的内容不在算法1 双层混合索引创建算法输入 电力多模态数据输出 双层混合索引Begin1.获取文件数据集fileSet2.初始化索引结构3.for file in fileSet do/遍历文件数据集4.for content in
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 改进型 电力 多模态 数据 索引 系统 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。