面向时空数据场景的数据库索引选择框架.pdf
《面向时空数据场景的数据库索引选择框架.pdf》由会员分享,可在线阅读,更多相关《面向时空数据场景的数据库索引选择框架.pdf(9页珍藏版)》请在咨信网上搜索。
1、2023年第49卷第4期无线电通信技术665 doi:10.3969/j.issn.1003-3114.2023.04.010引用格式:徐康镭,乔少杰,陈金勇,等.面向时空数据场景的数据库索引选择框架J.无线电通信技术,2023,49(4):665-673.XU Kanglei,QIAO Shaojie,CHEN Jinyong,et al.A Framework for Database Index Selection over Spatio-temporal Data Scenarios J.Radio Communications Technology,2023,49(4):665-67
2、3.面向时空数据场景的数据库索引选择框架徐康镭1,乔少杰1,陈金勇2,张 桃3,高 林2,冉黎琼1,谢添丞1,于 泳1,彭钰寒1,焦育威4(1.成都信息工程大学 软件工程学院,四川 成都 610225;2.中国电子科技集团公司第五十四研究所,河北 石家庄 050081;3.宜宾学院 人工智能与大数据学部,四川 宜宾 644000;4.四川数字交通科技股份有限公司,四川 成都 610225)摘 要:索引是一种用于提高数据库查询效率的数据结构,良好执行计划的生成和选择很大程度上取决于数据表上是否存在合适的索引。然而,面对复杂的时空数据场景,现有的索引选择方法存在很多不足,如无法高效处理大量范围查询
3、、容易造成索引冗余、无法有效应对动态的工作负载等问题。针对上述问题,提出一种新型基于深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)模型和索引效益评估网络的索引选择框架:ST-IS(Index Selection method tailored for Spatio-Temporal data scenarios)。ST-IS 集成了对 SQL 语句和索引集的新型编码方法,有效避免索引冗余或索引缺失。ST-IS 使用索引效益评估网络来优化强化学习的奖励机制,同时支持动态的工作负载。大量实验结果表明,在真实时空数据集和 TPC-DS 标准数据集上
4、,ST-IS 的性能优于现有的索引选择方法。关键词:时空数据;强化学习;索引选择;查询优化;移动数据挖掘中图分类号:TP311 文献标志码:A 开放科学(资源服务)标识码(OSID):文章编号:1003-3114(2023)04-0665-09A Framework for Database Index Selection over Spatio-temporal Data ScenariosXU Kanglei1,QIAO Shaojie1,CHEN Jinyong2,ZHANG Tao3,GAO Lin2,RAN Liqiong1,XIE Tiancheng1,YU Yong1,PENG
5、Yuhan1,JIAO Yuwei4(1.School of Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China;2.The 54th Research Institute of CETC,Shijiazhuang 050081,China;3.Faculty of Artificial Intelligence and Big Data,Yibin University,Yibin 644000,China;4.Sichuan Digital Transportation
6、 Technolgy Co.,Ltd.,Chengdu 610225,China)收稿日期:2023-03-04基金项目:国家自然科学基金(62272066,61962006);四川省科技计划(2021JDJQ0021,2022YFG0186,2022NSFSC0511,2023YFG0027,2022YFG0325,2021YFG0029);教育部人文社会科学研究规划基金(22YJAZH088);宜宾市引进高层次人才项目(2022YG02);成都市“揭榜挂帅”科技项目(2022-JB00-00002-GX,2021-JB00-00025-GX);成都市重大科技创新项目(2021-YF08-0
7、0156-GX);中国电子科技集团公司第五十四研究所高校合作课题(SKX212010057);四川省教育厅人文社科重点研究基地四川网络文化研究中心资助科研项目(WLWH22-1);成都信息工程大学科技创新能力提升计划(KYTD202222);成都海关科研项目(2022CK008)Foundation Item:National Natural Science Foundation of China(62272066,61962006);Sichuan Science and Technology Program(2021JDJQ0021,2022YFG0186,2022NSFSC0511,20
8、23YFG0027,2022YFG0325,2021YFG0029);Planning Foundation for Humanities and Social Sciences of Ministry of Education of China(22YJAZH088);High-level Talent Introduction Project of Yibin(2022YG02);Chengdu“Take the lead”Science and Technology Pro-ject(2022-JB00-00002-GX,2021-JB00-00025-GX);Chengdu Major
9、 Science and Technology Innovation Project(2021-YF08-00156-GX);The 54th Re-search Institute of China Electronics Technology Group Corporation-University Cooperation Project(SKX212010057);Web Culture Project Sponsored by the Humanities and Social Science Research Base of the Sichuan Provincial Educat
10、ion Department(WLWH22-1);Science and Technology Innovation Capability Improvement Project of Chengdu University of Information Technology(KYTD202222);Chengdu Customs Scientific Research Project(2022CK008)666 Radio Communications TechnologyVol.49 No.4 2023Abstract:The index is a data structure used t
11、o improve the efficiency of database queries,and the generation and selection of a good execution plan depends much on the presence of appropriate indexes on data tables.However,existing index selection methods have many shortcomings when facing with complex spatio-temporal data scenarios,such as in
12、efficient handling of a great number of range queries,potential index redundancy,and inability to effectively handle dynamic workloads.Aiming to cope with these problems,a new index selection framework called ST-IS(Index Selection method tailored for Spatio-Temporal data scenarios)is proposed,which
13、is based on the Deep Deterministic Policy Gradient(DDPG)and an index utility evaluation network.ST-IS integrates a novel encoding method for SQL statements and index sets,effectively avoiding index redundancy or missing indexes.ST-IS uses an index utility evalua-tion network to optimize the reinforc
14、ement learning reward mechanism,while supporting dynamic workloads.Extensive experiments are conducted and the results show that ST-IS outperforms existing index selection methods on real spatio-temporal datasets and the TPC-DS benchmark dataset.Keywords:spatio-temporal data;reinforcement learning;i
15、ndex selection;query optimization;mobile data mining0 引言近年来,随着移动传感器、物联网、全球定位系统等技术的发展,时空数据的产生和应用越来越广泛1。时空数据是指具有时间和空间属性的数据,如轨迹数据2-3、遥感影像数据、地理位置数据等,常用于交通管理4-5、疾病监控、环境监测、犯罪分析等领域。时空数据具有多源异构、动态变化、复杂关联等特性。因此,如何高效地管理和查询时空数据成为数据库领域的一个重要研究问题。数据库索引是提高时空数据查询效率的一个重要手段之一,它可以根据不同的查询条件快速定位到所需的数据记录,但也会增加存储空间和更新开销6。索
16、引选择的目的是适当地创建和删除索引,以确保索引的大小在约束范围内且工作负载的性能得到优化,过多无用或冗余的索引会浪费存储空间和更新时间,甚至可能影响数据库优化器选择最佳执行计划。传统的索引选择主要采用启发式方法7-10,它利用问题的启发信息(如属性的数据分布、查询频率、更新频率等),根据代价估计信息来指导索引的创建、删除和调整。然而,在面对时空数据场景时,传统的索引选择方法往往无法满足多样化、高效率、低延迟等需求,因此需要针对时空数据场景设计新型索引选择框架。基于以上问题,本文提出一种针对时空数据场景的索引选择框架(Index Selection method tailored for Spa
17、tio-Temporal data scenarios,ST-IS)。ST-IS 的主要贡献如下:提出一种基于深度确定策略梯度模型11的索引选择模型,能有效处理大规模时空数据下的连续索引选择动作。提出新型的 SQL 语句编码方法,能够准确地对复杂的嵌套 SQL 语句编码,定位索引候选属性,防止索引缺失。提出新型的索引集编码方法,能全面而精简地表达每个表上的索引集,大大简化索引选择动作,避免索引冗余。提出一种基于多头注意力机制12和门控循环单元(Gate Recurrent Unit,GRU)模型13的索引效益评估方法,使模型能在动态的工作负载14下保持索引的优化效果。在真实出租车数据集15以及
18、 TPC-DS 通用模拟数据集16上进行大量对比实验,证明了本文所提方法的实用性和有效性。1 相关工作1.1 索引选择框架索引选择问题(Index Selection Problem,ISP)17是指在一定约束条件内(如存储空间限制、索引中包含的最大属性个数等),为给定工作负载选择最佳的索引集,使得该工作负载获得最佳的运行效率。ISP 问题已被证明为 NP-Hard 问题18-19,其难点包括:索引的选择不仅是在单个属性上进行,还需要考虑在多个属性上建立的联合索引,以及多表连接查询的复杂情况,这使得 ISP 问题的搜索空间大大增加。现实中的工作负载是动态变化的(如数据库的读写比、业务类型、表结
19、构等),因此要实时更新索引,以避免数据倾斜造成优化效果变差。增加索引会造成数据的插入和更新变慢,因此要避免冗余的索引。目前,已有一些基于启发式算法的索引选择方法,将索引选择问题描述为背包问题。这些方法的搜索空间较大,且无法适用动态的工作负载。当发2023年第49卷第4期无线电通信技术667 生数据库相关业务变化时,需要重新考虑所有可能情况,不具有学习能力。1.2 深度强化学习深度强化学习是一种结合了深度学习和强化学习的机器学习方法,它能够让智能体在复杂的环境中通过与环境的交互来自主地学习最优的行为策略。Sharma 等人20提出一种基于 DQN21模型的索引选择方法:NoDBA;Zhou 等人
20、22提出一种基于蒙特卡洛树23的索引选择框架。但它们仍存在一些不足:需用户指定索引的最大个数或单个索引中的最大属性个数,若选择不当会造成过度索引或欠缺索引。未考虑多表连接情况的索引选择,多表连接查询时的优化效果较差。推广到动态工作负载的能力较差,当数据及查询发生较大变化时,需要重新训练模型。未考虑索引过多导致数据更新效率变慢的问题,虽然查询效率得到提升,但整体工作负载的效率下降。2 问题表述与模型2.1 主要概念定定义义 1 1索引选择空间。在索引选择方法中,智能体可以创建多个索引,每个索引中可以包含多个属性。索引选择空间为某个数据库中所有可能的索引构成的集合。使用 ISet 表示整个索引集,
21、使用ISeti表示单个索引。定定义义 2 2索引优化效果。Cost 和 Latency 是常用于数据库 SQL 语句效率评估的两个重要指标。其中,Cost 为 SQL 语句的代价估计值,获取 Cost 值不需要实际执行该语句;而 Latency 为 SQL 语句执行的实际时间。Ec(Qi)和 El(Qi)分别表示索引集ISet 对于每条 SQL 语句在两个指标上的优化效果。Ec(Qi)的具体计算公式如式(1)所示:Ec(Qi)=Cost(Qi,ISet)Cost(Qi),(1)式中:Cost(Qi)表示未添加索引时执行语句 Qi获取的 Cost 值,Cost(Qi,ISet)表示添加索引集 I
22、Set 后执行语句 Qi获取的 Cost 值。El(Qi)的计算公式为:El(Qi)=Latency(Qi,ISet)Latency(Qi),(2)式中:Latency(Qi)表示未添加索引时执行语句 Qi的实际执行时间,Latency(Qi,ISet)表示添加索引集ISet 后执行语句 Qi的实际执行时间。2.2 基于深度强化学习的索引选择框架如图 1 所示,ST-IS 包含三个重要的组成部分:编码方法,包括对索引集的编码以及对 SQL语句的编码,为 DDPG 提供既准确又丰富的状态表示。索引效率评估模型,通过 Cost、实际执行时间、索引命中率等指标判断当前索引集的优化效果。效益评估模型包
23、括多头注意力机制,用于处理 SQL语句编码;以及一个 GRU 模型,用于处理索引集编码。基于 DDPG 的索引选择模型,根据当前索引集的优化效果,做出添加索引、添加属性或删除索引的动作以进一步优化当前索引集。图 1 ST-IS 的整体架构Fig.1 Architecture of ST-IS索引选择框架分为训练阶段和运行阶段。在训练阶段,DDPG 通过选择各种索引集进行探索,使用已有的工作负载与数据库进行交互,获得 Cost、Latency 等信息。这些信息将被输入到索引效率评估模型,作为 DDPG 的奖励值。DDPG 将根据该奖励更新参数,并将结果保存到经验回放缓冲区中。在运行阶段,索引效率
24、评估模块会继续收集数据库的工作负载、Cost、实际执行时间以及执行计划,从中分析索引的命中率以及数据库效率的变化情况,通过效益评估网络评估当前索引集是否需要被更新。2.3 编码方法索引选择模型的编码方法包括 SQL 语句编码和索引集编码。丰富的 SQL 语句编码有助于 ST-IS发现候选索引集,避免 DDPG 中智能体大量无意义的探索;高效的索引集编码能有效避免索引冗余或668 Radio Communications TechnologyVol.49 No.4 2023索引欠缺。2.3.1 SQL 语句编码索引可优化的 SQL 语句包括 INSERT、UP-DATE、SELECT、DELET
25、E 语句,因此分别对其编码,并考虑其中受索引影响的条件,如 GROUP BY、OR-DER BY、JOIN 等子句类型。具体编码方法如下:使用 4 位 one-hot 编码表示 SQL 语句类型,其中,INSERT 语句编码为1 0 0 0,UPDATE 语句编码为0 1 0 0,SELECT 语句编码为0 0 1 0,DELETE 语句编码为0 0 0 1。采用 multi-hot 编码表示数据库中所有的列,编码的维度为列的数量,涉及到的目标列的编码为1,其余为 0。采用 5 位 one-hot 编码对查询子句类型进行编 码,其 中 WHERE 子 句 编 码 为 1 0 0 0 0,GRO
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 时空 数据 场景 数据库 索引 选择 框架
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。