基于流量分析的XML嵌套数据流无损压缩算法.pdf
《基于流量分析的XML嵌套数据流无损压缩算法.pdf》由会员分享,可在线阅读,更多相关《基于流量分析的XML嵌套数据流无损压缩算法.pdf(7页珍藏版)》请在咨信网上搜索。
1、信息技术 年第 期基于流量分析的 嵌套数据流无损压缩算法徐 晨 顾曦华 盛银波 金 军(.嘉兴恒创电力集团有限公司华创信息科技分公司 浙江 嘉兴.国网浙江嘉兴供电公司 浙江 嘉兴)摘 要:为避免基体的反复压缩操作提出一种基于流量分析的 嵌套数据流无损压缩算法 利用 算法对高相似度的 嵌套数据流进行聚类分析并表述成“簇中心(基体)个体差异量”形式分解数据流完成一次基体压缩仅对差异量进行压缩极大减少对基体的反复压缩操作利用改进 算法实现 嵌套数据流无损压缩 实验结果表明压缩后不仅数据完整性得到了保证数据量也大幅减少数据冗余度降低与压缩前数据相比压缩后数据未出现变化说明压缩算法性能较好关键词:流量聚
2、类 可扩展标记语言 嵌套数据流 无损压缩 串表压缩算法中图分类号:文献标识码:文章编号:():./.作者简介:徐晨()男本科工程师研究方向为电力信息化运维、智能化通信及信息设备监控等 (.):.“()”.:引 言在数据信息传输过程中(可扩展标记语言)是信息交换与数据处理的通用格式目前基于流量分析的 嵌套数据流无损压缩算法 徐晨 等很多数据信息都会选择以 的形式进行存储和交换 自身数据重复率较高会占用大量的存储资源降低了数据传输效率 为此很多专家和学者从压缩入手研究降低 嵌套数据流冗余目前压缩算法主要分为有损压缩和无损压缩 前者压缩后的数据较小但容易造成数据丢失后者能在保证数据完整性的同时消除冗
3、余信息但是对数据精度要求较高压缩运算量大压缩时间较长 赵雅倩等人提出一种实现无损数据压缩算法的专用硬件电路采用多字典并行查找的方式提高重复数据的查找速率采用开放计算语言()实现了所提出的专用硬件电路在取得适当压缩率的同时显著地提高了数据的压缩速率压缩速率可达/本文以无损压缩的方式对 嵌套数据流进行研究 在保障数据完整性的同时降低压缩比基于流量分析的 嵌套数据流无损压缩算法 嵌套数据流是当下数据传输与储存的主要模式 这种模式由于其自身的优势能够承载更多的数据量且连续性较好但是这种模式同时也会造成数据冗余较大 无损压缩算法既能保证数据不缺失也同时可减少冗余的数据.基于聚类的 嵌套数据流分析无论是无
4、损压缩还是有损压缩都是通过特殊编码的方式降低数据信息重复以及冗余度完成数据压缩 然而当数据流之间相似度较高时传统的无损压缩方法要保证数据的完整性所以压缩之后的数据量仍然很大因此为降低无损压缩的压缩比提高后续压缩效率在正式压缩之前针对相似性进行基于聚类的 嵌套数据流分析结合主动规则在数据流查询处理过程中构建主动服务系统按照统一机制完成主动性需求 框架模型主要包括用六个执行模块如图 所示类关系型操作会产生较多空值浪费数据存图 数据流框架储空间存储效率较低 将 文档以文件的形式存储在数据库中建立文档索引可提高数据库管理效率基本思路是通过聚类将 嵌套数据流划分为以 个簇为中心的形式即簇中心(基体)个体
5、差异量这样可降低数据流之间的整体冗余量数据流与传统数据是不同的主要体现在如下两个方面:数据流是动态无限、连续变化的而传统数据是静止的数据流往往包含大量的属性因此维数较高针对数据流传统聚类算法都是在扩展数据集的聚类算法的基础上发展而来 表 给出几种典型的数据流聚类算法特点通过表 可以看出任何一种数据流聚类算法都存在缺点因此在本文选择一种混合算法进行 嵌套数据流分析即混合 算法和 算法生成一种 算法 算法 算法是一种基于密度的聚类算法基本思想如下:由密度可达关系导出最大密度相连的样本集合即为最终聚类的一个类别或者说一个簇 该算法具体过程如下:步骤:从数据流集合当中任意选取一个还未处理过的数据作为对
6、象基于流量分析的 嵌套数据流无损压缩算法 徐晨 等表 典型的数据流聚类算法特点数据流聚类算法 算法 算法 算法 算法 算法 算法核心思想分治思想批处理分级思想分治思想两阶段处理框架投影思想衰减簇结构密度思想两阶段处理框架网格结构聚类质量一般一般好较好好一般可伸缩性差好好好一般好聚类形状球状球状球状任意任意任意输入敏感性是是不是不是不是不是噪声处理能力差好好好好好 步骤:判断该数据是否核心对象 若不是则需要回到步骤 重新进行选取否则以该点为核心以领域距离 为半径划分出所有直接密度可达点并都加入到类簇中步骤:重复步骤 直到所有数据点都判断完毕步骤:此一个聚类完成 重复步骤 到步骤 直到一个数据流集
7、合中的所有数据都归到自己所属类别中 算法 算法是一种基于网格的聚类算法该算法分为联机和脱机两部分 前者将数据流元素按照定义映射或者说定位到某个网格中后者计算这些网格的密度也就是每个单元网格中数据流元素在整个数据流集合中的比例 最后基于密度计算结果将符合阈值(由用户自主给定)的网格单元聚成类簇 算法 算 法 是 算 法 和 算法的互补性结合 该算法在聚类框架基础上沿袭了 算法的特点是在线、离线双层数据流聚类结构 在在线层主要完成对输入的 嵌套数据流进行映射根据其具备的属性将其定位到相应的网格单元当中在离线层根据密度自适应地调整聚类和更新网格单元的特征向量最终完成簇的聚类 具体过程如下:步骤:输入
8、一段 嵌套数据流 构建初始网格单元步骤:获取 嵌套数据流中的新数据对象步骤:映射新数据并更新网格单元的特征向量 特征向量表示形式如下:()为密度 为归属的类标志为存放地址 为新数据最近一次的流入时间步骤:判断(数据流流入时刻)是否与(时间间隔)相等 若相等则开始初始聚类否则回到步骤 步骤:判断?若相等则检查并去除噪声点否则回到步骤 步骤:网格单元进行类别调整输出最后的聚类结果 嵌套数据流聚类分析完成后用“簇中心(基体)个体差异量”形式表示方便后续压缩 上述提取出来的聚类中心作为基体个体差异量为围绕聚类中心的其他数据量这个数据量虽然都所属一类但是具体表示上会存在差别这个差别就是个体差异量 简单地
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 流量 分析 XML 嵌套 数据流 无损 压缩 算法
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。