大用户用水量分析.pdf
《大用户用水量分析.pdf》由会员分享,可在线阅读,更多相关《大用户用水量分析.pdf(18页珍藏版)》请在咨信网上搜索。
1、 机 器 学 习 小 组 作 业题目 机器学习作业之大用户用水量分析 作者姓名 作者学号 指导教师 学科专业 所在学院 提交日期 大用户表数据处理数据处理首先对大用户表进行合并排序,同时对每 1000 条数据(因为 kettle 是以1000 条数据导入一次)进行一次简单去重,减少之后去重数据量接着,我们对数据进行过滤,将 null 值去除后排序去除重复数据(本来是想优化的,也即是不去掉数据而是将数据修改成符合前后数据情况的,但是发现实现有点困难)。这时原来 1500 万条数据只剩下 816 万条数据了。接着是计算临近时间的用户的用水量这时对用水量再次进行一次过滤,将用水量为负和正累积流量为负
2、的值去掉然后除杂(这里使用的是增量和标准差以及单位时间内用水量来去杂)除杂主要是以网络上找到的资料进行的除杂,我用增长量、每天使用水量、按天算出的标准差等值来进行数据进一步过滤处理,从不同的维度来进行数据的清洗。综上所述,清洗数据主要是以 null、负值、异常数据(判断是以网络上提供的数据进行的。主要是用增长量、每天用水量、用户按天算出的用水标准差等)。在这里,由于用户的时间间隔不稳定,有的是 10 分钟,有的只有 1 秒,还有的是 4 个小时,这里统一了时间间隔是 1 天,也即是说我将 1 天作为统计量来统计用户的每日用水量和标准差(标准差是用来看此用户每日是否用水偏差很大,然后便于过滤数据
3、的),之后我再以星期几、月份、季度等划分用户用水情况,进一步寻找用户的用水规律,在总表中,我将用户的 id、用水总量、用水平均值、用水标准差、用水时间占有率、周几的用水平均量、月份的用水平均量、季度的用水平均量作为字段,这样方便我更好的了解用户的用水规律,以及划分用户情况,同时也可以通过用户总用水量的标准差来判断用户用水是否不规律或者用问题,从而进一步排除问题数据。这里我本来是想将数据时间清洗的更小,通过规律时间(比如都为 4 小时)来对每天的用水规律进行分析的,但是由于数据间隔问题太大,所以我用了天来进行用户数据分隔,下面是用户各个时期的用水统计表:按天来划分的用水数据按周一、周二来划分的用
4、水数据按月份来划分的用水数据按季度来划分的用水数据总表:通过用户 id 来划分的用水数据下面先进行用户分类下面先进行用户分类用户分类实际上用很多种方法,一种是按照每天用水量来分类,这样我们可以通过聚类分出四种用户:从上图 weka 分析可以看出,大用户的用水量上,小水量的用户占了 50%左右,这也就是说,绝大多数用户的用水还是有限制的,从平均值和标准差上看,大多数用户偏离程度不高,也就意味着他们用水按天来算的话是有规律的,比较稳定的。由于之前求得值中存在很多表头读数问题,所以在这里也许也会影响情况。下图是用 sum 去聚类的效果,从这里可以看出,以用水量来聚类会看出大用户之间也存在着很大的用水
5、量差异。下面的是用水量与偏差之间存在的聚类情况,从这里看出,大多数用水量大的用户,他的每日用水偏差也很大,这里存在着散点,这说明之前统计的数据过滤了,但是还有很多不好的数据,不然的话聚类会集中点,也不会有很大的偏差值,这是由于统计的不规律性决定的,首先,统计的时间间隔不是规律的,由于数据太大,之前的过滤主要是以删除为主,而不是使用的添加修改为主,不然的话数据处理完会很好,其次,用户的用水量统计问题很多,没有一个统一的标准去去除数据,导致一些之前就有问题的数据没有被过滤掉,从而保存在了数据中,还有就是用户用水的不规律性,这之后会通过按日统计的表进行说明。我在数据的统计时,还加入了用户用水时间百分
6、比(按天统计),下图就是按照用水百分比进行的聚类情况(纵轴是表示的用户不用水的日占总天数的比例),这在一定程度上将用户分为了经常用水、有时用水有时不用水、不经常用水,这里面我看了 171 条数据,发现最多的是经常用水的人,占了 65%以上,也即是有 112 个人是一直在用水的(当然,由于水头度数等外部情况引起的并没有什么能够确定是因为这些情况的数据都保留了,所以可能会有些不准),这与下图的第一个聚类情况接近,所以这个聚类情况基本符合事实,当然,最好是能够将完全不用水的给分出来,这样更好的去进行分类,准确度也会更高点。从下图我们可以看出,大用户在用水方面还是很频繁的,不会像小用户那样出现很多经常
7、不用水的情况,当然,这些不用水的用户我们还需要分析的,这需要在按天排序的表中进行,下面会给出详细说明的。用水规律分析用水规律分析由于时间间隔和表头以及时间段用水规律统计不合理,数据不能够进行更进一步的优化,所以我做了这几个用水规律统计,按天来进行用户规律分析、按星期进行用户用水规律统计、按月进行用户用水规律分析、按季度进行用户用水规律统计。下面从大到小一次来进行分析:首先来看看季度用水规律图:通过使用 excel 表来看 171 个用户季度用水量情况发现,第 2、3 季度用水量普遍高于别的季度情况,第二、三季度,几乎占据了所有的峰顶,这也就意味着大用户第二、三季度用水量要比别的季度用水量多很多
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用户 用水量 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。