马博双聚类-PPT课件.pptx
《马博双聚类-PPT课件.pptx》由会员分享,可在线阅读,更多相关《马博双聚类-PPT课件.pptx(53页珍藏版)》请在咨信网上搜索。
1、 双聚类在生物信息大数据的应用1分类?2聚类?3聚类VS分类分类与聚类的区别:在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。聚类分析也称无监督学习或无指导学习,聚类的样本没有标记,需要由聚类学习算法来自动确定。4聚类算法划分方法:K-means层次方法:BIRCH基于密度的方法:DBSCAN、OPTICS、DENCLUE基于网格的方法:STING、CLIQUE5K-ME
2、ANS算法6K-MEANS算法缺点?7Big data=“Large-scale dataBig data=“Large-scale data”+“Complex types data+“Complex types data”聚类的应用金融通信社交医疗基因气候B Bi ig g d da at ta a e ex xi is st t i in n v va ar ri io ou us s a ar re ea as s8生物信息大数据生物信息学是一门重要的交叉学科,又称作基因组信息学如何从海量基因数据中获取有效信息成为生物信息学迫切要解决的问题序列分析、基因表达等为数据挖掘提供了广阔的研究
3、空间数据挖掘技术帮助人们了解生物数据所代表的生物学意义9基因表达数据可以用矩阵形式表示,用行集合来代表基因集合,用列集合代表各种实验条件,其中的每个元素表示某个基因在某个给定条件下的表达水平值。10传统的聚类技术如k-means和hierarchical clustering等已经被广泛地用于基因表达数据的分析。该技术根据基因在所有条件下表达模式的相似性,把基因分成互不相交的子集,每一个子集对应于一个簇,并认为在同一个簇中的基因具有相同的管理机制或生物功能。缺陷:部分基因可能只在某一特定的条件子集下具有相似的表达模式(只对行或者列来进行聚类)一个基因可能参加不止一个生物过程,因此一个基因可能属
4、于多个基因簇11 双聚类算法为了克服传统聚类的缺陷,大量的双聚类算法也相继被提出。双聚类算法通过对行集合和列集合同时进行聚类,寻找在特定条件子集下显示了相似表达模式的基因集。12聚类和双聚类的比较13双聚类的分类14CC算法 CC算法是双聚类算法的鼻祖 目的是为了在基因表达值矩阵中寻找子矩阵,使得子矩阵中的表达值水平具有高度一致性。定义了一个均方残差用以衡量一个双聚类的一致相关性,并提出一个贪心算法对基因和条件进行行、列交替删除操作,最终找到具有低均方残差值的子矩阵,并且每次只能产生一个双聚类,并且用随机数来代替原来的值,如此重复。缺点:此方法具有很大的不确定性,即使是同样的参数在两次实验中将
5、会得到不同的结果,而且此法是一种贪心算法,不能确保找出所有的双聚类。15基于模式的双聚类因为基因表达矩阵通常维度很高,而传统的聚类如k-means、hierarchical clustering在识别这些只有部分子集的表达值模式方法方面非常困难。近年来,基于模式的双聚类模型(Pattern-based biclustering model),这种使用模式相似性(pattern similarity)而不使用距离相似性(distance similarity)进行聚类的模型,已经广泛应用于包括基因表达值分析,自动推荐系统,定向营销等多个方面。16OPSM算法 “保序子矩阵”(order pres
6、erving submatrix),简称OPSM,是一种基于模式的双聚类。一个矩阵的子矩阵是OPSM需满足的条件是对于该子矩阵,存在一个列排列,使得该子矩阵中的所有行在这个排列下都是严格单调递增的。即该模式关注数据矩阵中元素之间相对大小在不同列下的一致性,忽略实际的元素值大小。17OPSM算法18关联规则关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。规则形式:“Head Bodysupport,confidence”.buys(x,“diapers”)buys(x,“beers”)0.5%,60%应用:顾客购物分析、目
7、录设计、商品广告邮寄分析、追加销售、商品货架设计、仓储规划、网络故障分析以及根据购买模式对用户进行分类,医疗诊断,医药销售19规则度量:支持度与可信度买尿布的客尿布的客户二者都二者都买的客的客户买啤酒的客啤酒的客户查找所有的找所有的规则 X Y 具有最小具有最小支支持度持度和和可信度可信度支持度支持度 s:一次交易中包含一次交易中包含X、Y的的可能性可能性可信度可信度 c,包含包含X的交易中也包含的交易中也包含Y的的条件条件概率概率设最小支持度最小支持度为50%,最小可信度最小可信度为 50%,则可得到可得到A C (50%,66.6%)C A (50%,100%)20购物分析 作为商家主管,
8、想了解顾客的购物习惯,尤其希望了解在一次购物过程中,哪些商品会在一起被购买,这就需要进行市场货物分析,即对顾客在商场购物交易记录数据进行分析,分析的结果可帮助商家制定有效的营销策略。21记录号购物清单1啤酒,尿布,婴儿爽身粉,面包,雨伞2尿布,婴儿爽身粉3啤酒,尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可乐(coke)R1:啤酒尿布,supp=60%,conf=0.6/0.8=75%。R2:尿布啤酒,supp=60%,conf=0.6/0.8=75%。R3:牛奶啤酒,supp=40%,conf=0.4/0.4=100%。R4:啤酒牛奶,supp=40%,conf=0.4/0.8=50%。R5
9、:尿布婴儿爽身粉,supp=40%,conf=0.4/0.8=50%。R6:婴儿爽身粉尿布,supp=40%,conf=0.4/0.4=100%。单 项 集支 持 度双 项 集支 持 度啤酒4/5啤酒,尿布3/5尿布4/5啤酒,牛奶2/5婴儿爽身粉2/5尿布,婴儿爽身粉2/5牛奶2/522如果把商店中所有销售商品设为一个集合,则每种商品(Item)可看成一个布尔变量,表示该商品是否被购买。每次购物可用一个布尔向量表示。这样就可以分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。这些模式可以用关联规则的形式表示。例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:Buys(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 马博双聚类 PPT 课件
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。