使用挖掘介绍及趋势.pptx
《使用挖掘介绍及趋势.pptx》由会员分享,可在线阅读,更多相关《使用挖掘介绍及趋势.pptx(60页珍藏版)》请在咨信网上搜索。
1、2024/4/15 周一Web Usage Mining1提纲提纲1.简介1.1 WUM的定义和应用1.2 WUM基本的过程1.3 原型系统和商用系统2.趋势2024/4/15 周一Web Usage Mining2Web Mining 的分类12:1.Content Mining2.Structure Mining3.Usage MiningWeb Mining 分类分类2024/4/15 周一Web Usage Mining31.1.1 定义定义(Jaideep Srivastava1)“the process of applying data mining techniques to t
2、he discovery of usage patterns from Web data”2024/4/15 周一Web Usage Mining41.1.2功能功能System Improvement1).Site Improvement2).Web Caching and Network Transmission(E.Cohen5)2024/4/15 周一Web Usage Mining51.1.2功能功能1).Site Improvement根据实际用户的浏览情况,调整网站的网页的连接结构和内容,更好的服务用户A=B=C=DA=D极端:Adaptive web sites(Mike Pe
3、rkowitz78)2024/4/15 周一Web Usage Mining61.1.2功能功能2).Caching&Network Transmission(E.Cohen5)例如:从proxy 的访问信息中可以分析用户的访问模式,从而可以预测用户的Page访问,提高Web Caching的性能A=B=CA=B=DA=BCached:C、D2024/4/15 周一Web Usage Mining71.1.2功能功能*与传统的销售途径不同的是与传统的销售途径不同的是:网上零售系统可捕捉到大量的采购过程的细节,提供了更加深入分析的可能2024/4/15 周一Web Usage Mining81.
4、1.2功能功能Personalization定义:定义:根据发现的用户喜好,动态地为用户定制观看的内容或提供浏览建议。直接实现形式直接实现形式:Recommender系统(10J.Ben Schafer)。作用:作用:1)方便用户查询和浏览2)增强广告的作用3)促进网上销售4)提高用户忠诚度2024/4/15 周一Web Usage Mining91.2 基本的过程基本的过程*1).Data Gathering2).Preprocessing3).Pattern discovery4).Patterns analysis2024/4/15 周一Web Usage Mining101.2 基本的
5、过程基本的过程Site Files,Raw Usage Data,User ProfileSite Content&Structure,Server/Session/Episode DataUsage Statistics,User Clusters,Association Rules,Sequential PatternsKnowledge1).Data Gathering2).Preprocessing4).Patterns analysis3).Pattern discovery2024/4/15 周一Web Usage Mining111.2.1 Data Gathering可以利用的
6、Web Data包括:1).Content:页面的实际内容2).Structure:包括intra-structure和 inter-structure3).Usage:例如:Click Stream4).User Profile:例如:registration data 和 customer profiles5.Business Data?2024/4/15 周一Web Usage Mining121.2.1 Data Gathering数据来源数据来源:1)Server Level Collection2)Client Level Collection3)Proxy Level Colle
7、ction2024/4/15 周一Web Usage Mining131.2.1 Data GatheringServer Level Collection:1)Web Log File2)Packet Sniffing 技术 缺点是扩展性差(加密通道和用户跟踪)3)Web Page Content&structure4)Application Server2024/4/15 周一Web Usage Mining141.2.1 Data GatheringClient Level Collection:优点是可以比较全面和准确收集到用户数据Applet&Script 缺点:不支持代理,功能会被
8、用户关闭。Modified browser 优点是全面和准确收集到用户数据,缺点是需要吸引或强制用户使用2024/4/15 周一Web Usage Mining151.2.1 Data GatheringProxy Level Collection:这种数据收集方式适合有大量静态页面的网站2024/4/15 周一Web Usage Mining161.2.2 Preprocessing1).Content&Structure2).Usage Data2024/4/15 周一Web Usage Mining171.2.2 PreprocessingContent&Structure:解决两个问题
9、第一、page的独特性的表示方法?第二、page 的内容和结构的量化形式(quantifiable form)2024/4/15 周一Web Usage Mining181.2.2 Preprocessingstructure举例:ABC Site MapEindex1AB1CFNavigationMixedMediaPage Type2024/4/15 周一Web Usage Mining191.2.2 PreprocessingABC Site Map的结构可表示为:M=F1=index,(frame,1,left|frame,A,main)F2=1,(get,A,main),(get,C
10、,main)F3=A,(get,B,top)F4=C,(get,E,top),(get,F,top)F5=BF6=EF7=F2024/4/15 周一Web Usage Mining201.2.2 PreprocessingIndex=1-A=1-C=EIndex=1-A=BMap的结构表示了用户可能的click访问的路径2024/4/15 周一Web Usage Mining211.2.2 PreprocessingContent Classification:1)Usage Type2)Content Features*具体种类的划分跟应用的环境相关2024/4/15 周一Web Usage
11、 Mining221.2.2 PreprocessingUsage Type 1)Head Page 例如:Index2)Media Page 例如:B,E,F3)Navigation Page 例如:1,C4)Mixed Page 例如:A2024/4/15 周一Web Usage Mining231.2.2 PreprocessingContent Features(22 Soumen Chakrabarti):1。可以使用vector space model来表示page的内容:把page的示成一个在此高维空间中的一个向量page出现的term作为向量的维,维对应的值是通过某种方式计算出
12、来的权重(例如:TFIDF),它反映了term在此page区别其他page的时候的重要程度。2。Clustering&Classification2024/4/15 周一Web Usage Mining241.2.2 PreprocessingUsage Data:数据的抽象41.User2.Page View(Click)用户在某个时刻看到的浏览器中的内容3.Click Stream 一组连续的page view 请求4.User Session(transaction)用户的阶段性的click stream,可以跨多个服务器5.Server Session 用户的,在一个服务器上的阶段性的
13、click stream6.Episode 用户session中的一段有意义的click stream2024/4/15 周一Web Usage Mining251.2.2 PreprocessingUsage Data:数据的抽象4Raw DataPage ViewClick StreamUser SessionServer SessionEpisodes2024/4/15 周一Web Usage Mining261.2.2 PreprocessingUsage Preprocessing的流程1.数据清理2.识别User/Session 3.识别Page View4.识别Episode20
14、24/4/15 周一Web Usage Mining271.Data cleaning:*把log条目分割成对应的数据项目*剔除图片或其它非page类的log条目*剔除spider/agent的访问条目*规格化URI*提取POST数据项1.2.2 Preprocessing2024/4/15 周一Web Usage Mining281.2.2 Preprocessing清理后的Sample LogIP AddressTime/DateMethod/URIReferrerAgent202.120.224.4 15:30:01/2-Jan-01 GET Index.htmhttp:/ok.edu/
15、link.htmMozilla/4.0(IE5.0W98)202.120.224.4 15:30:01/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE5.0W98)202.120.224.4 15:30:01/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE5.0W98)202.120.224.4 15:37:09/2-Jan-01 GET E.htmhttp:/ex.edu/C.htmMozilla/4.0(IE5.0W98)202.120.224.4 15:33:0
16、4/2-Jan-01 GET Index.htmhttp:/ok.edu/res.phpMozilla/4.0(IE4.0NT)202.120.224.4 15:33:04/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE4.0NT)202.120.224.4 15:33:04/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm Mozilla/4.0(IE4.0NT)202.120.224.4 15:35:11/2-Jan-01 GET B.htmhttp:/ex.edu/A.htmMozilla/4
17、.0(IE4.0NT)202.120.224.4 15:35:11/2-Jan-01 GET C.htmhttp:/ok.edu/A.htmMozilla/4.0(IE5.0W98)2024/4/15 周一Web Usage Mining292.User and Session identification:1.2.2 Preprocessing1.IP Address&Agent2.Embedded Session ID3.Registration(User Profile)4.Cookie5.Software Agent(Applet&Scrtipt)6.Modified Browser2
18、024/4/15 周一Web Usage Mining30在只有IP/Agent的情况下,我们假设User 和 Session 是等同*的:1.2.2 Preprocessing15:33:04/2-Jan-01 GET Index.htmhttp:/ok.edu/res.php15:33:04/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm15:33:04/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm15:35:11/2-Jan-01 GET B.htmhttp:/ex.edu/A.htm15:30:01/2-Jan-01
19、 GET Index.htmhttp:/ok.edu/link.htm15:30:01/2-Jan-01 GET 1.htmhttp:/ex.edu/index.htm15:30:01/2-Jan-01 GET A.htmhttp:/ex.edu/index.htm15:37:09/2-Jan-01 GET E.htmhttp:/ex.edu/C.htm15:35:11/2-Jan-01 GET C.htmhttp:/ok.edu/A.htmMozilla/4.0(IE5.0W98)202.120.224.4User1:202.120.224.4Mozilla/4.0(IE4.0NT)User
20、2:2024/4/15 周一Web Usage Mining313.Page View Identification:1.2.2 Preprocessing1-Ahttp:/ok.edu/res.phpBA.htm1-Ahttp:/ok.edu/link.htmEC.htm1-CA.htmMozilla/4.0(IE5.0W98)202.120.224.4User1:202.120.224.4Mozilla/4.0(IE4.0NT)User2:2024/4/15 周一Web Usage Mining32Path Completion解决由于Cache带来的问题路径不全的问题1.2.2 Prep
21、rocessingtime1-A1-C1-E1-C1-FSession_1Session_22024/4/15 周一Web Usage Mining334.Episode Identification:1.2.2 Preprocessing定义:meaningful subset of user/server sessionAuxiliary-Media Episodes:timeA A MMAA A MAEpisode1Episode2Episode32024/4/15 周一Web Usage Mining34Auxiliary-Media Episodes:1.2.2 Preprocess
22、ing可以使用的方法包括:1)Page type 2)Reference length3)Maximal Forward Reference2024/4/15 周一Web Usage Mining351).Page type Episode:根据page view的类型来确定1.2.2 PreprocessingtimeA A MMAA A MAEpisode1Episode2Episode3Session X缺点是,必须要求每个page view有固定的用途。2024/4/15 周一Web Usage Mining362).Reference Length Episode:page view
23、的类型是根据用户在此处停留的时间来确定。停留时间相对长的,就认为是Media Page,停留时间短的则是一个Auxiliary Page1.2.2 Preprocessing2024/4/15 周一Web Usage Mining372).Maximal Forward Reference Episode23,chen它的假设是:一个episode是访问某个Media page的一个最大深度的page view 引用路径,即从用户session的第一个page view开始,一直向前访问,直到有一个backward page view 出现1.2.2 PreprocessingIndex 1-
24、A 1-C E 1-C BTimeEpisode1Episode22024/4/15 周一Web Usage Mining381.2.3 Pattern Discovery其中有:1)Statistical Analysis2)Frequent Itemsets and Association Rules3)Clustering&Classification4)Sequential Patterns5)Dependency Modeling2024/4/15 周一Web Usage Mining391.2.3 Pattern Discovery1)Statistical Analysis主要用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 使用 挖掘 介绍 趋势
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【可****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【可****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。