基于lda的社交网络链接预测模型研究.doc
《基于lda的社交网络链接预测模型研究.doc》由会员分享,可在线阅读,更多相关《基于lda的社交网络链接预测模型研究.doc(52页珍藏版)》请在咨信网上搜索。
1、独创性声明学位论文题目: 基于LDA的社交网络链接预测模型研究 本人提交的学位论文是在导师指导下进行的研究工作及取得的研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁在文中作明确说明并表示衷心感谢。学位论文作者: 签字日期: 年 月 日学位论文版权使用授权书本学位论文作者完全解西南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权西南大学研究生院(筹)可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文
2、。(保密的学位论文在解密后适用本授权书,本论文:不保密,保密期限至 年 月止) 。学位论文作者签名: 导师签名:签字日期: 年 月 日 签字日期: 年 月 日目 录摘 要IABSTRACTII第1章 绪论11.1研究背景11.2研究现状21.3主要工作31.4论文结构41.5 本章小结5第2章 相关理论和技术62.1主题模型62.2复杂网络72.3社交网络82.3.1社交网络的发展82.3.2 社交网络的定义92.3.3 社交网络的数据表示102.4 社交网络分析112.5链接预测132.5.1链接预测算法142.6 本章小结16第3章 基于LDA的社交网络链接预测模型173.1 概述173.
3、2总体框架173.3 形式化描述183.4用户兴趣信息特征提取203.4.1 兴趣主题提取203.4.2 兴趣主题相似度计算233.5社交网络结构信息特征提取233.6分类器的构造253.7模型的可行性和有效性分析253.7.1 可行性分析253.7.2 有效性分析2738 本章小结27第4章 实验294.1 实验平台294.2 数据集294.2.1 数据来源294.2.2 社交网络的构造294.2.3 数据的平衡处理314.3 实验目的314.3 评价方法314.4 实验具体方案324.5 实验结果与分析324.5.1 用户兴趣信息特征324.2.2 网络拓扑结构特征344.2.3 结果分析
4、与比较344.6 本章小结36第5章 总结和展望37参考文献39致 谢43攻读硕士学位期间公开发表的论文44I西南大学硕士学位论文 摘要基于LDA的社交网络链接预测模型研究计算机软件与理论专业硕士研究生 补嘉指导教师 唐 雁 教授 摘 要随着Web2.0技术的不断发展,基于社区的服务,如Wikipedia、 Flickr和Facebook等越来越流行。在社区中,人们可以寻找和上传自己喜爱的图片,可以与社区中的其他用户进行链接,成为朋友。社交网络是依靠人与人之间的朋友关系组织在一起的系统,是现实人际网络的子集。社交网络用户数量的急剧增加,给网络中用户关系、用户信息等数据的挖掘带来了巨大挑战。利用
5、用户节点的属性信息、社交网络的拓扑结构特征等预测用户节点对之间是否存在朋友关系链接,便是其中一个研究热点。现有的社交网络链接预测算法,如CN算法1、AA算法2、katz算法3等,主要关注社交网络中用户节点对之间的拓扑结构相似特征,缺乏对其属性信息之间潜在语义关系的重视,链接预测的精度不高。此外,在社交网络中,用户的兴趣信息数量巨大,如果直接对每个用户的每个兴趣进行语义关系分析,则需耗费大量时间。针对以上问题,本文引入主题模型、潜在迪里克雷分布模型(LDA, Latent Dirichlet Allocation),首先利用LDA模型对用户节点对之间的兴趣信息进行建模,提取社交网络用户兴趣信息的
6、主题,比较主题之间的语义相似度,这与直接对每个用户的兴趣信息进行分析相比,能够在捕获信息的潜在语义关系的同时,有效降低计算时间复杂度。其次,把复杂网络中的网络资源分配算法RA(Resource Allocation)用来对社交网络的结构信息进行特征提取。然后,通过构造分类器,利用有监督学习框架综合语义特征和拓扑结构特征进行社交网络链接预测。通过在真实的社交网络LiveJournal数据集上进行实验,与现有的链接预测算法比较,结果证明,本文提出的基于LDA的社交网络链接预测模型与已有的工作相比,在一定程度上,能够有效地提高链接预测精度。关键词:社交网络 LDA RA 链接预测AbstractRe
7、search on Social Network Link Prediction Model based on LDA Major: Computer Software and Theory Research Direction: Web Application Technologies Supervisor: Prof. Yan Tang Author: Jia Bu (112009321001986)ABSTRACTWith the fast development of Web2.0 technology, the services based on the social communi
8、ty are more and more popular, for example, Wikipedia, Flickr and Facebook. In the community, people can find and upload their favorite photos, link to other users. Social Networks are the systems that relying on the friendships between people, they are a subset of interpersonal networks. The number
9、of social network users has increased dramatically and it has brought great challenges to mining the relationship of the users, the information of the users in the network. One data mining problem of interest for social networks and the characteristics of the structure for social networks is the fri
10、endship link prediction problem.However,many social network link prediction algorithms focus on the topology structure similarity between nodes in the networks, for example,CN algorithm1,AA algorithm2 ,katz3 algorithm and so on.But these algorithms dont focus on the semantic relations between users
11、interests.It results that the accuracy of link prediction is not high.At the same time, the user interests in the social network are huge, if we analysis the semantic relationship of them directly, we will spend a lot of time.To solve the above problems,we introduce the topic model ,the Latent Diric
12、hlet model.First,we use LDA to model the interests between the user nodes and extract the topics of users interests in the social network,analyze the semantic similarity between these topics. Compared with the direct analysis of interests for each user,it not only can capture the latent semantic rel
13、ations,but also can reduce the computation time complexity effectively.Then for the first time,we use the Rescource Allocation algorithm in the complex network into the social network to grasp the structure feature accurately.At last,by constructing the classifiers,we use of supervised learning fram
14、ework integrate semantic feature and the toplogical structural characteristics to predict the friendship links in the social network. We apply the Social Network Link Prediction Model based on LDA to a real social network called LiveJournal, compare with the other methods to verify its viability and
15、 effectiveness. Experimental results on the subset of LiveJournal show the usefulness of the LDA features and structure features for predicting friendships.Key words: LDA, RA, social network, friendship link predictionIII第1章 绪论16 西南大学硕士学位论文 第1章 绪论第1章 绪论随着计算机信息科学技术的不断发展和互联网的普及,社交网络得到了越来越多的人的参与和关注,它已经
16、逐渐成为人们日常生活的一部分,甚至已经影响到人们的工作、学习以及社会的进步。因此,社交网络分析正在逐渐成为社会学、计算机研究领域的热点。1.1研究背景复杂网络是由规模巨大的节点、节点间错综复杂的边而构成的网络。4复杂网络具有三个特性:“小世界”效应,集群及集聚程度,幂律分布。虽然复杂网络的规模很大,但网络中的任意两个节点间却存在一条非常短的路径,网络里的大多数节点仅有少量连边,少数节点拥有大量连边。一个小型微博社区的用户关系网络、一个城市的交通网络、科学家合著网络、社交网络等等都可以被看作是复杂网络。复杂网络中的节点可以代表任何事物,如人际关系的网络节点代表单独个体,万维网组成的网络节点表示不
17、同的网页。社交网络作为复杂网络的应用领域之一,出现于90年代中期,随着近年来web2.0技术的不断发展5,互联网中信息的产生和传播的成本在大大地下降,互联网中的数据量呈现几何倍数的增长。数据可以描述成相互联系的实体的集合,这些实体的集合就构成了一个巨型的网络。在这样的背景下,社交网络变得越来越流行,它得到了越来越多人的参与和研究学者的关注。社交网络是基于社区服务的,在社区中,人们可以寻找和上传自己喜爱的图片,可以与社区中的其他用户进行链接,成为朋友。社交网络是依靠人与人之间的朋友关系组织在一起的系统,是现实人际网络的子集。由于人际关系与人们生活息息相关,且对人们的工作和学习、生活有显著影响,因
18、此,研究和分析社交网络有重要的意义。近年来,社交网络的研究内容主要包括社交网络的拓扑结构分析、网络社区的发现、网络中信息的传播、社会化推荐(social recommendation)等等,它们取得了一定的研究成果。Lise Getoor在文献6中认为,社交网络中的链接是无处不在的,这些链接能够展现出数据的重要性。但在实际情况下,社交网络里并不是所有链接关系都是可见的,因此预测网络中个体或者组织之间是否存在链接关系就逐渐成为研究者感兴趣的问题。并且网络中的某些链接是在不断动态变化的,这个时候,研究者关注的问题可能是基于过去及目前的观察来预测未来某个时刻的链接关系。总的来说,社交网络链接预测(S
19、ocial Network Link Prediction)7是根据已知的网络中的用户,网络结构等信息,预测网络中“尚未结交”用户成为朋友的可能性,这个链接可以是空间上的,也可以是时间上的。随着网络科学的快速发展,它在理论上所取得的成果为链接预测搭建了一个很好的研究平台,继而使得链接预测的研究与社交网络的结构与演化紧密联系起来7。通过链接预测的研究,我们可以分析演化网络89,也可以作为准确分析网络结构的有力辅助工具10。目前,大多数研究者提出的模型都提供了一些可能的网络演化机制。由于刻画社交网络结构特征的统计量比较多,我们很难比较不同的机制孰优孰劣,而链接预测有望为网络的演化提供一个简单统一且
20、公平的比较平台,从而大大推动社交网络演化模型的理论研究。同时,社交网络链接预测可以预测网络中“尚未结交”的用户“应该可以成为朋友”,并将此结果发回给用户,进行个性化推荐。如果“朋友关系链接”预测准确度比较高,则有助于提高社交网络在用户心中的地位,从而提高用户对该网站的忠诚度。综合而言,社交网络链接预测有重要的理论和实际意义,具有较高的研究价值。1.2研究现状在早期的社交网络研究中,大多数是心理学家和社会科学家,但随着信息技术的快速发展,社交网络分析也在逐渐成为计算机领域的研究学者的关注热点。链接预测作为社交网络分析的一个重要领域,它是近几年产生的一个全新的研究领域,与传统的数据挖掘相比,数据挖
21、掘处理的对象通常是单独的数据实例,这些数据实例往往可以用一个包含有多个属性值的向量来表示,并且这些数据实例之间在统计上是假设独立的。但在社交网络中,用户与用户之间不是独立的采样节点,他们之间是存在某些关联的。为了能够将用户之间的关系考虑进来,有研究学者提出了用图结构来刻画网络的社会结构。一个社交网络是由很多个节点(node)和这些节点之间的链接(Link)组成的。节点可以表示网络中的个体,也可以表示组织,链接表示节点之间的关系,如朋友关系、亲戚关系等等。社交网络的链接预测是比较困难的,因为网络中,大部分的数据集都是稀疏的。为链接预测建立统计模型的难点在于先验的知识太少,为链接存在提供的证据太少
22、,导致准确度较低。在早期的链接预测研究中,大部分的工作都是集中于研究如何通过分析网络图的结构特征来预测链接,这些方法取得了一定的研究成果11 12。R.R.Sarukkai13利用马尔科夫链进行网络的链接预测和路径分析;J.Hong14等研究学者在对自适应性网络进行链接预测时也加入了基于马尔科夫链的方法。2008年,Clauset,Moore15等人在自然上的论文提出了一种利用网络层次结构进行链接预测,但该算法只在具有明显层次结构的网络中表现最好。OMadadhain等16利用网络的拓扑结构信息,从而建立起一个局部的条件概率模型来预测节点对之间是否存在链接。Liben-Nowell17等提出了
23、基于网络结构的相似性定义,并将相似性计算分为基于节点和基于路径两个类型。Tang和Liu201018将图挖掘方法用于社区发现,证明了社区结构特征在网络分析中的重要性。Lu和Zhou201019在含权网络中,估计节点对之间存在链接的概率,预测节点对是否存在连边。但这些方法都忽略了网络中用户属性信息之间的潜在语义关系,链接预测的准确度有提高的空间。Patil20指出,在社交网络中,用同构原则能够有效提高预测用户之间的朋友关系的准确度。有相似文化、语言、爱好和地理位置的更容易成为朋友。Aljandal22用社交网络中的用户的兴趣信息,建立本体,通过本体之间的语义关系来对兴趣信息建模,提高了社交网络链
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 lda 社交 网络 链接 预测 模型 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【精****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【精****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。