微博用户模型构建研究现状--论文.docx
《微博用户模型构建研究现状--论文.docx》由会员分享,可在线阅读,更多相关《微博用户模型构建研究现状--论文.docx(41页珍藏版)》请在咨信网上搜索。
1、大学毕业设计(论文)目录摘要IIIABSTRACTIV第1章绪论11.1微博用户模型构建的背景及意义11.2用户模型研究现状及存在的问题11.2.1研究现状11.2.2微博存在的问题21.2.3微博用户模型构建的难点21.3本文研究内容及目标21.3.1研究内容31.3.2研究目标31.4本文组织结构3第2章基于维基百科的本体构建方法42.1本体概述42.1.1本体的基本概念42.1.2本体构建方法52.2基于维基百科的本体构建62.2.1维基百科简介62.2.2传统方式构建本体存在的问题72.2.3基于维基百科的本体构建72.3本章小结9第3章基于本体的微博用户模型构建方法103.1用户模型
2、概述103.2用户模型表示方法103.2.1常用用户模型表示方法113.2.2本体用户模型表示方法113.3微博用户模型的构建方法123.3.1特征词提取123.3.2兴趣度计算143.3.3用户模型的生成143.4本章小结16第4章微博用户模型构建系统设计与实现174.1系统整体设计174.1.1开发环境简介174.1.2系统整体架构174.2数据库设计184.3功能模块设计224.3.1本体的构建与显示224.3.2用户基本数据显示234.3.3用户模型构建与显示244.4本章小结25第5章总结与展望265.1本文总结265.1.1本文的主要工作265.1.2本文的主要创新点265.2展望
3、26致谢28参考文献29附录:部分源程序清单31ABSTRACTIn recent years, with the rapid development of Micro-blog, the need that users gain the access to information is also a linear growth momentum. The amount of Sina Micro-blog registered users has reached 503 million by 2012. However, the daily flood of Micro-blogs has
4、a serious impact on the quality of information users receive. Thus, how to find content that they are interested in quickly and accurately? Or can we push the information according to the users interest actively? That is what this paper concerns.User model is a formal description of users interests.
5、 To establish a precise user model for Micro-blog users, in order to recommend the information they concerned about and contents they are interested in, is the development trend of personalized recommendation. The achievements of this paper can be used for e-commerce, public opinion monitoring, adve
6、rtising and other areas.In this paper, Micro-blog user model construction method based on the ontology technology is discussed. First of all, according to each users micro-blog content analysis, extract the keywords which represent the content information of each Micro-blog; then create users eigenv
7、ectors in order to calculate the users interest degree; finally match these keywords with the ontology library to create Micro-blog user interest model. The achievements of this paper will lay the foundation of personalized service based on Micro-blogs.Keywords: Ontology, Micro-blog, User model, Int
8、erest DegreeIII第1章 绪论本章主要描述了微博用户模型构建的背景、意义,分析了相关课题国内外的研究现状,进而提出了本文所要研究的内容及目标。1.1 微博用户模型构建的背景及意义微博的数量和质量千变万化,各种海量、实时的数据信息已严重影响着用户接收信息的质量,进而影响着用户的生活质量。传统的人找信息和人找服务的模式已越来越难以满足用户的需求。如何为微博用户建立一个精准的用户模型,以便于之后为其推荐所关注的信息和感兴趣的内容,是各大移动电子商务网站进行个性化推荐的发展趋势。本课题研究在微博上基于本体的用户模型构建方法具有现实意义。1.2 用户模型研究现状及存在的问题近年来国内外学者对
9、用户模型的研究做了大量的工作,而基于微博的用户模型构建也开始逐步成熟起来,下面具体阐述研究现状以及存在的问题。1.2.1 研究现状近年来,用户建模技术作为个性化服务中的基础,愈来愈受到重视,并逐渐地从个性化服务中独立出来,形成了专门的研究方向。研究人员逐渐意识到个性化服务质量的好坏不仅取决推荐技术或者检索技术,而且还取决于准确的用户模型。国内的研究人员对用户模型构建和更新也展开了研究,例如大连理工大学林鸿飞和杨元生1根据用户提供的各类示例文档,通过考察特征、段落和类别的表达能力构建用户模型。南京大学多媒体技术研究所开发的个性化搜索引擎DOLTRI-Agent2采用一些相互关联的关键词组成用户模
10、型,对每个关键词设置权值来表示用户对该关键词的感兴趣程度。国防大学的应晓敏3提出构建细粒度的基于关键词的用户建模方法,以更好体现出用户间的兴趣差异。国防科技大学的徐振宁4和李勇5构建了一个包括个性化领域本体的用户模型,跟踪记录用户在Web上的浏览和检索过程,从大量数据中统计、分析和计算出用户的个性化信息需求。在国外,Fragoudis和Likothanassis6对几个典型的个性化服务系统LIRA7,Letizoa等采用的用户建模方法进行了综述和分析,指出用户建模在个性化服务系统中的重要地位。Pazzani和Binsusu8通过用户对浏览页面的标注获取用户感兴趣与不感兴趣的页面作为训练样本,而
11、后计算单字的期望信息增益,选择期望信息增益大的128个单字构成用户模型。Chan9通过观察用户对页面中超链接的选择获取用户感兴趣与不感兴趣的页面作为训练样本,而后计算单字的期望互信息,选择期望互信息大的250个单字构成用户模型。Schwab10等通过观察用户对页面的选择获取用户感兴趣的页面作为训练样本,而后以出现在感兴趣页面中指定位置的单字构成用户模型。Adomavicious和Tuzhilin11采用数据挖掘方法对用户个体的访问记录进行挖掘,挖掘出来的关联规则以及用户登记的个人信息构成用户模型。在微博的用户模型研究方面,近年来国内学者做了大量研究工作。例如广东社会主义学院的余伟12设计了一个
12、基于本体的微博用户行为分析模型构架。北京邮电大学的赵岩露13等提出了基于微博用户兴趣模型的发现算法。而国外对Twitter的用户模型研究也有很多。1.2.2 微博存在的问题虽然,近年来微博得到了空前的发展。相比于传统博客,微博传播模式更加便捷,更新的频率更高。作为新兴的媒体,目前仍存在很多问题。(1)很多用户感兴趣的有用信息,往往被迅速湮没。(2)微博信息过于简单,微博之间的联系松散、逻辑关系复杂,容易引起误解。(3)微博监管困难,对于敏感信息传播的预测和监控缺乏有效手段。1.2.3 微博用户模型构建的难点虽然用户建模技术已较为成熟,但针对微博这一特殊的平台,仍然存在了以下一些技术难点:(1)
13、对微博信息收集时,如何能够获取到大量有效的数据。(2)微博信息短小精悍,对用户模型构建的准确性影响较大。1.3 本文研究内容及目标本文针对微博中存在的问题,试图对用户的微博内容进行分析,提取用户的兴趣,并建立微博用户模型,为微博信息推荐、舆情监控、微博营销等提供技术支持。1.3.1 研究内容本文研究基于本体的微博用户模型构建方法,具体研究内容有一下几个方面。(1)领域本体构建;(2)用户微博收集;(3)微博内容分析;(4)兴趣主题提取;(5)用户模型构建。1.3.2 研究目标针对本文的研究内容,制定了以下几项指标:(1)自动对搜集到的所有用户(实验10个以上)的所有微博(30条以上)进行分词;
14、(2)自动统计每个用户的关键词词频;(3)合理计算每个用户模型中的兴趣度;(4)根据已有的本体库建立用户模型;(5)开发系统原型,验证提出的方法。1.4 本文组织结构整篇论文分为五章。第一章介绍了研究背景、研究意义,分析了用户模型研究现状以及存在的问题和难点,并提出了本文的研究内容以及研究目标。第二章主要介绍了本体的基本概念,并提出了基于维基百科的本体库构建方法。第三章首先介绍了用户模型的基本概念及其表示方法,其次着重介绍了微博用户模型的构建方法,主要分为特征词提取、兴趣度计算和用户模型的生成。第四章主要描述了微博用户模型构建系统设计与实现,展示了系统整体设计、数据库设计和各功能模块设计的内容
15、。第五章对全文进行了总结,归纳了本文的主要工作与创新点,并指出了需要进一步研究的问题。第2章 基于维基百科的本体构建方法本章具体描述了基于维基百科的本体构建方法:介绍了本体的基本概念,并引出本文所使用的基于维基百科的本体构建方法。2.1 本体概述本节介绍了本体的基本概念以及目前研究学者常用的四种构建方法。2.1.1 本体的基本概念在计算机领域,1991年开始,研究者们对本体做了多次说明,它表示的含义也更加清晰明确,现在人们一般认为本体论是对概念化对象的明确表示和描述14。随着研究者们对本体研究的不断完善,本体的定义有很多种,以下是几种比较有代表性的定义。1991年,Neches15等给出了构成
16、相关领域词汇的基本术语、关系,以及这些词汇外延的规则。1996年,Swartout16提出本体是一个知识库结构中术语集合,该结构中的术语是按照继承关系组织起来的,强调了本体中术语(Terms)的重要性。1993年,Gruber17提出本体是概念模型明确的规范说明。1997年,Borst18提出本体是共享概念模型的形式化规范说明。1998年,Studer19等对上述两个定义进行了深入研究,认为本体是“共享概念模型的明确的形式化规范说明”,它有以下四个方面的含义:(1)本体是一个概念模型(Conceptualization),它是指通过抽象客观世界中一些现象的相关概念得到的模型。它表现的含义独立于
17、具体的环境状态;(2)本体的明确性(Explicit),本体包含的概念和概念之间的约束都应该有明确的定义;(3)本体是形式化的(Formal),意思是本体应该是计算机可处理的;(4)本体是可共享的(Sharable),本体中概念、关系、属性的描述是基于标准的、规范的、能被共享的。本体的定义多种多样,其核心都一样,把本体作为一种描述资源的手段,为不同的主体进行知识交流提供语义基础。在计算机领域中,对本体的研究主要是如何实现这种统一标准,以及本体的构建方法、本体描述语言、本体的管理和本体的应用等内容。根据本体的语义特性,本体可以应用于不同的领域,致力于提高服务的联想能力和准确性。总而言之,尽管本体
18、的定义方式多种多样,但本体所包含的基本要素:概念、概念之间的关系等。2.1.2 本体构建方法目前,本体构建成功的案例很多,根据不同的领域,构建的方法也不一样,现在还没有构建本体的标准。许多研究人员根据经验总结出来了一些方法,1995年,Gruber提出构建本体的五条规则如下:(1)明确性和客观性:本体应该是背景独立的、客观的,能反映社会真实情况,满足可计算性,具有明确的、客观的形式化语义;(2)完整性:给出的定义应该是完整的,能表达特定属于的含义;(3)一致性:只是推理产生的结论与属于本身的含义不产生矛盾;(4)可扩展性:在扩展本体功能的时候,可以自由添加新的术语而对已有本体的结构和内容不做修
19、改;(5)最少约束:在满足可能的知识共享需求的基础上本体的约定应该最小。它可以通过只定义通讯所需的词汇或者定义约束最弱的公理来保证。目前比较普遍的构造特定领域的本体,一般都需要相关领域专家的参与。以下列举了一些在项目实践过程中形成的方法:IDEF-5方法:IDEF(ICAM Definition Languages)方法是上世纪七十年代由美国空军发明的。在1981年针对集成计算机辅助制造(Integrated Computer Aided Manufacturing,简称ICAM)项目中用于描述企业内部运作的建模方法。最初该方法只是应用于制造业,经过改造后,适用于软件开发。目前已经形成了一系列
20、方法。包括IDEF1X和IDEF0到IDEF14共16套方法,每一套方法都通过建模程序获取某特定类型信息,其中IDEF-5是本体描述获取语言。骨架法(Skeletal Methodology):该方法是由爱丁堡大学人工智能应用研究所开发企业建模过程中总结出来的。评价法:该方法由多伦多大学企业集成实验室,在开发虚拟企业本体工程项目时总结出来的。通过建立制定知识的逻辑模型,用一阶逻辑构造形式化的模型,包括企业设计本体、工程本体、计划本体和服务本体。七步法:该方法是斯坦福大学医学院提出的基于Protg本体构建工具的一种领域本体构建方法。一共包括七个步骤:(1)确定只是本体的专业领域和范畴;(2)考察
21、复用现有只是本体的可能性;(3)列出本题中的重要术语;(4)定义类和类的层次体系;(5)定义类的属性;(6)定义类的分面(Facets);(7)创建本体实例。2.2 基于维基百科的本体构建以上传统的构建本体的方法仍然存在许多弊端,下面就针对这些不足进行分析阐述,并提出本文所使用的基于维基百科的本体构建方法的优势所在。2.2.1 维基百科简介维基百科(Wikipedia)是一个自由、免费、内容开放的网络百科全书,参与者来自世界各地。这个站点使用Wiki,这意味着任何人都可以编辑维基百科中的任何文章及条目。维基百科是一个基于Wiki技术的全球性多语言百科全书协作计划,同时也是一部用不同语言写成的网
22、络百科全书,其目标及宗旨是为全人类提供自由的百科全书用他们所选择的语言来书写而成的,是一个动态的、可自由访问和编辑的全球知识体。维基百科自2001年1月15日正式成立,由维基媒体基金会负责维持,其大部分页面都可以由任何人使用浏览器进行阅览和修改。因为维基用户的广泛参与共建、共享,维基百科也被称为创新2.0时代的百科全书、人民的百科全书。这本全球各国人民参与编写,自由、开放的在线百科全书也是知识社会条件下用户参与、大众创新、开放创新、协同创新的生动诠释。英语维基百科的普及也促成了其它计划,例如维基新闻、维基教科书等计划的产生,虽然也造成对这些所有人都可以编辑的内容准确性的争议,但如果所列出的来源
23、可以被审察及确认,则其内容也会受到一定的肯定。维基百科中的所有文本以及大多数的图像和其他内容都是在GNU自由文档许可证下发布的,以确保内容的自由度及开放度。所有人在这里所写的文章都将遵循copyleft协议,所有内容都可以自由的分发和复制。截至2013年1月,维基百科条目数第一的英文维基百科已有415万个条目,而全球所有282种语言的独立运作版本共突破2100万个条目,总登记用户也超越3200万人,而总编辑次数更是超越12亿次。大部分页面都可以由任何人使用浏览器进行阅览和修改,英文维基百科的普及也促成了其它计划。Wiki一词来源于夏威夷语的“wee kee wee kee”,原本是“快点快点”
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 用户 模型 构建 研究 现状 论文
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【胜****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【胜****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。