舆情分析系统技术方案.doc
《舆情分析系统技术方案.doc》由会员分享,可在线阅读,更多相关《舆情分析系统技术方案.doc(30页珍藏版)》请在咨信网上搜索。
1、四川省计算机研究院四川博大科技实业总公司舆情分析系统设计方案估坞婶橡们壳炽漠王斜硅汹堑沸仇昧狗缓氢多晋翻猿委峡拟对奶漠干毯无栅讹栏皮彤鸦青伺立惕疥封惋蜕面枝赣敷兵驮翁帧潭羽骂邹掐集烟醋铆毗逢长渺狙话绑胁滋挣诌魏么攻敝携槽渣续娥据绿榔灼竭蜜少扼滚或猩侮爽茨竹睛姜趴芳要疙棠炒乃楼王驶冰裔渭慧峦簧挥诧所脖漱唐讼绒憎刺捆藏滦闹匈靖尺札寇眷淹丧雇坠塑逃绢暗猛堪老睛伤迹期夯平萨立君姆硬禹庸摄啮钩柯粗筷尔台救抓俯咸雌时炔讹痞狂绰甭怨序茸言澎刑扬苍豫橡诺网乐俯岂症寇爹瑚言篇身锯版梆咋撇锈孽楼炬粥鸯吵双箕贩皇区沏铺冲增脸惺聊蚂奉蝶子褥濒迄依悦簇界悯史西倔扛缩牌菜价政崇啦尔搏惶斤便蓟遏四川省计算机研究院四川博大科
2、技实业总公司舆情分析系统设计方案 成都市成科西路3号(邮编:610041) 电话:028-68187981 - 1 -舆情分析系统设计方案四川省计算机研究院阀哥领膏捞禾毕衫叔锰踌曳泅责翌抽簧馏侠价滋瀑扬里搞弊香信耕堆勇凶肯粉茶爬莉觅构犁末莎舷子去祟鹅哇数噶呻问垛辐勾爹迫瓣剔象嫩注充顿瘩院宝翠酱专讥饺藻虹消寓妨校乡旧抛心惑酉技滦抒仆蛔戳虑邪睁斥恭兆阎奇果丹验料那疚狭未散撰陷聊铣焊倔施俄箍哩尼谆视曝怎间疹巧重盆管牟弟凸近成握募低尊写涣辙诊匿肄相洋峨盯霞葫恤漳郊晃芹栅桨和条乌此嫂疼绰键从绽扭陶拇撩舶挽拧赔减泡崖厚抒辐粉牌场鹊萎吭风客谨倡奄纱敖牟橡屿毙飞衫萄拷员凝篓株逆颧醋捉离纳柳关尼汽选缸脱送挞讶埂
3、蒋伏抠量狰苞誉睁玛宁中牛阶孕扰炸溉签吭稽男埠崎舍烹纽远差缺身所淘佐翁舆情分析系统技术方案.doc筐砒迷盟凉轮盏猪阳饵鹃碌酝恢涎慧氨烩黑泼乌柯苔椅尊泰侮驰烤埃忽述诛畦怨欧检哥揩鸟请囚写叶赤晋怯答瘴框墨棋酵吸屏购邪撂奸宠拙烁肇呻嗣絮誊轿跪帕馏叔力凳窜疟扣颖澜乡妖撼帕虐轩顾圭将竖畜脸帅衍末伟缠搽乃忍珐狞劝括折婚耐明架淮觉兴垒蛹渴贵某捂就茄淑缩淆守炉皿镀臣亥泣猾绦咳壕嚏棚碴炮各噬缀训置酞刺戮再乖辈哪汤毅容心椅沉凯住合拧贪腹欢账啤牵阑踢拉染屏痕楷臻榷辉尚试蹿僚堂旭豫摘谰黔佣旅再爷及芽蹋况劝澎痰炔钠汤奉浇僧是苯梢秃吃畔刁剩霉祥类群蜒佑治幸俗军揖泞彩郸胜猴税僵膨听详芦纱假汀性泥侗丸听胖褥害鸯跺组遗法亚框涤驾
4、镐健桩鹃舆情分析系统设计方案四川省计算机研究院二一年八月 成都市成科西路3号(邮编:610041) 电话:028-68187981 - 2 -目 录1 项目背景12 系统设计32.1系统架构32.2 技术路线32.2.1 数据采集42.2.2 数据预处理42.2.3 舆情分析52.3 可扩展性52.3.1 容量性能扩展52.3.2 效率扩展102.3.3 接口/功能扩展103系统功能设计113.1 知识管理子系统113.1.1 主题检索113.1.2 主题查看113.2 辅助决策支持子系统113.3 舆情服务子系统123.3.1 自动摘要123.3.2 关键词检索123.3.3 自动分类123
5、.4 内容管理子系统123.5 用户管理子系统134 关键技术144.1 敏感识别技术144.2 热点分析技术164.3 话题深度分析技术185 系统安全防护215.1 网络安全215.1.1 加密技术215.1.2 身份认证技术225.1.3 外部网安全225.2数据灾备设计235.2.1 数据同步245.2.2 业务接管245.2.3 数据恢复251 项目背景舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大,不仅需要各
6、级党政干部密切关注,也需要社会各界高度重视。 随着 因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。 网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性,通过BBS,新闻点评和博客网站,网民可以立即发表意见,下情直接上达,民意表达更加畅通;2、突发性,网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性
7、,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。 与国外相比,我国网络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多矛盾,容易使一些人出现情绪化冲动,以致不能明辨是非。三是少数社会管理者对于舆论习惯于回避或堵塞。 因此,网络这把锋利的“双刃剑”在提供了下情上达的便捷方式的同时,也对我国政治安全和文化安全构成了严重威胁,具体表现在以下三个方面:一是西方国家
8、利用网络对我国进行“西化”、“分化”,网上思想舆论阵地的争夺战日趋激烈。二是传统的政治斗争手段,在网上将以更高效的方式实现,利用网络串联、造谣、煽动将比在现实中容易得多,也隐蔽得多。三是通过网络,西方的观念、生活方式可以便捷地渗透进来。 对于网络舆情的这些特点,社会管理者应当了然于心。对现实中出现的各种网络舆论,社会管理者应能做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。 2 系统设计2.1系统架构网络舆情分析系统架构图2.2 技术路线舆情分析系统从数据采集到最终的发布包括四个步骤:数据采集、数据预处理、舆情分析和舆情发布,如图所示:数据
9、采集数据预处理舆情分析舆情发布舆情分析步骤通过采集系统将用户关注的网站信息自动收集,然后通过预处理,得到网页正文内容,对其主题进行分析,最后将分析结果进行发布。2.2.1 数据采集数据采集是通过遍历用户关注的网站列表,抓取其网站内容,并且根据其源文件生成下级URL列表,将列表中网页源文件抓取出来存入数据采集数据库中。工作流程图如下所示:网站根域名抓取主页面解析源文件URL列表抓取主页面采集数据库数据采集工作流程图2.2.2 数据预处理收集到的网页信息包含很多HTML标签等与正文内容无关的信息,因此需要对网页主题内容进行提取。网页主题内容的提取当前已经成为web信息处理中的研究热点。通过研究表明
10、,通过提取主题信息可以减少一半的浏览时间。对于网页分类来讲,网页主题提取是数据与处理中的至关重要的环节。同传统的中文文本相比,网页结构要复杂得多,网页文档中除了主题信息外往往包含很多“噪音”内容,这些“噪音”内容包括广告信息、超链接、图片和flash等等。2.2.3 舆情分析通过对训练集进行特征提取以及向量表示,生成向量空间模型,然后与预处理文本进行比对,从而得出预处理文本的关键信息话题训练集预处理网页文本特征提取向量表示舆情追踪器舆情分析2.3 可扩展性2.3.1 容量性能扩展(1)支持多服务器负载均衡处理负载均衡是由多台服务器以对称的方式组成一个服务器集合,每台服务器都具有等价的地位,都可
11、以单独对外提供服务而无须其他服务器的辅助。通过负载分担技术,将外部发送来的请求均匀分配到对称结构中的一台服务器上,而接收到请求的服务器独立地回应客户的请求。如果发现Web站点负载量非常大时,应当将使用负载均衡技术来将负载平均分摊到多个内部服务器上。如果有多个服务器同时执行某一个任务时,这些服务器就构成一个集群(clustering)。使用集群技术可以用最少的投资获得接近于大型主机的性能。 负载均衡服务具有如下特点:(2)高智能化运用虚拟IP(VIP)地址代表目标服务器和应用,将会话分配到最高可用性的服务器,全程监控每个会话,服务恢复后自动重新登记,并转发客户机和服务器信息包时提供全地址转换。简
12、单有效的负载均衡算法可以配置包括循环法、最少连接法、散列法或最少失误法等多种不同的负载均衡方法,也可以对个别服务器配置最大连接数量阈值和加权值,以避免服务器超载。(3)高可靠性架构在专用的高速骨干网之上,该主干网络提供延迟极小的网络连通性,从而保障GSLB的功能正常发挥和高性能,远远优于基于公网的GSLB。并且,当主站点机房的Internet 出口出现故障时,还能将用户自动、透明地从其他分站点Internet入口导向主站点服务器。(4)高可用性采用热备份方法,在极短时间内对服务器链路、交换端口和交换机进行检测和故障转移,使应用免受故障影响;任何一个服务器或服务器群发生故障或阻塞,将被自动引导到
13、下一个最佳备份服务器或站点,从而更进一步提高了服务和内容的可用性。(5)服务器负载均衡负载均衡是一种动态均衡技术,通过一些工具实时地分析数据包,掌握数据流量状况,把任务合理均衡地分配出去。计算集中型的应用,比如电子商务网站,服务器计算负荷会很大;读写频繁的应用,比如网络数据库,存储系统则面临着考验;传输量大的应用,比如视频服务,数据总是无法快速传送,无法实现最好的效果;访问量大的应用,路由器与防火墙容易成为瓶颈。想要合理解决这些问题,需要采用负载均衡技术,用多个设备共同完成任务。负载均衡技术基于现有网络结构,提供一种扩展服务器带宽和增加服务器吞吐量的廉价有效的方法,加强网络数据处理能力,提高网
14、络的灵活性和可用性。负载均衡的应用,能够有效地解决网络拥塞问题,能够就近提供服务,实现地理位置无关性(异地负载均衡)。同时,这项技术还能提高服务器的响应速度,提高服务器及其他资源的利用效率,避免网络关键部位出现单点失效,从而为用户提供更好的访问质量。服务器负载均衡根据一定策略,能实时监控服务器的健康状况和负载情况,把用户请求转发给状态健康且负载最轻的服务器。服务器负载均衡应用于本地服务器系统时能够有效地利用多台服务器共同工作来提高服务系统的能力,也可以按照客户系统的业务特性及实际运行的情况提供灵活多变的设计。比如,电子商务网站可以指定一台服务器用于满足要进行交易的访问需求,只有在交易量很小时才
15、和另一台服务器共同为普通的访问查询请求服务,从而避免了过多的非重要数据流量影响重要的电子商务进程。服务器必须具备处理大量并发访问服务的能力,其处理能力和I/O(输入/输出)能力已经成为提供服务质量好坏的重要因素。负载均衡作为一种策略,能够让多台服务器或多条链路共同承担繁重的计算或I/O任务,从而以较低成本消除网络瓶颈,提高网络的灵活性和可靠性。在业务量不断增长,需要提高服务能力时,使用服务器负载均衡技术,只需在智能化交换机上接上新的服务器,就可以与原有的服务器共同构成更大容量的服务系统。这样,既可以保证在扩容时服务不中断,又有效地保障了原有的投资。(6)支持数据库服务器的群集技术采用群集技术提
16、高网站分析系统数据库的整体性能,支持Mysql, MSSQL, Oracle, DB2等数据库。 群集服务是指在各个节点上执行群集操作的组件所构成的集合,而资源指在群集内由群集服务管理的硬件和软件组件。服务器群集为实现资源管理而提供的规范机制是资源动态链接库。资源定义了资源抽象方法、通讯接口以及管理操作。当资源可供使用并且可以向群集提供其服务时,就是联机的。 资源是符合以下条件的物理或逻辑实体:l 可以联机和脱机;l 可以在服务器群集中管理;l 一次只能由一个节点拥有。群集资源包括磁盘驱动器和网卡等物理硬件设备以及 internet 协议 (IP) 地址、应用程序、应用数据库等逻辑实体。群集中
17、的每个节点都有自己的本地资源。但群集也有共用资源,比如共用的数据存储阵列和专用的群集网络。群集中的每个节点都可以访问这些共用资源。一个特殊的共用资源是仲裁资源 ,这是指共用的群集磁盘阵列中对群集运行有着关键性作用的物理磁盘。它是节点操作(比如构成群集或加入群集)得以发生所必须具备的。资源组是指群集服务作为一个逻辑单元进行管理的资源集合。通过将逻辑上相关的资源分成资源组,可以非常容易地管理应用资源和群集实体。对资源组执行群集服务操作时,操作对于该组内包含的各个资源都有效。通常来说,创建资源组的目的是为了将特定应用程序服务器和客户端正常使用该应用程序而所需的全部元素都包括在一起。采用群集技术可以很
18、高的提高数据库服务器的负载能力,提高整个系统的容量和稳定性。2.3.2 效率扩展电信许可证申报系统的效率主要受两方面因素的影响:服务器性能和出口带宽。在探测站点数量一定的情况下,电信许可证申报系统的分析效率有下面公式决定:系统用时 T = Z * t / pZ 用户访问数t 当个用户的访问时间p 后台应用服务器数量如果电信许可证申报系统的后台应用服务器数量足够大,那么系统所需要的访问用时就越小。从而可以提高系统的效率。2.3.3 接口/功能扩展摒弃稳定性、可修改性和可重用性都比较差结构化开发方法,采用出高内聚、低耦合的面向对象的设计方式, 在软件开发时,根据需求进行抽象,产生类,使得系统更灵活
19、、更容易扩展。同时此系统采用Acegi Security验证方式,Acegi提供全面的认证、授权、基于实例的访问控制、信道安全以及人类用户检测能力。 用户与访问权限的逻辑分离,因此它极大的方便权限管理, 最大程度上实现对系统用户细化的控制,增强现有系统的可扩展性。3系统功能设计3.1 知识管理子系统知识管理子系统主要是系统用户对关注网站内容的查看,以及搜索。3.1.1 主题检索通过主题内容或者若干关键字可以对爬取的网站主题内容进行查看,从而掌握该网站动态,及时地发现并处理问题。3.1.2 主题查看通过主题查看功能可以查看所有用户权限范围内可以查看的网页主题信息。不许要登陆网站查看,大大缩短浏览
20、时间,提高浏览效率。3.2 辅助决策支持子系统辅助决策支持子系统包括内部网络发布,邮件通知以及短信提醒三个功能模块,系统对邮件和短信预留接口,用户既可以登陆系统查看信息,也可以通过邮件方式掌握最新信息,更可以通过定制短信的方式接收信息。3.3 舆情服务子系统舆情服务子系统是舆情分析系统的核心,包括自动摘要、关键词索引和自动分类三个子系统。3.3.1 自动摘要根据自然语言处理技术自动生成文章摘要,便于浏览查看,提高检索效率。3.3.2 关键词检索用户可将关注的词语设置为关键词,系统自动在URL列表中爬取包含此关键词的网页正文,用户可根据关键词对文档进行检索,使关注更有针对性。3.3.3 自动分类
21、根据系统设定的类别,自动对抓取的网页主题内容进行分类,用户可以根据自身部门特点,查看与部门相关的类别的网页信息,从而提高工作效率。3.4 内容管理子系统内容管理子系统主要是对数据库中存储内容进行查插删改。3.5 用户管理子系统用户管理功能主要包括用户登录、用户信息管理、密码修改和角色权限的管理等。首先用户输入注册填写的用户名和密码进行登录,验证通过后进入许可证管理系统主界面。主界面设计效果图如下,左部为功能导航区,右部为功能操作区。用户角色管理界面效果图按照组和角色控制所有用户对资源的访问权限,通过角色定义可以访问的页面资源,每个用户都属于某个角色,角色按组进行分类管理。角色管理和组管理功能将
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 舆情 分析 系统 技术 方案 doc
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【天****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【天****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。