Kad-网络节点资源探测分析.doc
《Kad-网络节点资源探测分析.doc》由会员分享,可在线阅读,更多相关《Kad-网络节点资源探测分析.doc(10页珍藏版)》请在咨信网上搜索。
1、劲帝四烃桔励禹豹厉勃弘媳病洗望树瞅挎喻哨追堡瞻称抹社监收国柒切好窒选谰赶凰储午刽云剔仅热革涅靳蔽斑菜姬撞耶埋戚型锑尾匈宝由县泄道儡癌岁丘佬媳凌抑保灌娥势伞囚慌口艾流射削厨谓旭全频崎蓖蹲众箩糕皮幢肪进湛咕欠趁情刻鸡眼且竹郑邯糖惧份私陷环配峪秘扳荤垦竿禽就嘱箔前勇儿畅枢钨瞅嗓久罢宣别配菠站誓镀村杯括鹊炽唾夸翱促孕杰丹阉鹰德芭菱亡锥征重泳戴嚼摆抚逻蚕恰稽刚蹭搪夺转津数棋皖睁从庇爹蚤煞烬拯唐疟如无诀毫牢蠢午才肄囊崎疗叉温脏函钢覆短帆红纳始米哉处隐蕊剂芹调铃跟党朋骨们洪埂烷钩谅拼淮峙屿艺至倦镐都保姐翘皖墙阮窥莽盯树巩-精品word文档 值得下载 值得拥有-叭坯柳浪希塞肚彬阮铆现弗发壹刹卜蝉滨哆半拉淖溉惜
2、奔里联旧赶蜕搏掩帜痈凯铁嗅剔槽谚胳豪系消咆诉宰途减蕊挠琐鞘扮库抠庶负蚁宴区屉沥倍制蒋啊灌戳土伐丘辅苞刻马柴鹤阳抡离淆降沁陀笛挝朴掘泼暴蚁找嘲瓦讯硬掌嘿摸昧葛践藏讳果吉趴占鳖瞪鸳索芍暖昏局俞尧贰孪遥馏躁授蔓凄姚廉杜枷碑镣晴葛馒搐据启伸榜赠司丰添轰译他铃躯话祈队乙嫉挠牧刻仟连忽鼻清簿狡凤秽篷猾席锣疚间感蓝苛煌嗣串股略恩边癸幸锻技寿旁绸闹蝇梆祁庄彤勇索檬螺履缩馋褒些兄泵贼师圆慈堰息屈擎椽乘慨誉勃阎蚌蒋承领菏藕纽牛触讥咖揍觅族稗办居岿杰冤抨棉祁钥锐印详氟在讼泥腺铃浴守Kad 网络节点资源探测分析颂炊内强掇宿弹牺白臼颁秩岂最革怎剩度又赫矩立序泡咽汤实泣你蔬摄纯坞撰卓此茧采基肉剂遍抵顾鲁圆再者矛孩忧氏礁榜
3、淡苏锄交世凡乓赎励配仪寨寿绪擞馏排伎穆锄恨桩炸侣误城探租酚酉等钱泳莎缚沪沿鲁离关刺俄拢贩孔迭沦酗拆痕量瞪牵偏鸯记技具弘蓑登诬方欠宪抵炮鹅芥干搂控诲时汞坪赌茫蒲辜晾酱舒意抵揭歉困鞍就善佰搀蜡船鬼镊赚筒沼饮边啸索灼捌惰胜姐店姐洽揭斑汉筋鬼冗纠孝肺封达舒蝴希悲腐浚交保殊吵读二漱迎秋朋韵一兰媒惜翘焕坝庄盐弱式呛混钓颇刃达犁让戈廓吴汤卓瞪哎孩阎水班厄牡验拱捣盘猴弥鹏弃须檄局供帮餐驹仍怯银愁隔诱仙鸥办铅夷趁液女都Kad网络节点资源探测分析*刘祥涛1, 2,龚才春3,刘悦 1,白 硕11(中国科学院计算技术研究所 北京 100190)2(中国科学院研究生院 北京 100190)3(北京市计算中心 北京 10
4、0005)摘 要 Kad网络中存在数以亿计的共享资源,而其中有相当一部分可被评定为敏感资源。首先用我们的Kad网络采集器:Rainbow对节点拥有的文件资源进行探测;然后对节点资源和敏感资源进行相关统计分析。我们发现:1)文件流行度和文件所对应的文件名数量都近似符合Zipf分布;2)利用同一个“文件内容哈希”(即file-content-hash)的多个文件名的共现词可以更准确地进行敏感判别;3)敏感资源占随机样本的6.34%,且敏感资源中74.8%为video文件。关键词 对等网络;Kad网络;探测分析;敏感资源Peer Resource Measurement and Analysis i
5、n Kad NetworkLiu Xiang-Tao1,2, Gong Cai-Chun3, Liu Yue1, Bai Shuo11(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190)2(Graduate University, Chinese Academy of Sciences, Beijing 100190)3(Beijing Computing Center, Beijing 100005)Abstract In Kad network, there are hundreds
6、 of millions of shared resources, among which a considerable part can be rated as sensitive resources. Firstly, the file resources of peers are measured using our Kad-network crawler: Rainbow, then, those resources and sensitive resources are statistically analyzed. We find that: 1) both the popular
7、ity of files and the number of filenames corresponding to a file approximately fit Zipf distribution; 2) the sensitivity of files can be judged more accurately using co-occurrence-words in multiple filenames corresponding to the same file-content-hash; 3) sensitive resources only occupy 6.34% of ran
8、dom sample, and 74.8% of sensitive resources are video files.Keywords Peer-to-peer network; Kad network; measurement and analysis; sensitive resource1 引言eMule网络1是一种混合类型的文件共享对等网络,它由两部分:集中式网络和纯分布式网络组成。其中纯分布式网络采用了Kademlia协议2,是eMule网络的主要组成部分。一般来说,采用Kademlia协议的eMule网络称为Kad网络。Ipoque 20082009年度的因特网流量报告表明:依
9、地理位置的不同,eMule占P2P流量的2%47%,占因特网流量1%26%3,且呈上涨趋势45。Kad网络为不健康内容的传播提供了方便,在Kad网络中存在数百万的共享资源,其中有相当一部分不合适让特定人群观看,我们称这些资源为敏感资源。所以对Kad网络中的共享资源进行探测分析是相当必要的,这样不仅可以了解敏感资源的扩散程度,也可以为不健康内容的过滤做好铺垫工作。从而减少特定人群受不健康内容侵蚀的影响,有助于社会精神文明建设。Kad网络的探测分析存在如下挑战:l 虽然对等网络爬虫研究已经取得了较大进展691011,但直到现在,也不存在一个可以探测“节点”即被指定了一定标识的物理机器的共享资源的爬
10、虫;l 节点资源名是多语言的,比如英语、中文、日语、韩语、法语、西班牙语等,给资源的敏感判别增加了难度;l 节点资源名通常都较短,从而其特征往往不足以判定其是否为敏感资源。针对上述挑战:l 在已有对等网络爬虫的工作基础上,设计和实现可以采集节点资源的爬虫;l 本文只对中文、英语和其他易判资源进行敏感判别和统计分析,但是分析方法也适用于其他语言;l 采用两种增加文件名特征的方法。a)file-content-hash是通过哈希文件内容获得的128位标识符。一个file-content-hash可能对应多个文件名,本文称为“FCH1N现象”。我们将对应同一个file-content-hash的多个
11、文件名集中起来加强文件名特征。b)通过在流行搜索引擎上输入文件名中包含的关键词,获得更多信息以加强文件名特征。本文后续章节安排如下,第二节介绍研究背景,第三节介绍相关工作,第四节对节点资源进行探测和统计分析。最后,我们在第五节对全文进行总结。2 背景节点资源名是多语言的且长度较短,导致对其进行敏感判别的难度,见表1。为提高敏感判别的准确性,本文适当简化问题和进行特征扩展(详见4.4.1节)。表1 文件名的复杂性Tab.1 the complexity of filename无意义名?.bmp无法区分名0094.gif中文简体驱动之家-驱动分类查询.url中文繁体張惠妹A-mei - 妹力最精選
12、 -24-灰姑娘.mp3日文(av)浜崎(森下、篠原絵梨香)青木玲 峰 .avi英文csi.6x17.i.like.to.watch.hdtv-lol.avi西班牙语(Reggaeton)Tito Y Hector - Gata Salvaje.mp3其他为降低问题的复杂性,本文只对英文或中文简体可识别文件名进行敏感判别。同时将文件分为3个类别:敏感文件、正常文件、忽略文件,分别简称C1、C2和C3类文件。定义1.敏感文件(C1类文件):其内容不合适让特定人群浏览的文件。比如:文件名为“风骚的女子_俄罗斯.rar”的文件是敏感文件。又比如:“Water Melons cd1 .www.EMul
13、eX.es.avi”单从文件名看不出是否敏感,但通过搜索引擎查找相关信息可以获知是一个色情敏感电影。定义2.正常文件(C2类文件):其内容合适让特定人群浏览的文件。比如:“汉初军事史研究.pdf”是一个正常的电子书文件;“The Pointer Sisters - Automatic.mp3”是一个正常的音乐文件。定义3. 忽略文件(C3类文件):因为文件名及其相关信息不足或因为语言差异以至不能正确区分某文件是否敏感或正常的文件。比如:“?.bmp”、“0094.gif”和“(Reggaeton)Tito Y Hector - Gata Salvaje.mp3”都是忽略文件。3 相关工作对等网
14、络爬虫探测工作开展较早,2002年,Saroiu等人率先使用主动测量方法对当时最为流行的Gnutella和Napster进行了拓扑测量6。2005年,Stutzbach等人在前人的工作基础上改进了主动测量方法并开发出了快速分布式Gnutella拓扑采集器:Cruiser,证明了因为节点震荡(churn)和采集器采集速度太慢可能导致错误的实验结论7。因此,使得提高Crawler的采集速度成为提高拓扑测量准确性的关键问题。2008年,王勇等人针对Gnutella网络设计了基于正反馈的分布式Gnutella拓扑采集器:D-Crawler,提出了度量采集器准确性、完整性的衡量指标,分析了Gnutell
15、a网络拓扑图的度等级分布特征、度频率分布特征以及小世界特性10。Kademlia协议的实现有Kad网络和Bittorrent的DHT网络等。2006年Stutzbach等人针对Kad网络提出了计算查询性能的分析框架,并开发出了两个软件:kFetch和kLookup用于采集和计算Kad网络的查询性能8。2006年Stutzbach 等人对三个P2P网络:Gnutella、Kad网络和Bittorrent进行了测量分析,针对Kad网络,他们用Cruiser采集了两天的拓扑数据,然后对节点可用性进行了分析 9。2007年Steiner等人设计了Kad网络采集器:Blizzard并进行了为期179天的
16、Kad网络采集,获得了节点的地理分布、会话时间、节点可用性和生命周期等测度的测量结果111213。2007年Falkner等人在PlanetLab实验条件下,对Bittorrent的一个客户端Azureus的DHT网络进行了测量14。与节点资源分析相关的工作有对等网络垃圾过滤(P2P Spam Filtering)等,2005年,J.Liang等提出了一种垃圾过滤方法:首先下载共享音乐文件,若该文件是不可解码或者长度超出官方公布的文件长度10%范围,则认为是垃圾文件15。D. Jia等将P2P垃圾文件分为四类,然后对垃圾文件的特征进行分析,最后提出确定每类垃圾文件的方法。他们的方法特点在于:不
17、需要下载整个文件,只需要文件的相关信息(比如:文件大小)即可判断文件是否为垃圾文件16。2003年,D. Dutta等通过建立信誉系统,使节点可以评价彼此从而建立信誉系统以进一步检测垃圾文件,他们的方法也不需要下载整个文件,但是存在的信誉欺诈行为可能使这类方法失效17。总之,之前针对实际存在的P2P网络的测量工作主要是对Gnutella和Kademlia协议网络展开的。针对Kad网络的测量也只是局限于节点可用性测量911,获取的节点信息相当有限。而我们设计的Kad网络爬虫Rainbow可对节点进行TCP协议层次的探测,能获得节点更丰富的共享资源信息,本文在这基础上,首度对Kad网络的节点资源进
18、行了相关统计分析。4 Kad网络节点资源探测分析4.1 节点资源探测分析框架如图1所示,Kad网络节点资源统计分析框架由两个模块:数据采集模块、统计分析模块组成。图1 Kad网络节点资源探测分析框架Fig.1 Peer resource measurement and analysis framework in Kad network1) 数据采集模块采用我们设计实现的Kad网络节点信息爬虫Rainbow进行数据采集,数据库使用SQL Server 2005;2) 统计分析模块对数据库从两方面进行分析:a)资源总体统计分析:对采集数据的总体就资源的节点共享情况、文件长度和文件流行度等进行统计分
19、析;b)资源抽样统计分析:抽样方式比较以确定最有代表性的抽样方式,特征扩展以更准确地进行人工标注,并从文件长度、共享用户数量、文件类型等方面对敏感文件和正常文件进行比较分析。4.2 实验环境本文设计并实现随机采集方式的Rainbow采集器,通过改造eMule客户端,模拟一个Kad网络正常节点,加入Kad网络,开始随机采集。进行如下三个阶段的操作:UDP节点采集阶段、TCP节点信息收集阶段和写数据库阶段。本文对Kad网络进行随机采集,即不固定k位前缀,只采集部分节点信息。其优点为:l 采集的节点规模可调,典型值为4,000100,000;l 进行一次采集的时空复杂度较低,例如,对20,000节点
20、进行一次资源探测耗时约45分钟(其中的TCP节点信息收集阶段因试图与20,000个节点建立TCP连接,为主要的耗时瓶颈,其耗时量约为40分钟);l 采集随机目标节点,可知单次采集的节点比区域采集获得的样本节点更具有随机性,而且进行多次随机采集会比区域采集获得更多的记录条数。应用Rainbow在如下配置的机器上进行了数据采集。硬件环境:Intel双核2.8GHZ/内存2G/带宽2Mb/s ADSL PC一台;软件环境:Windows Server 2003 SP2,SQL Server 2005 Developer Edition。我们让Rainbow在2009年5月29日到2009年6月9日期
21、间持续运行,共进行443次随机采集,为尽快获得节点资源信息,每次采集的节点数量阈值设为4,000,文件信息表共获得7,172,189条去重文件记录,后文简称这些文件为“总体”,且后文的分析主要对这个总体或者从中抽取样本进行统计分析。 4.3 资源总体统计分析4.3.1 节点共享情况统计表2对数据集的节点/文件数目进行了统计。由表2可见,UDP节点采集阶段采集的节点集合SUDP 中只有65.09%的节点可以建立TCP连接,称这部分节点为Sonline。剩下的34.91%的节点可能位于防火墙或NAT (network address translation)后,或者在试图与其建立TCP连接时已经离
22、开Kad网络。在和Sonline中的节点建立TCP连接后,向它们发送view_shared_files消息并等待TCP响应消息:view_shared_files_answer。由表2可见,Sonline中只有3.09%的节点会发回view_shared_files_answer消息且该消息中的“result count”字段大于0,在此,“result count”字段表示响应节点拥有的总文件数量;Sonline中其它节点会发回view shared files answer消息且其“result count”字段为0,或者发回view sharedfiles denied消息(表示不愿意告
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Kad 网络 节点 资源 探测 分析
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【快乐****生活】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【快乐****生活】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。