反垃圾邮件系统的内容过滤模块设计与实现.docx
《反垃圾邮件系统的内容过滤模块设计与实现.docx》由会员分享,可在线阅读,更多相关《反垃圾邮件系统的内容过滤模块设计与实现.docx(17页珍藏版)》请在咨信网上搜索。
1、反垃圾邮件系统的内容过滤模块设计与实现摘 要 介绍了一种反垃圾邮件系统的内容过滤模块的总体设计,以及内容过滤模块中采用的关键技术多文档文本提取技术,涉及HTML文档、PDF文档、MS-WORD文档、CHM文档的文本提取技术,及压缩文件中的文档处理技术,从而更好地完善反垃圾邮件系统,以提高垃圾邮件识别率、拦截率,降低资源的消耗。关键词 垃圾邮件;反垃圾邮件系统;过滤;模块1 引言 国际互联网技术为人们进行交流、协同工作、资源及内容共享等提供了一条崭新途径。随着通信技术及计算机技术的飞速发展,互联网络的使用日益普及,已成为当前信息时代的一种极为重要的信息传播载体,对社会的发展起到了巨大的推进作用,
2、且信息传播及时、便捷。据美国电脑工业年鉴公司估计, 2010年全球互联网用户将超过亿人。互联网络安全涉及到加密、计算机病毒防范、入侵检测、接入控制、网上媒体信息内容监管、安全管理、垃圾邮件处理等众多关键技术问题。在电子邮件为我们提供充分便利的同时,不断产生的垃圾邮件和不良邮件也正在给我们的工作、生活制造着难以计数的麻烦和无法预计的危害。 2004年11月份的数字显示,垃圾邮件的比例接近74,在发送的垃圾邮件中,钓鱼欺诈性邮件占了24,这使得它成为了增长速度最快的垃圾邮件类型,其它数量较大的垃圾邮件类型包括广告、医疗、色情。 互联网络上存在着海量媒体信息,皆可能成为邮件的内容,就给邮件的处理带来
3、复杂多样性,文字监管问题也就显得越来越重要,当然也越来越困难。虽然要求尽快建立垃圾邮件相关的法律规范,倡仪通过法律手段制裁垃圾邮件,解决垃圾邮件问题,但建立垃圾邮件相关的法律规范本身就是一个较长时间的一个过程,且垃圾邮件仍然会存在、产生并在传播。 信息产业部、中国互联网协会、中国通信标准化协会2006年6月21日启动12321全国反垃圾邮件总动员活动,普及反垃圾邮件知识,营造绿色网络环境。中国互联网协会反垃圾邮件中心公布的调查结果显示,目前反垃圾邮件工作取得一定成效。从2006年3月到2006年6月,中国互联网用户收到的垃圾邮件比例由%下降到%。用户平均每周收到垃圾邮件数量为封,与2006年3
4、月的每周封相比减少封。这即说明,反垃圾邮件仍是一个持续又长久的过程。尽管互联网电子邮件服务管理办法规定业已出台,但仍要采取各种必要的措施进行预防及使用,这如同法律一样不可缺,既要打击犯罪,又要教育以预防犯罪。对邮件进行适时处理,阻止垃圾邮件的泛滥成灾,通过总结策略,一般采用的是关键字内容过滤技术,采取“截获样本、解析特征、生成规则、规则下发、内容过滤” 这种类似传统杀病毒系统的原理。下面,就对邮件的内容过滤模块作一简单研究分析。2 内容过滤模块的总体设计 邮件过滤系统设计思想主要是用来监控和拦截网络上传输的含有有害信息的邮件数据报。针对这一设计思想,可以把网络邮件过滤系统的主要功能概括为以下几
5、个模块。 (1)抓取数据报文,即数据的分离过程; (2)对数据报文进行过滤分析,对邮件数据包进行组合; (3)查找设定的邮件地址、IP地址等过滤条件,对邮件内容中的MIME编码进行解码,还原出原始邮件内容,对内容进行分析,检索关键字,对可疑邮件进行记录; (4)有关人员通过专用的客户端软件查看可疑邮件,并远程对软件的运行进行配置和管理。 图1 普通电子邮件系统的SMTP服务过程 垃圾邮件有很强的繁殖力,如果不加以整治,就会对合法邮件造成危害,干扰互联网络的正常工作。电子邮件过滤技术是目前反垃圾邮件用到的主要技术。电子邮件过滤通常可以从两方面实现:一种是基于客户端的垃圾邮件过滤,一种是基于服务器
6、端的垃圾邮件过滤。而在网络中对可疑邮件 进行过滤、堵截的最佳方法是基于服务器端的垃圾邮件过滤,即通过在邮件服务器上加设邮件过滤器来实现邮件过滤。 普通电子邮件系统的SMTP服务过程如图1。加了垃圾邮件过滤模块的电子邮件系统的服务过程如图2: 图2. 加了垃圾邮件过滤模块的电子邮件系统的服务过程 主要在于增添一个邮件数据提取接口。当来自于Internet的邮件被通过POP3等系统接收时,邮件数据提取接口将提取到的邮件数据内容送交邮件过滤服务器,用户暂时不阅览该邮件,而是等待邮件过滤服务器的控制命令。内容过滤模块对邮件信息中的文本内容进行检查与过滤。检查的对象具体为邮件的其他部分内容、正文内容与文
7、本附件内容。邮件过滤服务器根据预定义的策略和规则对邮件内容进行检查,并采用多线程同时处理多封邮件,实现对邮件内容快速扫描,并利用关键词库完成匹配,确定该邮件是否为合法邮件。3 内容过滤模块中关键技术多文档文本提取 多文档文本提取技术,主要见图_To_Txt模块所描述的文档模块流程情况,从文档中提取出纯文本流,再结合自动分词、词频统计、关键词提取等过程完成文本的提取。图3. All_To_Txt模块 HTML文档的文本提取技术 超文本标记语言HTML是Web的通用语言,是创建Web页和发布Web信息的格式,是Web设计的基础,是控制Web浏览器在屏幕上显示内容的核心技术。HTML用于编制可以在不
8、同的平台上实施链接的超文本文件。HTML的标记可以表达超文本的新闻、邮件、文档及超媒体包含在线的图形、视像的信息体。 HTML文档具有最基本的结构框架“头”和“体”。HTML文档均用于在浏览器上显示,而支持HTTP的浏览器均为WINDOWS式的图形用户接口界面,因此HTML文档的基本结构是依据这一要求而设计确定的。一个GUI的视窗通常由标题栏和窗口体作为其最基本的构成。HTML文档结构的“头”和“体”正应于这一要求。 HTML容器标记 HTML文档的第一个标记HTML是HTML的容器标记,它向浏览器指示,其后的代码应使用由HTML制定的语法和结构规则来处理。相应的结束标记/HTML出现在文件的
9、结尾处。 注意:不要把HTML文档的任何文本放置在这两个标记的外面,否则其结果是不可预见的。 头标记HEAD和/HEAD是一对头标签,是标记文件头区域的分界线,它包含着不在网页上直接实施或显示的项目。有在浏览器的标题栏中显示的文档标题名称和该文档有关的属性参数。它是HTML文档的第一个部分,是一个可选项。在文档头中能用于浏览显示的元素仅有标题,其他的元素均不显示。 TITLE也是一个可选元素,用一对标签(TITLE/TITLE)标记定义了在浏览器的标题栏中显示的内容。标题元素总是嵌套在头元素中的。 体标记 体是HTML文档中的主体,反映在浏览器的屏幕的正文区域,它包含了文档的内容即在网页上可见
10、的资料。 BODY和/BODY是一对体标签,用于标记除了头以外的其余的文档内容。与头元素一样是一个复合元素,可在体标签内嵌套其他的字符和元素。 一个最简单的HTML文档的组成 头和体结合就能组成一个HTML文档。 PDF文档的文本提取技术 PDF的文件结构(即物理结构)包括四个部分:文件头、文件体、交叉引用表和文件尾。文件头(Header)指明了该文件所遵从PDF规范的版本号,它出现在PDF文件的第一行。如表示该文件格式符合规范。文件体(Body)由一系列的PDF间接对象组成。这些间接对象构成了PDF文件的具体内容如字体、页面、图像等等。交叉引用表(Cross-reference Table)
11、则是为了能对间接对象进行随机存取而设立的一个间接对象地址索引表。文件尾(Trailer)声明了交叉引用表的地址,指明文件体的根对象(Catalog),还保存了加密等安全信息。根据文件尾提供的信息,PDF的浏览器可以找到交叉引用表和整个PDF文件的根对象,从而实现整个PDF文件的随机存取。PDF文件主体文档架构反映了文件体中间接对象间的等级层次关系。PDF的文档结构是一种树型结构。树的根节点就是PDF文件的根对象(Catalog)。根节点下有四个子树:页面树(Pages Tree)、书签树(Outline Hierarchy)、线程树(Article Threads)、名字树(Named Des
12、tination)。PDF文本的物理格式主要描速文字如何显示在页面上,包括文字的字体、大小、颜色、位置等属性,在多数的PDF文件中一般为了减少文件的大小,都会对文本流进行压缩编码,常见是deflate压缩编码。压缩的文本流需要先进行解码,然后才可以得到便于理解的文本流。PDF文件文本内容的基本提取过程为:先读取PDF文件,可以根据查找、匹配特征标识符来查找到文本对象,分离出文本流,进行Deflate解码,得到含有文本内容的文本流,根据语法分析,生成正确的text 格式。PDF文件的版本一般存放在文件的头部,PDF文件的其他一些信息,可以根据交叉应用表,也可以根据特征标识符,定位该部分信息。文件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 垃圾邮件 系统 内容 过滤 模块 设计 实现
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【丰****】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【丰****】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。