首页> 中文学位 >基于语义分析的网络过滤设计与实现
【6h】

基于语义分析的网络过滤设计与实现

代理获取

摘要

随着互联网的不断普及,越来越多的应用服务出现在互联网上,互联网已成为信息汇聚的集散地,浏览者可以从网络上汲取丰富多彩的资讯。但是这些信息难免良莠不齐,如何从中这些海量数据中去芜存菁,是当前社会面临一个重要问题。IF(过滤)是一个较好的解决方案。网络信息过滤是综合使用技术和非技术的手段包括软件和硬件的协同工作对待浏览信息进行动态的屏蔽的过程。为了提高资讯获取的效率,推行贴近用户的个性化和专业化服务,减少不良信息对浏览者的视觉污染是信息过滤技术的应用重要职能。这对帮助用户获取信息,减轻浏览者的查询时间和避免用户受到无端干扰和侵害是十分有必要的。
   本篇首先对互联网不良信息从法律、道德两个方面进行特征分析,然后对不良信息进行分类,给出不良信息的多方标记和分级方法,归纳总结不良信息的危害性和传播途径。在此基础上,研究基于URL和内容的互联网不良信息综合过滤技术。该过滤技术分梯次使用URL过滤算法和文本内容过滤算法。其中URL过滤算法包括基于黑名单的过滤算法以及基于白名单的过滤算法,文本内容过滤算法又分为关键字匹配算法和潜在语义索引算法(LSI)。
   本文所提的综合过滤算法采用多层次过滤策略。第一层使用URL进行过滤,通过黑白名单来决定是否对HTTP请求进行过滤;第二层是文本内容过滤,其中又分为两层,首先是进行关键字匹配,然后使用潜在语义索引算法进行过滤。该多层次过滤方案不仅具有良好的性能,实现了高吞吐量过滤,而且取得了较为准确的过滤效果。
   最后基于上述不良信息过滤算法,并结合URL检测,黑白名单和时间控制,使用BHO技术及HOOK技术设计并实现了一个基于个人PC的不良Web页访问监控过滤系统。该过滤系统可对企业网络防火墙作有益补充,可以过滤很大一部分不良Web网页,保护内网不受外部不良信息的侵扰。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号