首页> 中文学位 >基于概念集合的网页内容过滤方法的研究
【6h】

基于概念集合的网页内容过滤方法的研究

代理获取

摘要

由于Internet的普及和发展,人类社会进入了信息社会。互联网在人们的日常信息交流中占据着越来越重要的地位。网页的内容逐渐丰富,涉及的领域越来越广泛,同时网页的内容形式也更加多样化,比如文字、图像、视频、音频等。而最为普遍的形式当属文字内容,是网页内容的主要载体,因此随着计算机和互联网的推广和应用,由数据处理、信息处理到知识处理,对语言文字处理要求的深度和广度越来越高。正因为文字信息如此重要,所以网页文字信息中很有可能会加入一些敏感信息,给人们的生活、甚至社会带来危害。本文主要针对网页文字信息中的不良信息进行分析,深入研究过滤方法,达到对网络信息的安全过滤。
   以往的网页过滤算法大多是以基于统计过滤或关键词过滤,这些过滤算法实现比较简单而且快速,但是也存在着不足,那就是:只是在字面意义上机械的理解网页内容,往往不能深入的了解,忽略了文本中的语义约束,无法有效识别带有语义倾向性的信息,最终导致过滤的效果并不理想。所以结果表明,如果要提高过滤算法的准确度,应该加入语义倾向性的判断,试图真正了解作者要表达的内容。
   本文利用知网(HowNet)和分类算法提出了一种基于概念集合的网页过滤方法。针对互联网资源的丰富性和开放性的特点,首先对网络中收集的文本进行预处理工作,即分词以及词性的标注,为过滤做准备。然后按照本文提出的概念集合算法的步骤进行各个集合的相似度匹配。由于最能表达作者观点或意图的信息往往来自于动词或者形容词,同时否定词和副词也尤其重要,所以根据本文构造的情感词典对这些词再进行匹配和分类比较,最后判断是否为敏感信息,是否需要过滤。
   最后对改进后的算法进行了验证,收集到政治、军事、娱乐等三个方面的信息进行计算和模板的匹配,实验的结果验证了改进后算法的可行性,证明了能够有效改善网页过滤的效果,对于敏感信息能起到一定程度上的检测效果,并对检测结果进行了分析。由于信息类别的不同,通常计算结果的查准率和召回率会有所不同。
  

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号