首页> 中文学位 >基于ATN算法和潜在语义索引的不良信息过滤系统研究
【6h】

基于ATN算法和潜在语义索引的不良信息过滤系统研究

代理获取

摘要

近年来,互联网取得了突飞猛进的发展,网络信息越来越丰富,呈指数级增长,到现在为止,全世界已有几亿个网站。然而,任何事物都有两面性,在互联网飞速发展的同时,大量不良信息在网上肆无忌惮的传播,给社会治安、人民的正常生活带来了极大的负面影响。在这种情况下,过滤现有网络资源中的不良信息是当前计算机研究人员必须面对的挑战。
   论文分析了当前互联网存在的严峻形势,总结了当前常用的三种不良信息过滤技术的相关概念、特点以及相关产品,分析对比了三种过滤技术的过滤效果,优点与不足。并在此基础上设计了一个基于扩充转移网络算法(ATN,Augmented TransitionNetwork)和潜在语义索引(LSI,Latent Semantic Indexing)的不良信息过滤系统。在系统中用ATN算法来代替传统的基于字符串匹配的分词算法,由于该算法基于汉语词法、语法规则,所以在分词处理结果上有更高的准确性。用潜在语义索引算法取代传统简单的向量空间模型来做信息的过滤,该算法在处理汉语“一词多义”和“多词一义”有很好的效果。为了将过滤成果应用到实践中,系统将过滤结果以PICS标签的形式保存在数据库中以便推广应用。最后为了验证系统过滤性能,用中国教育和科研计算机网紧急响应组(CCERT,China Education and Research Network Emergency Response Team)提供的中文邮件数据集(CDSCE,CCERT Data Sets of Chinese Emails)做了实验验证,结果表明,系统设计合理,过滤效果较好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号