基于概念集合的网页内容过滤方法的研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

由于Internet的普及和发展，人类社会进入了信息社会。互联网在人们的日常信息交流中占据着越来越重要的地位。网页的内容逐渐丰富，涉及的领域越来越广泛，同时网页的内容形式也更加多样化，比如文字、图像、视频、音频等。而最为普遍的形式当属文字内容，是网页内容的主要载体，因此随着计算机和互联网的推广和应用，由数据处理、信息处理到知识处理，对语言文字处理要求的深度和广度越来越高。正因为文字信息如此重要，所以网页文字信息中很有可能会加入一些敏感信息，给人们的生活、甚至社会带来危害。本文主要针对网页文字信息中的不良信息进行分析，深入研究过滤方法，达到对网络信息的安全过滤。
　　以往的网页过滤算法大多是以基于统计过滤或关键词过滤，这些过滤算法实现比较简单而且快速，但是也存在着不足，那就是：只是在字面意义上机械的理解网页内容，往往不能深入的了解，忽略了文本中的语义约束，无法有效识别带有语义倾向性的信息，最终导致过滤的效果并不理想。所以结果表明，如果要提高过滤算法的准确度，应该加入语义倾向性的判断，试图真正了解作者要表达的内容。
　　本文利用知网(HowNet)和分类算法提出了一种基于概念集合的网页过滤方法。针对互联网资源的丰富性和开放性的特点，首先对网络中收集的文本进行预处理工作，即分词以及词性的标注，为过滤做准备。然后按照本文提出的概念集合算法的步骤进行各个集合的相似度匹配。由于最能表达作者观点或意图的信息往往来自于动词或者形容词，同时否定词和副词也尤其重要，所以根据本文构造的情感词典对这些词再进行匹配和分类比较，最后判断是否为敏感信息，是否需要过滤。
　　最后对改进后的算法进行了验证，收集到政治、军事、娱乐等三个方面的信息进行计算和模板的匹配，实验的结果验证了改进后算法的可行性，证明了能够有效改善网页过滤的效果，对于敏感信息能起到一定程度上的检测效果，并对检测结果进行了分析。由于信息类别的不同，通常计算结果的查准率和召回率会有所不同。
　　

著录项

作者
王阿婷;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科信息网络与安全
授予学位硕士
导师姓名毕红军;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
网页内容过滤; 概念集合; 知网; 语义相似度; 情感倾向性; KNN分类; 网络安全;

相似文献

中文文献
外文文献
专利

1. 基于"集合—对应"语言,理解函数单调性概念r——教育数学研究之三 [J] . 徐章韬 ,李艳 . 教育研究与评论（中学教育教学版） . 2018,第003期
2. 基于多色集合的产品概念设计建模与方案优选方法研究 [J] . 张屹 ,陈平 ,孔亮 . 组合机床与自动化加工技术 . 2016,第004期
3. 基于HPM视角下的集合概念教学研究 [J] . 彭文静 . 中学教学参考 . 2015,第005期
4. 基于多色集合理论的注塑模概念设计研究 [J] . 陈伟博 ,陈继霞 . 电气制造 . 2014,第012期
5. 基于多色集合理论的概念设计建模和推理技术研究 [J] . 高新勤 ,李宗斌 ,赵姗姗 . 中国机械工程 . 2006,第003期
6. 基于相关性集合的电力通信网告警过滤方法 [C] . 闫生超 ,巢玉坚 ,吴博 . 2011年中国电机工程学会年会 . 2011
7. 基于关系的概念格属性约简及集合近似 [A] . 王佳佳 . 2008

基于概念集合的网页内容过滤方法的研究

摘要

著录项

相似文献

相关主题

期刊订阅