首页> 中文学位 >Blog文本内容敏感信息的自动提取技术
【6h】

Blog文本内容敏感信息的自动提取技术

代理获取

摘要

近几年来,信息技术和产业迅速发展,国际互联网上各种新兴应用层出不穷。上世纪90年代,Blog在西方国家出现,到2001年,已经成为了网络主流;2002年,Blog被引入我国,5年内,就吸引了近5000万人,平均每4个网民中就有一个Blog作者。Blog已经成为世界范围内的第4媒体。网络信息犯罪是与网络媒体的发展共生的,人们对于网络与系统安全已做了大量研究,但对于网络媒体信息内容的安全问题,只在近年来才逐渐得以重视。在Blog这种巨大的开放信息源上,一旦有敏感信息(包括反动、恐怖、色情等等)不受限制地流传,将会对网络用户造成巨大影响,给社会造成巨大损失。为了保护用户,维护稳定,必须采取措施对敏感信息进行监控,同时也为运行Web服务的各种组织,提供对此类信息的访问加以监控的技术和服务。为此,开发先进的文本信息安全监控技术是一项紧急而又重要的课题。 本文结合自然语言理解、中文信息处理等相关知识,结合本实验室文本信息处理目前研究进展,提出基于Blog日志属性构造决策树的算法,对文本中未知的敏感信息进行自动提取。 本文首先介绍了Blog的发展概况,给出了Blog上敏感信息的几个外延,阐述了提取敏感信息的重要意义。最后,简要介绍了国内外这方面工作的现状。 其次,介绍了中文文本的预处理、表示技术以及分类技术。我们介绍了中文自动分词,文本的向量化表示,特征提取,特征降维,权重计算等。并介绍了几种经典的文本分类方法。还对新词发现作了介绍。 接着,介绍了网页文本和有用属性提取的方法。并对使用汉字部件组合技术处理拆字现象作了详细介绍。 随后,针对现有过滤监控技术的速度可能成为瓶颈这一问题,提出利用Blog日志属性信息构造决策树,实现未知敏感文本的发现。介绍了决策树的原理和构造决策树的算法ID3算法。我们提出了几个ID3算法的改进算法。 最后,提出了系统流程图,对各个部分进行了解释。使用改进算法与已有算法进行了对比,效果良好。 文章最后对本文的研究课题进行总结,提出当前研究的可行性和今后一些需要改进的地方,并提出相应的对策。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号