Blog文本内容敏感信息的自动提取技术

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

近几年来，信息技术和产业迅速发展，国际互联网上各种新兴应用层出不穷。上世纪90年代，Blog在西方国家出现，到2001年，已经成为了网络主流；2002年，Blog被引入我国，5年内，就吸引了近5000万人，平均每4个网民中就有一个Blog作者。Blog已经成为世界范围内的第4媒体。网络信息犯罪是与网络媒体的发展共生的，人们对于网络与系统安全已做了大量研究，但对于网络媒体信息内容的安全问题，只在近年来才逐渐得以重视。在Blog这种巨大的开放信息源上，一旦有敏感信息（包括反动、恐怖、色情等等）不受限制地流传，将会对网络用户造成巨大影响，给社会造成巨大损失。为了保护用户，维护稳定，必须采取措施对敏感信息进行监控，同时也为运行Web服务的各种组织，提供对此类信息的访问加以监控的技术和服务。为此，开发先进的文本信息安全监控技术是一项紧急而又重要的课题。本文结合自然语言理解、中文信息处理等相关知识，结合本实验室文本信息处理目前研究进展，提出基于Blog日志属性构造决策树的算法，对文本中未知的敏感信息进行自动提取。本文首先介绍了Blog的发展概况，给出了Blog上敏感信息的几个外延，阐述了提取敏感信息的重要意义。最后，简要介绍了国内外这方面工作的现状。其次，介绍了中文文本的预处理、表示技术以及分类技术。我们介绍了中文自动分词，文本的向量化表示，特征提取，特征降维，权重计算等。并介绍了几种经典的文本分类方法。还对新词发现作了介绍。接着，介绍了网页文本和有用属性提取的方法。并对使用汉字部件组合技术处理拆字现象作了详细介绍。随后，针对现有过滤监控技术的速度可能成为瓶颈这一问题，提出利用Blog日志属性信息构造决策树，实现未知敏感文本的发现。介绍了决策树的原理和构造决策树的算法ID3算法。我们提出了几个ID3算法的改进算法。最后，提出了系统流程图，对各个部分进行了解释。使用改进算法与已有算法进行了对比，效果良好。文章最后对本文的研究课题进行总结，提出当前研究的可行性和今后一些需要改进的地方，并提出相应的对策。

著录项

作者
朱文轩;
展开▼
作者单位

上海交通大学;

展开▼
授予单位上海交通大学;
学科通信与信息系统
授予学位硕士
导师姓名陈丽亚;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本内容; 敏感信息; 自动提取; 安全监控; 文本分类; 自动分词;

相似文献

中文文献
外文文献
专利

1. 基于超文本标记语言的文档信息自动提取技术研究 [J] . 佘俊 ,余少锋 ,周宇鹏 . 粘接 . 2020,第008期
2. 网页文本信息自动提取技术综述 [J] . 张俊英 ,胡侠 ,卜佳俊 . 计算机应用研究 . 2009,第008期
3. 基于信息度量与SVM的文本图像自动提取技术 [J] . 程娟 ,平西建 ,童莉 . 情报杂志 . 2006,第004期
4. 工程图文本信息的自动提取与建库技术研究 [J] . 李正敏 ,张树生 . 图学学报 . 2000,第002期
5. 和用教师blog开展现代教育技术实验内容的探索 [J] . 王瑜 ,陈润荣 . 中国现代教育装备 . 2010,第009期
6. 工程图文本信息的自动提取与建库技术研究 [C] . 李正敏 ,张树生 . 第三届中国计算机图形学大会 . 2000
7. 基于内容的敏感信息过滤技术研究 [A] . 马彬彬 . 2014

Blog文本内容敏感信息的自动提取技术

摘要

著录项

相似文献

相关主题

期刊订阅