首页> 中文学位 >基于最大公共子图的中文Web文本分类研究
【6h】

基于最大公共子图的中文Web文本分类研究

代理获取

摘要

随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成为一个亟待解决的问题。Web文本挖掘技术就是解决上述问题的一种方法,它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档的集合中发现潜在的、有价值的知识。Web文本分类是Web文本挖掘的重要技术,是一种快速、有效的组织网上海量信息的关键技术,是Web信息处理的基础,有着很高的研究价值和广泛的应用前景。
   本文研究的对象是中文Web文本,目的是提高Web文本分类的精度和速度,主要针对中文Web文本的表示以及分类算法进行了深入地探讨。Web文档包含大量的与主题内容无关的噪音数据,因此本文提出了一种基于网页分块的主题信息自动提取算法。首先对Web文档依据布局标签分块构建文本内容块层次树,然后自底向上遍历层次树,计算每个块节点的语义属性和主题相关度,同时删除主题无关节点,最终通过遍历文本块层次树的最大内容节点路径,提取当前网页的主题信息。实验表明该主题信息提取算法对大多数中文门户网站的主题型网页均有效,适用性比较强。传统的向量空间文本表示方法不能有效表示文本的结构信息,缺乏对文本特征词条上下文环境的考虑,因此本文探讨了Web文档的图表示方法、文档图之间距离度量选择等问题,并在此基础上发展了KNN算法,得到了基于最大公共子图的Web文本分类算法:MCS-KNN算法。MCS-KNN算法为每个Web文档生成表示图,通过计算两个Web文档表示图之间的相似度来计算两者的相似度,进而计算出待分类文档在训练集中的K近邻,根据K近邻的所属类别确定待分类文档的类别。实验表明,MCS-KNN算法分类速度快,精度高,具有比KNN算法更优越的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号