基于最大公共子图的中文Web文本分类研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成为一个亟待解决的问题。Web文本挖掘技术就是解决上述问题的一种方法,它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档的集合中发现潜在的、有价值的知识。Web文本分类是Web文本挖掘的重要技术,是一种快速、有效的组织网上海量信息的关键技术,是Web信息处理的基础,有着很高的研究价值和广泛的应用前景。
　　本文研究的对象是中文Web文本,目的是提高Web文本分类的精度和速度,主要针对中文Web文本的表示以及分类算法进行了深入地探讨。Web文档包含大量的与主题内容无关的噪音数据,因此本文提出了一种基于网页分块的主题信息自动提取算法。首先对Web文档依据布局标签分块构建文本内容块层次树,然后自底向上遍历层次树,计算每个块节点的语义属性和主题相关度,同时删除主题无关节点,最终通过遍历文本块层次树的最大内容节点路径,提取当前网页的主题信息。实验表明该主题信息提取算法对大多数中文门户网站的主题型网页均有效,适用性比较强。传统的向量空间文本表示方法不能有效表示文本的结构信息,缺乏对文本特征词条上下文环境的考虑,因此本文探讨了Web文档的图表示方法、文档图之间距离度量选择等问题,并在此基础上发展了KNN算法,得到了基于最大公共子图的Web文本分类算法:MCS-KNN算法。MCS-KNN算法为每个Web文档生成表示图,通过计算两个Web文档表示图之间的相似度来计算两者的相似度,进而计算出待分类文档在训练集中的K近邻,根据K近邻的所属类别确定待分类文档的类别。实验表明,MCS-KNN算法分类速度快,精度高,具有比KNN算法更优越的分类性能。

著录项

作者
赖兴瑞;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机软件与理论
授予学位硕士
导师姓名张东站;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
Web文档; 汉字文本; 信息处理; KNN算法;

相似文献

中文文献
外文文献
专利

1. 基于最大公共子图的本体映射方法研究 [J] . 郭竹为 ,刘胜全 ,刘艳 . 计算机工程 . 2017,第005期
2. 基于最大公共子图的文本相似度算法研究 [J] . 吴江宁 ,刘巧凤 . 情报学报 . 2010,第005期
3. 使用KNN算法的中文Web文本分类技术研究 [J] . 曹勇 ,吴顺祥 . 软件导刊 . 2007,第001期
4. 基于顶点冲突学习的最大公共子图算法 [J] . 王宇 ,刘燕丽 ,陈劭武 . 计算机应用 . 2021,第006期
5. 一种基于最大公共子图的社交网络对齐方法 [J] . 冯朔 ,申德荣 ,聂铁铮 . 软件学报 . 2019,第007期
6. 基于一种有监督Isomap算法的Web中文文本分类 [C] . 涂佳 ,吴翊 ,易东云 . 全国第四届Web信息系统及其应用学术会议、全国第二届语义Web与本体论学术研讨会、全国电子政务技术与办公自动化学术研讨会 . 2007
7. 基于符号计算的最大公共子图匹配的研究 [A] . 冷贝贝 . 2019

基于最大公共子图的中文Web文本分类研究

摘要

著录项

相似文献

相关主题

期刊订阅