文摘
英文文摘
论文说明:图表目录
第1章 绪论
1.1 课题背景
1.2 网页分类的研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 搜索引擎概述
1.4 本文的主要研究内容
1.5 论文组织
第2章 中文网页分类技术概述
2.1 中文网页分类模型
2.2 中文网页分类的关键技术
2.2.1 网页预处理
2.2.2 网页文本表示
2.2.3 特征降维方法
2.2.4 分类算法概述
2.2.5 分类器性能评价
2.3 本章小结
第3章 基于改进DOM树的网页净化方法
3.1 网页净化的方法
3.2 DOM技术概述
3.3 网页净化的模型设计
3.4 IDVA算法和MCE算法介绍
3.4.1 IDVA算法思想
3.4.2 MCE算法思想
3.5 本章小结
第4章 特征降维和相似度计算
4.1 特征降维方法
4.2 文本的相似度计算
4.3 经典相似度评价模型
4.3.1 布尔模型
4.3.2 向量空间模型
4.3.3 概率模型
4.4 改进的相似度计算方法
4.4.1 最优指派模型的改进
4.4.2《知网》知识库介绍
4.4.3 改进的相似度计算方法-Hsim
4.5 本章小结
第5章 基于支持向量机的层次分类
5.1 层次分类概述
5.2 支持向量机方法
5.2.1 支持向量机基础
5.2.2 支持向量机的发展
5.3 K-近邻(K-NN)方法
5.3.1 K-NN基础
5.3.2 K-NN的发展
5.4 基于支持向量机的层次分类模型
5.5 本章小结
第6章 实验设计与分析
6.1 网页净化实验
6.1.1 实验数据和方法
6.1.2 结果分析
6.2 层次分类实验
6.2.1 实验设计
6.2.2 实验结果分析
6.3 本章小结
总结与展望
参考文献
致谢
附录A 攻读硕士学位期间所发表的论文