文摘
英文文摘
声明
第一章 绪论
1.1课题的研究背景及意义
1.2国内外研究现状
1.2.1自动分类技术的发展趋势
1.2.2分类模型和分类算法的发展现状
1.2.3基于网页特性的分类研究现状
1.3课题研究的主要内容
1.4论文的组织结构
第二章 中文网页分类关键技术
2.1文本分类技术概述
2.1.1文本分类概念
2.1.2自动分类的方法
2.1.3网页分类过程
2.2网页预处理
2.2.1 HTML文档解析
2.2.2中文分词
2.2.3停用词删除
2.2.4词性选择
2.3文本表示
2.3.1向量空间模型
2.3.2权重计算
2.4特征选取技术
2.4.1文档频率(DF)
2.4.2信息增益(IG)
2.4.3开方拟合检验(x2-CHI)
2.4.4互信息法(MI)
2.5分类算法简介
2.5.1简单距离向量法
2.5.2朴素贝叶斯(Naive-Bayes)
2.5.3支持向量机方法(SVM)
2.5.4最近邻居算法(NN)
2.6文本分类效果评价指标
2.7网页分类在搜索引擎中的应用
2.8本章小结
第三章 基于代表样本的KNN算法研究
3.1 KNN算法
3.1.1算法描述
3.1.2算法分析
3.1.3相关研究工作
3.2代表样本生成新策略
3.2.1代表样本概念的提出
3.2.2一种新的代表样本生成策略
3.3改进算法描述
3.3.1训练算法
3.3.2分类算法
3.4基于代表样本生成策略的KNN分类过程
3.5本章小结
第四章 基于中文网页结构特征的特征项加权
4.1网页的半结构特性
4.2常见的基于网页结构特征的特征加权方法
4.2.1利用HTML标记进行解析加权
4.2.2基于网页分块的特征加权
4.2.3基于超链接文本的特征加权
4.3基于主题相关链接的权值修正方法的提出
4.3.1网页的DOM解析及分块
4.3.2相关链接块的提取
4.4本章小结
第五章 中文网页分类器设计与实现
5.1开发与运行平台
5.2处理流程
5.3分类器设计说明
5.3.1系统结构
5.3.2模块功能描述
5.3.3系统类说明
5.3.4数据集说明
5.3.5网页下分类器CPCK界面
5.4实验结果分析
5.4.1代表样本法与传统KNN算法的实验比较
5.4.2代表样本法与其他算法的实验比较
5.4.3主题相关链接加权法实验对比
结论
主要工作
主要创新点
存在的问题及未来的方向
参考文献
攻读硕士学位期间取得的学术成果
致谢