文摘
英文文摘
声明
第1章 引言
1.1研究背景及意义
1.2国内外的研究现状
1.3课题研究的难点
1.4本课题研究的主要内容
1.4.1中文网页体裁特征的选取
1.4.2基于K-近邻的分类算法
1.4.3设计和实现网页体裁分类系统
1.5本文的组织结构
第2章 网页体裁分类概述
2.1体裁(Genre)的概念
2.2体裁的类别
2.2.1体裁类别的确定
2.2.2体裁类别的研究现状
2.3网页的特征项
2.4网页的特征选取
2.4.1文本的特征选取
2.4.2网页的特征选取
2.5常用的分类算法
2.5.1朴素贝叶斯算法(Naive Bayes,NB)
2.5.2 K-近邻算法(K-Nearest Neighbor,KNN)
2.5.3支持向量机算法(Support Vector Maehine,SVM)
2.6实验语料库
2.6.1语料库的概念
2.6.2网页语料库
第3章 网页体裁分类的研究
3.1网页的表示模型
3.1.1向量空间模型(Vector Space Model,VSM)
3.1.2四维向量空间模型
3.2体裁特征的归纳
3.2.1标签特征向量
3.2.2形态特征向量
3.2.3内容特征向量
3.2.4词性特征向量
3.3体裁特征的选取
3.3.1特征项频率(Term Frequency:TF)
3.3.2集中度(Concentration)
3.3.3分散度(Dispersion)
3.3.4本课题的特征选取算法TFCD
3.4基于机器学习的分类算法
3.4.1 K-近邻分类算法
3.4.2 K-近邻分类算法的改进与分析
第4章 网页体裁分类系统的设计与实现
4.1体裁类别的确定
4.2语料库的构建
4.3分类系统的设计
4.4开发环境
4.5主要功能模块的实现
4.5.1 HTML解析
4.5.2中文分词
4.5.3特征选取
4.5.4 KNN学习和分类
第5章 实验测试与结果分析
5.1实验评价标准
5.2实验结果与分析
第6章 结论与展望
6.1工作总结
6.2研究成果
6.3未来的研究
参考文献
致谢
攻读硕士学位期间发表论文情况