文摘
英文文摘
第一章 前言
1.1 研究背景和意义
1.2 国内外文本分类发展概况
1.2.1 国外发展概况
1.2.2 国内研究发展概况
1.3 课题研究的主要内容
1.4 论文的组织结构
第二章 网页自动分类工作流程和关键技术
2.1 网页分类的基本概念
2.2 网页文本自动分类基本工作流程
2.3 建立文本集及预处理
2.3.1 网络爬虫
2.3.2 网页预处理
2.4 文本表示
2.4.1 布尔模型
2.4.2 向量空间模型
2.4.3 概率模型
2.5 特征提取
2.5.1 信息增益
2.5.2 期望交叉熵
2.5.3 互信息
2.5.4 X2统计量
2.6 常用分类算法
2.6.1 基于统计的分类方法
2.6.2 基于规则的分类方法
2.7 分类算法评估
第三章 网页行为识别研究
3.1 网页结构分析
3.1.1 网页的架构
3.1.2 搜索引擎优化的行为分析
3.2 网页文本预处理
3.2.1 网页文本预处理对象
3.2.2 网页文本编码
3.2.3 去掉网页文本特殊字符
3.2.4 网页语言大小写统一
3.3 基于行为识别的网页分类算法
3.3.1 基于行文识别的网页分类算法的提出及公式
3.3.2 分类类别介绍
第四章 基于行为识别的网页分类算法设计与实现
4.1 分类器程序
4.1.1 开发环境
4.1.2 程序功能介绍
4.2 算法实现
4.3 分类结果
第五章 分类结果分析
5.1 测试程序
5.1.1 功能介绍
5.1.2 程序流程
5.2 测试结果
第六章 总结及展望
参考文献
致 谢
攻读学位期间发表的学术论文目录