中文摘要
英文摘要
1 绪论
1.1 文本分类的研究背景及意义
1.2 文本分类的定义
1.3 文本分类技术的研究现状
1.3.1 文本分类技术的分类
1.3.2 文本分类在国外的发展
1.3.3 文本分类在国内的发展
1.4 本文研究内容
1.5 本文安排
2 文本分类的相关模型
2.1 文本表示模型
2.1.1 向量空间模型
2.1.2 统计语言模型
2.1.3 文本表示模型的比较与选择
2.2 基于N-GRAM语言模型的文本表示
2.3 N-GRAM模型若干关键问题
2.3.1 语义词
2.3.2 参数N的选择
2.3.3 数据平滑
2.4 分类常用算法介绍
2.4.1 贝叶斯方法
2.4.2 k-近邻方法
2.4.3 决策树方法
2.4.4 支持向量机方法
2.4.5 神经网络方法
2.4.6 基于投票的方法
2.4.7 Rocchio方法
2.5 小结
3 文本分类系统结构设计
3.1 文本分类系统的结构
3.2 分类功能
3.2.1 朴素贝叶斯分类器
3.2.2 链状贝叶斯分类器
3.2.3 多类别处理
3.3 数据分析功能
3.4 小结
4 分类系统开发
4.1 系统实现的目的和意义
4.2 总体结构
4.3 主要算法过程
4.3.1 分类算法的详细设计与实现
4.3.2 训练算法的详细设计与实现
4.3.3 混淆矩阵的生成
4.3.4 N元项的储存方式
4.3.5 分类数据的储存方式
4.4 评价方法
4.5 小结
5 实验及分析
5.1 实验环境
5.2 语料库
5.2.1 语料库的重要性
5.2.2 本文所使用的语料
5.3 实验结果以及分析
5.3.1 实验结果
5.3.2 实验分析
5.4 小结
6 总结与展望
6.1 总结
6.2 展望
致谢
参考文献
附录