文摘
英文文摘
声明
第1章绪论
1.1文本自动分类研究的背景和意义
1.2文本自动分类技术的发展现状
1.2.1国外研究状况
1.2.2国内研究状况
1.3文本自动分类技术的应用价值
1.4课题研究内容及论文的组织结构
第2章中文文本分类关键技术
2.1文本分类概述
2.2基于统计的分类模型
2.3文本的向量空间模型(VSM)表示
2.3.1向量空间模型的基本概念和特点
2.3.2特征项的选择和特征权重
2.4文本预处理
2.4.1文本半结构化
2.4.2自动分词
2.4.3特征选择和提取
2.5本章小结
第3章中文文本分类算法的评价与分析
3.1朴素贝叶斯算法
3.2 KNN算法
3.3类中心向量最近距离判别算法
3.4基于聚类粒度原理的分类算法
3.5支持向量机
3.5.1线性支持向量机
3.5.2实际的线性支持向量机
3.5.3非线性向量机
3.6潜在语义索引
3.7 Boosting分类方法
3.8使用最大熵模型分类
3.9评价和比较分类算法性能的定理和方法
3.10本章小结
第4章基于科技文献的中文文本分类算法
4.1关于科技文献
4.1.1科技文献行文规范特点
4.1.2关键词集抽取算法
4.2算法提出背景
4.3分类模型构建算法
4.3.1属性选择
4.3.2算法实现
4.4自动文本分类算法
4.4.1层次化分类
4.4.2算法实现
4.5本章小结
第5章对比实验
5.1开发测试环境数据集
5.2实验设计
5.2.1实验方法
5.2.2评估方式
5.3实验结果和分析
5.3.1传统文本分类算法比较
5.3.2科技文献文本分类算法
5.4本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
作者简介