文摘
英文文摘
第一章 绪论
1.1 论文选题背景
1.2 国内外研究现状
1.3 论文主要工作
1.4 论文组织结构
第二章 词语相似度计算和文本分类技术基础
2.1 基于知网的词语相似度计算
2.1.1 《知网》的知识描述语言
2.1.2 相似度计算方法
2.2 基于语料库的词语相似度计算
2.2.1 词的特征表示
2.2.2 特征权重
2.2.3 相似度计算方法
2.3 文本分类
2.3.1 文本分类的一般过程
2.3.2 文本特征抽取
2.3.3 文本特征选择
2.3.4 文本分类器
2.3.5 评估指标
2.4 小结
第三章 中文文本分类的两步特征选择法
3.1 引言
3.2 向量空间模型
3.3 两步特征选择
3.3.1 类别区分词
3.3.2 最优特征子集
3.4 实验结果与分析
3.4.1 实验数据集
3.4.2 性能评价指标及实验参数
3.4.3 实验结果
3.5 小结
第四章 中文低频词语相似度计算方法研究
4.1 引言
4.2 低频词语的组合相似度计算
4.2.1 基于知网的相似度计算
4.2.2 基于构造语料的相似度计算
4.2.3 组合相似度计算方法
4.3 实验
4.3.1 实验设计
4.3.2 实验数据
4.3.3 相似度性能评估指标
4.3.4 实验参数确定
4.3.5 实验结果
4.4 小结
第五章 基于词聚类的短文本分类初探
5.1 引言
5.2 基于词聚类的特征扩展
5.2.1 词语分布相似度计算
5.2.2 词聚类
5.2.3 特征扩展
5.3 实验
5.3.1 实验方法
5.3.2 实验数据
5.3.3 实验结果
5.4 小结
第六章 总结及未来的工作
6.1 总结
6.2 未来的工作
致谢
攻硕期间从事的科研工作及取得的研究成果
参考文献