首页> 中文学位 >基于改进TFIDF的混合模型文本分类方法研究
【6h】

基于改进TFIDF的混合模型文本分类方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.3 主要研究内容及工作

1.4 论文组织结构

第二章 改进的TFIDF方法

2.1 文本表示

2.2 常见的特征选择方法

2.2.1 文档频率

2.2.2 信息增益

2.2.3 卡方统计量

2.2.4 互信息法

2.2.5 TFIDF

2.3 TFIDF的改进方法

2.3.1 TFIDF的不足

2.3.2 TFIDFCV方法

2.4 本章小结

第三章 混合模型文本分类方法研究

3.1 主题模型的发展

3.1.1 LSA模型

3.1.2 PLSA模型

3.1.3 LDA模型

3.2 PST-LDA

3.3 混合模型分类方法

3.4 本章小结

第四章 实验设计与结果分析

4.1 实验准备

4.1.1 语料库选择

4.1.2 语料库预处理

4.1.3 实验环境

4.2 分类器的选择

4.2.1 常见的分类方法

4.2.2 LIBSVM简介

4.3 分类评价标准

4.3.1 正确率与召回率

4.3.2 F测度

4.3.3 宏平均及微平均

4.4 特征选择方法实验

4.5 混合模型分类实验

4.5.1 LDA建模相关参数

4.5.2 PST-LDA中的最佳词集组合

4.5.3 TFIDFCV选择特征的比例

4.5.4 实验结果分析

4.6 本章小结

第五章 总结与展望

参考文献

在校期间发表的论文、科研成果

致谢

展开▼

摘要

文本分类技术是从庞大而杂乱的文本中准确而快速的识别所需信息的关键技术。在文本分类的过程中,文本被送入分类器之前首先要对文本进行预处理工作,包括文本分词、去停用词、特征选择和特征提取等。特征选择和特征提取可以排除文本中所含的噪音数据,降低文本特征空间的维度。这一过程十分重要,因为其可以直接影响到分类精度。本文针对特征选择和特征提取进行研究,提出了一种基于向量空间模型与主题模型的混合模型。能使得文本的特征向量尽可能多的携带类别信息的同时又使其维度降低。本文的工作如下:
  第一,改进TFIDF算法。引入变异系数,提出了一种改进方法TFIDFCV。该方法用变异系数作为权重因子,综合考虑特征词在类间和类内的信息分布,调整TFIDF对特征项的权重计算,可以避免传统的TFIDF方法没有考虑特征项类间和类内的分布情况的缺点,能够更有效的从文本中选择特征。
  第二,提出混合模型。通过LDA主题模型对文本进行特征提取,可以降低特征空间的维度。分别对名词、动词以及其他词建模,可以有效利用文本中的词性信息,构建一种结合词性的LDA模型,即PST-LDA。以PST-LDA模型和TFIDFCV方法共同处理文本集,结合词频、词性和主题等信息,以期望得到信息承载量更大的特征。
  第三,实验验证。设计了两组实验,分析验证改进的效果。第一组,TFIDF与TFIDFCV方法在支持向量机下文本分类的效果对比。实验结果表明TFIDFCV方法较TFIDF方法的宏F1值提高了1.21%。第二组,LDA、PST-LDA、TFIDFCV与PST-LDA结合的文本分类效果对比,实验结果表明TFIDFCV与PST-LDA结合的方法宏F1值比PST-LDA提高了1.1%,比LDA提高了0.92%,并且在建模时间上的开销不到LDA的一半。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号