首页> 中文学位 >文本分类中词共现关系的研究及其应用
【6h】

文本分类中词共现关系的研究及其应用

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1研究背景和意义

1.2研究历史

1.3文本分类概述

1.3.1文本分类问题描述

1.3.2文本分类算法研究概述

1.4研究现状与热点

1.4.1经典分类算法的改进

1.4.2层次化文本分类

1.4.3多分类器组合

1.4.4多标签文本分类

1.5本文研究内容

2文本分类相关技术

2.1文本表示

2.1.1文本特征表示

2.1.2文本表示模型

2.2文本特征降维

2.2.1文档频率

2.2.2互信息

2.2.3信息熵

2.2.4信息增益

2.2.5 x2统计

2.3文本分类数据集

2.4分类器性能评估指标

3文本分类中词共现关系的研究

3.1词共现关系概述

3.2关联分析

3.2.1关联规则基本概念

3.2.2经典关联规则挖掘算法

3.2.3遗传算法在频繁集挖掘中的应用

3.2.4文本分类规则

3.3相关分析

3.3.1相关关系及其度量

3.3.2线性相关分析

3.3.3基于概率的相关性度量

3.3.4词相关关系分析

3.4本章小结

4关联分析在文本分类中的应用

4.1关联文本分类模型

4.1.1关联文本分类基本概念

4.1.2文本分类规则挖掘

4.1.3基于分类规则的文档类别判定

4.2关联文本特征选择

4.3实验及结果分析

4.3.1实验设计及描述

4.3.2实验结果及分析

4.4本章小结

5词相关性分析在文本分类中的应用

5.1基于线性相关分析的文本分类

5.1.1 LLSF文本分类

5.1.2基于LLSF的改进贝叶斯文本分类

5.2基于词间概率相关性分析的改进贝叶斯分类

5.2.1 TAN分类器的词间相关性分析

5.2.2基于词集相关度计算的改进贝叶斯分类

5.3实验及结果分析

5.3.1实验设计及描述

5.3.2实验结果及分析

5.4本章小结

6总结与展望

6.1本文总结

6.2进一步的工作

致谢

参考文献

附录 攻读博士学位期间发表的论文和出版著作情况

展开▼

摘要

在网络信息时代,文本分类作为大规模文本处理的技术基础,有着广泛的应用前景。随着研究的深入,文本分类技术日趋成熟,开始进入实用阶段,对于文本分类算法本身的研究越来越难以取得突破性创新。在这种情况下,寻找新的研究切入点,从基础性问题入手,解决关键技术,再逐步展开应用于分类器性能的改进,对于文本分类技术研究的发展具有重要的意义。
   本文从分析文本类别特征入手,提出了文本分类中词语共现关系研究的课题,从关联和相关两个方面研究了词语共现关系,然后提出了多种将词关联和词相关应用于文本分类的方法,可概括为直接的基于关联或相关的文本分类模型构建以及间接的其它文本分类模型的改进这样两种应用方式。
   关联和相关的概念源于数据挖掘中的规则有趣性度量,本文将其应用于文本分类,又采用了统计学中对于相关的一般性解释,从线性和非线性两个方面分析了词间相关性,其中线性相关分析包括了线性方程参数求解和线性相关系数的计算,而非线性相关则主要分析了基于概率的相关性度量指标计算。
   对于关联分析在文本分类中的应用,本文从关联文本分类模型和关联特征选择这两个方面进行研究。关联文本分类模型是一种基于规则的文本分类模型,在分类规则挖掘算法上,我们提出了一种应用于长频繁集挖掘的基于变动邻域搜索的遗传算法(VNS-GA)设计,在文档类别判定方法上,我们提出了基于规则匹配长度计算的文档区分算法。在关联特征选择的研究中,我们总结了文档类别区分能力和文档覆盖率这两个特征选择原则,提出了k项频集的并集的选择方法。在Yahoo中文文本数据集上的实验结果表明本文提出的长频繁集挖掘算法能够有效地应用于关联文本分类模型,而运用关联特征选择的朴素贝叶斯文本分类模型也大大提高了分类性能。
   对于相关分析在文本分类中的应用,本文所作研究包括线性最小二乘拟合(LLSF)分类、LLSF和朴素贝叶斯组合分类和基于概率相关性分析的改进贝叶斯分类。在Reuters-21578文本集上的实验结果可得以下结论:首先,LLSF分类器的效果不够理想,说明在文本分类中词间线性关系表现较弱,完全基于线性关系假设的分类器可能存在较大偏差;其次,LLSF和朴素贝叶斯组合分类的性能要好于两种分类器单独使用的性能,说明尽管LLSF分类效果较差,但作为一种成熟分类算法仍有其价值;最后,基于概率相关性分析的改进贝叶斯比朴素贝叶斯分类在评测指标上有着全面的明显的提高,说明了本文提出的词集相关度计算方法用于改进贝叶斯分类的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号