首页> 中文学位 >结合权重因子与特征向量的文本聚类研究与应用
【6h】

结合权重因子与特征向量的文本聚类研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 课题研究的背景及意义

1.2研究现状与困难

1.3本论文的主要工作和结构安排

第二章 文本聚类相关技术概述

2.1 文本预处理

2.2 文本特征选择

2.3 降维处理

2.4 文本聚类方法

2.5 聚类统计量和评估

2.6 聚类评价函数

2.7 小结

第三章 结合权重因子与特征向量改进的文本预处理方法

3.1 文本的表示方法

3.2 特征词权重的计算方法

3.3文本相似度计算方法

3.4 改进的文本预处理方法

3.5 实验分析

3.6 小结

第四章 遗传控制因子改进的遗传K均值文本聚类算法

4.1 遗传K-均值

4.2 GGKM文本聚类算法

4.3 文本聚类方法实验

4.4 小结

第五章 GGKM在舆情热点发现的应用

5.1 舆情热点发现

5.2 实验分析

5.3 小结

第六章 结论与展望

一、总结

二、展望

参考文献

致谢

攻读学位期间的研究成果

展开▼

摘要

文本聚类是通过聚类算法将同类的文本划分到同一簇的过程,该过程涉及到文本预处理和文本聚类算法执行两个方面。文本聚类方法目前已经被广泛的应用于舆情分析、搜索引擎、电子图书等服务。文本聚类过程属于典型的无监督学习方法,在聚类之前无需知道每个类别的描述信息。这也是文本聚类的难点,众多研究者都对其进行研究,并取的了丰富的研究成果。
  在文本进行聚类之前需对文本进行预处理,需要通过使用数学的方法表示文本,一般通过向量空间模型对文本进行表示。通过该模型表示的文本都是由文本本身的特征词与其权重构成的向量。但通过传统方法计算的特征词权重在表示文本时有一定的局限性,不能通过特征词权重充分体现文本间的差异性。而且在传统模型中不会考虑特征词出现的先后顺序,更不会考虑特征词在不同位置出现代表的意义是否相同。还有文本聚类算法的选择对聚类效果影响也很大,多数聚类算法不能很好的结合文本的编码方案。本文主要对文本聚类方法的改进和应用做了如下研究:
  1、首先分析了传统特征词权重计算方法对通过特征词权重表示文本的局限性,并且通过权重因子对特征词权重计算方法做出了改进。该方法强调了特征词权重在文本集合中的重要性,而不是单纯的想通过特征词权重表示文本,增强了同类文本之间的相似度。并在对文本进行编码时修改了传统的VSM编码方案,使文本向量由四条特征向量组成,并对特征向量加上位置权重信息。最后考虑到文本编码方案的修改对文本间相似度计算的影响,重构了文本相似度计算公式。
  2、其次根据改进的文本预处理和编码方案,通过遗传控制因子(GCF)对遗传K-均值文本聚类算法进行改进。使用GCF对遗传算子操作进行控制,使得算子中的优质个体一定被引入下一代,从而克服了遗传K-均值算法算子操作的低效性。使其应用到本文改进的文本编码方案中能更好的改进聚类效果并且提高聚类精度。最后对改进的文本聚类方法进行实验分析,证明了改进的方法在文本聚类精度上有明显提高。
  3、最后将结合权重因子和特征向量改进的文本聚类算法应用到舆情热点发现中,对具体应用做了详细分析和流程安排。实验结果表明,改进方法对舆情热点的趋势和预警研究很有帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号