结合权重因子与特征向量的文本聚类研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本聚类是通过聚类算法将同类的文本划分到同一簇的过程，该过程涉及到文本预处理和文本聚类算法执行两个方面。文本聚类方法目前已经被广泛的应用于舆情分析、搜索引擎、电子图书等服务。文本聚类过程属于典型的无监督学习方法，在聚类之前无需知道每个类别的描述信息。这也是文本聚类的难点，众多研究者都对其进行研究，并取的了丰富的研究成果。
　　在文本进行聚类之前需对文本进行预处理，需要通过使用数学的方法表示文本，一般通过向量空间模型对文本进行表示。通过该模型表示的文本都是由文本本身的特征词与其权重构成的向量。但通过传统方法计算的特征词权重在表示文本时有一定的局限性，不能通过特征词权重充分体现文本间的差异性。而且在传统模型中不会考虑特征词出现的先后顺序，更不会考虑特征词在不同位置出现代表的意义是否相同。还有文本聚类算法的选择对聚类效果影响也很大，多数聚类算法不能很好的结合文本的编码方案。本文主要对文本聚类方法的改进和应用做了如下研究：
　　1、首先分析了传统特征词权重计算方法对通过特征词权重表示文本的局限性，并且通过权重因子对特征词权重计算方法做出了改进。该方法强调了特征词权重在文本集合中的重要性，而不是单纯的想通过特征词权重表示文本，增强了同类文本之间的相似度。并在对文本进行编码时修改了传统的VSM编码方案，使文本向量由四条特征向量组成，并对特征向量加上位置权重信息。最后考虑到文本编码方案的修改对文本间相似度计算的影响，重构了文本相似度计算公式。
　　2、其次根据改进的文本预处理和编码方案，通过遗传控制因子(GCF)对遗传K-均值文本聚类算法进行改进。使用GCF对遗传算子操作进行控制，使得算子中的优质个体一定被引入下一代，从而克服了遗传K-均值算法算子操作的低效性。使其应用到本文改进的文本编码方案中能更好的改进聚类效果并且提高聚类精度。最后对改进的文本聚类方法进行实验分析，证明了改进的方法在文本聚类精度上有明显提高。
　　3、最后将结合权重因子和特征向量改进的文本聚类算法应用到舆情热点发现中，对具体应用做了详细分析和流程安排。实验结果表明，改进方法对舆情热点的趋势和预警研究很有帮助。

著录项

作者
郭士串;
展开▼
作者单位

江西理工大学;

展开▼
授予单位江西理工大学;
学科计算机技术
授予学位硕士
导师姓名董跃华;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本聚类; 权重因子; 特征向量; 遗传控制因子; 遗传K-均值聚类;

相似文献

中文文献
外文文献
专利

1. 结合权重因子与特征向量改进的文本聚类算法 [J] . 董跃华 ,郭士串 . 计算机工程与设计 . 2015,第004期
2. 结合权重因子和特征向量改进的混合聚类方法 [J] . 董跃华 ,郭士串 . 计算机应用与软件 . 2015,第011期
3. 两类扩散结构特征向量的研究与应用 [J] . 崔霆 ,金晨辉 . 电子与信息学报 . 2011,第004期
4. 一种结合主题模型与段落向量的短文本聚类方法 [J] . 饶毓和 ,凌志浩 . 华东理工大学学报（自然科学版） . 2020,第003期
5. 一种结合TF-IDF方法和词向量的短文本聚类算法 [J] . 赵晓平 ,黄祖源 ,黄世锋 . 电子设计工程 . 2020,第021期
6. 一种结合散射模型与特征向量分解的混合极化分解方法 [C] . 陈华杰 ,曾亮 ,林岳松 . 2010年全国模式识别学术会议（CCPR2010) . 2010
7. 基于特征向量与核函数相结合的高新技术词汇关系抽取模型研究 [A] . 陈秋瑞 . 2019

结合权重因子与特征向量的文本聚类研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅