首页> 中文学位 >基于语义的短文本聚类算法研究
【6h】

基于语义的短文本聚类算法研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 课题的研究背景

1.2 课题研究的目的及意义

1.3 国内外研究现状

1.4 课题的研究内容

1.5 论文结构

1.6 小结

2 相关技术介绍

2.1 文本聚类概述

2.2 文本建模及相似度计算

2.2.1 空间向量模型

2.2.2 基于空间向量模型的文本相似度计算

2.2.3 基于概率统计的LDA模型

2.2.4 基于LDA模型的文本相似度计算

2.3 基于知网的中文语义相似度计算

2.4 频繁项集挖掘算法

2.4.1 关联规则

2.4.2 串行Aprior关联规则挖掘算法

2.4.3 串行Fp-growth关联规则挖掘算法

2.5 聚类效果评价

2.6 本章小结

3 基于语义的短文本聚类算法

3.1 短文本表示

3.2 短文本之间的语义相似度

3.2.1 词语语义相似度计算

3.2.2 短文本之间语义相似度计算

3.3 基于频繁项集挖掘短文集主题分布

3.3.1 基于频繁项集的挖掘潜在主题

3.3.2 基于频繁项集挖掘聚类中心

3.4 并行频繁项集挖掘

3.4.1 MapReduce编程框架

3.4.2 基于MapReduce编程框架改进的并行频繁项集挖掘

3.4.3 并行频繁项集挖掘算法复杂度分析

3.5 短文本聚类方法的总体实现流程

3.6 本章小结

4 试验效果及评价

4.1 短文本聚类实验

4.1.1 数据准备

4.1.2 评价标准

4.1.3 参数选取

4.1.4 聚类中心对比试验

4.1.5 文本聚类对比试验分析

4.2 频繁项集挖掘效率试验

4.2.1 单机对比试验

4.2.2 集群试验环境

4.2.3 集群扩展性和加速比实验

4.3 本章小结

结论

参考文献

作者简历

学位论文数据集

展开▼

摘要

针对短文本聚类过程中存在的三个主要挑战:特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种基于语义的短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;利用短文本集的频繁项集和语义相似度来获取聚类中心,有效克服了传统聚类算法对聚类中心敏感的缺点,解决了簇的理解性问题;借助汉语语义相似度间接计算短文本数据之间的相似度,避免了高维空间的运算。同时在挖掘频繁项集的过程中,针对串行频繁项集挖掘算法效率低下的问题,本文又提出了一种新的基于MapReduce编程框架的并行频繁项集挖掘算法。实验结果表明,本文提出的并行频繁项集挖掘算法可以高效的挖掘频繁项集,从语义角度出发实现的短文本聚类算法明显优于传统的文本聚类算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号