首页> 中文学位 >基于聚类分析的传播短信溯源方法研究
【6h】

基于聚类分析的传播短信溯源方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1课题研究背景

1.2国内外研究现状

1.3课题研究的意义、内容和目标

2 短信文本相似度计算

2.1短信文本特点及相似度计算方法分析

2.2基于改进编辑距离的短信文本相似度计算算法

2.3实验设计与结果分析

2.4本章小结

3 短信聚类

3.1短信聚类特点及方法分析

3.2基于改进K-Mediods算法的短信聚类

3.3实验设计与结果分析

3.4小结

4 传播短信溯源

4.1传播短信溯源分析

4.2传播短信溯源方法设计

4.3实验设计与结果分析

4.4小结

5 结束语

5.1已完成的工作

5.2下一步的工作

致谢

参考文献

展开▼

摘要

作为一种简单实用的通信工具,短信方便了人们生活中的信息交流,但也给违法信息提供了扩散的渠道,尤其是短信量大且驳杂,人工发现“传播短信”并追溯传播源头往往耗时耗力还得不到好的结果。为此本课题通过对短信数据集进行聚类分析,使得能发现其中的传播短信,并进行溯源,为遏制违法信息和影响社会安定的舆情的传播提供有效地发现方法。
  为进行传播短信溯源,首先对短信文本相似度进行了分析,然后对相似短信进行聚类,最后筛选出传播短信,并通过有向图生成的方式将短信的传播路径还原,从而达到发现短信传播源头的目的。
  首先,针对短信文本超短、内容口语化以及文字易于修改等特点,采用基于改进编辑距离的短信文本相似度计算方法计算短信之间的相似度。同时,将该算法与现有的文本相似度计算算法进行实验对比,证明该算法得到的结果能有效地衡量短信之间的相似程度且具有一定的效率。
  其次,对于短信数据集比较大的特点,采用效率较高的K中心点(K-Mediods)算法进行聚类。对于该算法随机选取初始聚类中心导致聚类结果不稳定的问题,提出一种通过抽样后分析样本从而得到原数据集的分布情况并选取理想的聚类中心的优化方法,然后改进样本聚类的方法进一步提高聚类质量,并将该方法同现有的聚类方法就短信数据集进行对比实验,证明该算法能优化短信聚类质量。
  最后,基于获取的聚类结果,分析传播短信聚类簇的特征,提出传播短信簇筛选算法,将包含传播短信的簇筛选出来。根据所筛选的短信簇,通过短信传播有向图生成算法,对短信的传播路径进行还原,继而找出短信传播源头。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号