基于KL距离的微博突发话题检测研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅猛发展，网络的普及率越来越高，使得网络超越大众媒体成为广大群众获知、抒发自己对各大突发新闻事件、热点新闻事件等的看法、观点、态度的重要的新的渠道平台。因此，如何有效及时的获取有效的新闻信息，分析新闻信息，发现其中的突发事件、热点事件成为当今信息检索领域重要的研究重点和热点。
　　话题检测技术是解决上述问题的重要方法，该技术主要是从网络新闻数据流中及时的发现话题，并对已发现的话题进行实时的后续关联检测，对相关话题进行全面记录，更便捷的使人们了解话题的整体概况，此外，同时为相关政府人员及时的了解突发事件、热点事件的发展情况，掌握事件的发展动态并及时的控制和引导相关话题的发展趋势等，提供了极大的便利。
　　目前，在微博突发话题检测中，存在特征词抽取不全、准确率不高的问题；在话题关联检测中，存在静态阈值和虚假相关报道的问题。本文主要是针对上述问题进行研究，首先，研究了突发词抽取方法，然后研究了关联检测中动态阈值和解决虚假相关报道的方法。即主要有一下两个方面：
　　1)研究微博突发词抽取及突发话题检测方法，提出一种基于突发词的微博突发话题检测方法
　　越来越多的人们运用微博来发表对某一事件的看法，使得研究微博上的突发话题具有重要的研究意义和价值，根据微博文本短、数据量大、用词不规范，当一个突发话题出现时往往伴随了大量突发词的出现的特点，提出了一种基于突发词的微博突发话题检测方法。
　　该方法首先根据词语的词频和文档频次进行突发词的初步筛选，得到候选突发词；然后结合发表微博的用户信息即用户影响力以及词语的词频逆文档频率得到词语的权重，再然后抽取权重较高的词作为表征突发话题的突发词，最后运用改进的S ingle-Pass聚类算法对抽取出的突发词进行聚类，从而完成微博突发话题的检测。实验结果表明该方法提高了突发词抽取和检测的准确性。
　　2)研究话题相似度计算和动态阈值设定的方法，提出一种基于KL距离的双重过滤话题关联检测方法
　　在话题关联检测中，存在阈值设置和虚假相关报道的相关问题，为了较好的解决这两方面的问题，提出一种基于KL距离和命名实体的话题关联检测方法。
　　首先，将KL距离运算得到的距离值作为最初的阈值，考虑到新闻报道具有时间特性，提出动态阈值方法，将相似度值与动态阈值比较，得到候选相关报道；然后，思考到命名实体对区分相似话题具有重要作用，所以，把命名实体提取出来，话题的最终检测经过比较命名实体相同和相似的个数完成。实验证明了动态阈值方法是高效的，大大改善检测效果。

著录项

作者
魏景璇;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机应用技术
授予学位硕士
导师姓名鲁燃;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
微博平台; 话题检测; KL距离; 突发词抽取; 相似度计算;

相似文献

中文文献
外文文献
专利

1. 基于突发词共现的微博突发话题检测 [J] . 魏景璇 . 滨州学院学报 . 2020,第004期
2. 基于GV-LDA的微博话题检测研究 [J] . 李少华 ,李卫疆 ,余正涛 . 软件导刊 . 2018,第002期
3. 基于GV-LDA的微博话题检测研究 [J] . 李少华 ,李卫疆 ,余正涛 . 软件导刊 . 2018,第002期
4. 基于互信息的热点词发现和突发性话题检测研究 [J] . 翟东海 ,王佳君 ,聂洪玉 . 西藏大学学报（自然科学版） . 2013,第001期
5. 基于动态窗口的微博突发话题检测方法 [J] . 李艳红 ,贾丽娜 ,王素格 . 计算机应用与软件 . 2020,第005期
6. 基于时间序列分析的微博突发话题检测方法 [C] . HE Min ,贺敏 ,XU Jie . 2015中国计算机网络安全年会 . 2015
7. 基于微博的突发话题检测研究 [A] . 严萌 . 2017

基于KL距离的微博突发话题检测研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅