首页> 中文学位 >个人微博中公共事件检测算法的研究
【6h】

个人微博中公共事件检测算法的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 研究目标与内容

1.4 章节安排

1.5本章小结

2 相关理论和技术

2.1 社会化网络

2.2 微博

2.3 聚类方法

2.4 TF-IDF公式

2.5 事件抽取流程

2.6 本章小结

3 主题词提取的设计与实现

3.1 源数据的获取

3.2 数据预处理

3.3 相似度计算

3.4 传统TF-IDF

3.5 TF-DF计算

3.6 本章小结

4 基于模板公共事件检测

4.1 构建模板

4.2 模板匹配的步骤

4.3 本章小结

5 实验评估

5.1 实验数据

5.2 实验配置环境

5.3 实验结果

5.4 评价指标

5.5 本章小结

结论

参考文献

在学研究成果

致谢

展开▼

摘要

伴随着计算机应用技术的迅猛发展,互联网传媒也相应地的兴起并快速地影响着人们的日常生活,与此同时成为了电视、报纸和广播等多种传统媒体之后的又一个新闻载体。由于信息能够在互联网空间内实现快速传播,其信息本身也呈现出了多元化、公开化和实时化特征,因此互联网充当了社会实时热点事件传播平台的重要角色。
  以新浪微博为典型代表,是国内近年来新兴起且发展迅速的网络媒体。用户可以通过 WEB网页、移动客户端等多种途径随时随地进行状态更新和信息分享。新浪是目前国内流行度最广、用户规模最大的微博网站,根据2013年7月最新的数据统计显示,新浪微博注册用户已达到3.3亿,形成了微博庞大的数据量。
  由于微博数据具有不规则性、海量性和实时性等特点。所以如何从大量的、不规则的个人微博数据中精确地提取出用户在某段时间内所关注公共事件,是当前个人微博信息检测技术首要解决的问题。
  将个人微博数据作为实验测试样本,主要的研究工作是如何根据个人微博信息检测出某用户在某段时间内关注了哪些公共事件。经过反复地实验证明,将传统的事件提取算法应用于个人微博事件处理结果并不理想。所以在一系列算法尝试和多次实验的基础上,综合考虑了个人微博的非主流文本特征,以短文本数据挖掘为研究背景,以提取主题词为课题重点,展开了从文本获取、预处理、相似性度量,特征值计算、以及最后的公共模板的正向匹配和反向匹配等一系列研究。
  课题已经形成了一个合理的、完整的个人微博公共事件检测的操作流程,概括起来主要分为文本预处理、主题词识别和公共模板匹配三个模块。具体说预处理主要是清除文本的噪音干扰,使得文本的表示方式更加规范化;主题词主要是基于耦合、时序和流行三个相似度的计算以及应用提出的TF-DF函数二者相结合的方法进行提取,这样不仅考虑了实验的数据特征,同时也提高了主题词提取的准确率;公共模版匹配通过主题词与新浪风云榜的模板事件依次进行正向匹配和反向匹配两个步骤,得到最终的公共事件检测结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号