首页> 中文学位 >论坛热点事件关键词识别与传播趋势研究
【6h】

论坛热点事件关键词识别与传播趋势研究

代理获取

目录

文摘

英文文摘

1 绪论

1.1 研究背景与意义

1.2 研究现状

1.2.1 TDT

1.2.2 网络舆情监控

1.3 本文的主要工作

1.4 本文的组织结构

2 论坛信息抽取

2.1 网页信息抽使用到的相关工具和技术

2.1.1 火车采集器

2.1.2 HTML

2.1.3 正则表达式

2.1.4 SQL语言

2.2 论坛中信息的抽取

2.2.1 论坛中的一些基本概念

2.2.2 天涯社区的页面要素分析

2.2.3 编写设定抽取规则

2.3 抽取结果展示与数据规范化处理

2.4 本章小结

3 论坛热点事件关键词识别

3.1 相关概念和技术

3.1.1 定义说明

3.1.2 传统特征词汇识别方法分析

3.1.3 词语表与背景语料

3.1.4 中文分词

3.1.5 分词之后的优化

3.2 关键词权重的计算

3.2.1 影响关键词权重的因素

3.2.2 权重函数的设计

3.3 算法实现

3.4 试验设计与结果分析

3.4.1 测试数据说明

3.4.2 试验结果的评价准确率的度量

3.4.3 测试结果及分析

3.5 本章小结

4 论坛热点事件传播趋势分析

4.1 事件传播趋势分析相关技术

4.2 基于统计的行为分析

4.2.1 发帖行为随时间的变化

4.2.2 回复行为随时间的变化

4.2.3 发帖行为与回复行为比较

4.3 热点事件传播中ID的活动情况

4.3.1 每日新增ID情况

4.3.2 传播行为的持续性

4.3.3 ID活跃度分析

4.3.4 人们对帖子的选择性

4.4 基于“意见领袖”行为的趋势分析

4.4.1 “意见领袖”的定义与行为特征分析

4.4.2 “意见领袖”的识别

4.4.3 基于“意见领袖”行为的趋势分析

4.4.4 基于“意见领袖”行为的日内热点发现

4.5 本章小结

5 总结与展望

5.1 总结

5.2 未来工作展望

参考文献

致谢

论文及科研情况

展开▼

摘要

互联网的普及,网民数量的增加对社会生活的各个方面都产生了重要的影响,尤其是社会的热点、矛盾越来越多的通过网络这一途径传播与体现。网络已成为我国人民讨论公共事务,表达自己观点的重要公共平台,随之而来的是政府有关部门对网络舆情的管理问题。如何能够及时发现舆情热点、正确引导民意走势是当前急需解决的难点。
   本文主要研究工作主要包括以下3点:
   (1)介绍了网页信息抽取的相关技术,通过对不同传播媒介的对比,指出在现阶段论坛是研究热点事件的最佳场所。然后天涯社区页面要素分析的基础上利用html标签、正则表达式、SQL相关知识设计采集程序对热点事件的传播信息进行抽取处理。
   (2)介绍了一些关键词的识别方法,并对影响识别结果的因素进行了分析,然后组织语义表和训练语料,考虑关键词的词频,词性,长度,位置和互信息特征设计算法通过关键词权重计算来识别热点事件关键词。通过与TF—IDF算法的对比,试验取得了令人满意的效果,准确率和召回率均有所提升。
   (3)介绍了现有的事件传播趋势分析方法及其不足,对抽取到的事件传播信息进行统计,在统计基础上定义论坛中的“意见领袖”,分析了“意见领袖”的行为模式,设计了一套算法对传播趋势进行分析。通过实验证明,该方法对于识别那些潜在的热点事件具有较好的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号