首页> 中文学位 >面向网络舆情分析的社会热点话题技术研究
【6h】

面向网络舆情分析的社会热点话题技术研究

代理获取

目录

声明

摘要

1 绪论

1.1 论文的研究背景和意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 主要研究内容

1.4 论文结构

2 关键技术介绍

2.1 舆情信息采集技术

2.2 网页正文提取算法

2.3 热点话题检测

2.4 本章小结

3 社会热点话题网络舆情分析平台总体设计

3.1 社会热点话题网络舆情分析平台需求分析

3.1.1 设计要求

3.1.2 平台功能需求

3.2 平台总体设计

3.2.1 平台总体架构

3.2.2 平台基本业务流程

3.2.3 平台功能模块设计

3.3 本章小结

4 基于结构相似网页聚类的正文提取算法研究

4.1 网页结构特征分析

4.1.1 基本概念

4.1.2 网页结构相似性

4.2 基于结构相似网页聚类的网页正文提取

4.2.1 网页相似度计算

4.2.2 网页正文提取

4.2.3 算法分析

4.3 实验结果及分析

4.3.1 实验环境与数据

4.3.2 评价标准

4.3.3 实验结果

4.4 本章小结

5 热点话题识别关键技术研究

5.1 热点话题发现流程

5.2 话题聚类算法

5.2.1 话题发现文本聚类算法及比较

5.2.2 改进的Single-Pass聚类算法

5.3 话题热度评估

5.4 本章小结

6 平台实现及测试

6.1 平台开发环境

6.2 平台实现效果

6.3 本章小结

结论

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

随着信息技术的不断进步,互联网逐渐走进人们的工作生活,网络舆情越来越能够精确反映当前社会热点、民众的态度需求,因此许多政府相关部门、企业能够对网络舆情信息进行监控管理的需求就变得非常迫切。同时由于互联网信息量大,且分布广泛,这些特点决定了难以依靠人工方式去实现信息的筛选以及舆情的监控。因此通过舆情监测及时发现当前掌握舆情热点信息,为相关部门和媒体应对突发事件提供理论依据,具有重要的社会价值。
  首先,本文介绍了热点话题舆情分析所涉及的关键技术,通过对当前信息处理系统中网页正文提取方法和网页布局结构的研究,针对当前算法对于不同网页结构网页正文提取准确度低的不足,充分考虑结构差别较大的网页对网页正文提取的影响,提出了基于结构相似网页聚类的正文提取算法,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。利用网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。
  其次,通过对比多种文本聚类算法的优缺点,结合本文研究对象网络新闻,针对原Single-Pass算法随机选取聚类中心影响聚类结果和算法运行过程中需要多次与所有对象聚类影响效率的不足,确定初始聚类中心,并在新文本不断加入过程中不断更新聚类中心,进一步提高算法的运行效率。然后计算话题热度值时引入衰减函数,根据其各项特征计算出话题的热度值,进而根据话题热度值得到舆情信息中的舆情热点话题。
  最后,根据对以上内容的研究,结合平台的设计要求和功能需求,完成了系统的总体架构和各功能模块的设计,实现了社会热点话题网络舆情分析平台。平台测试运行结果表明,平台能够快速及时获取网络信息并经过分析处理挖掘出其中蕴含的热点话题,其热点话题检测功能实现能够基本达到预期设计目标。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号