首页> 中文学位 >基于主题建模的交通行业舆情分析系统研究
【6h】

基于主题建模的交通行业舆情分析系统研究

代理获取

目录

声明

插图索引

表格索引

缩略语对照表

第一章 绪论

1.1 课题背景与研究意义

1.2 国内外研究现状分析

1.3 论文主要工作内容介绍

1.4论文组织结构介绍

第二章 基础算法和技术介绍

2.1网络爬虫技术简介

2.2 Scrapy框架介绍

2.3 局部敏感哈希(Locality-Sensitive Hashing, LSH)降维算法

2.4 基于Simhash编码的相似性快速查找

2.5 Shingle算法

2.6 主题模型介绍

2.7主题模型的隐含语义提取与聚类

2.8 本章小结

第三章 交通行业舆情分析系统需求分析

3.1系统总体需求

3.2系统功能需求

3.3系统性能需求

3.4 本章小结

第四章 交通行业舆情分析系统设计与实现

4.1系统总体设计

4.2 数据存储系统设计

4.3 功能子系统详细设计

4.4 本章小结

第五章 交通舆情分析系统测试及分析

5.1 系统测试环境配置

5.2 系统功能测试

5.3 系统性能测试

5.4 本章小结

第六章 结束语

6.1 现有工作总结

6.2 后续工作展望

参考文献

致谢

作者介绍

展开▼

摘要

随着网络技术的飞速发展,网站、论坛、博客等媒体形式越来越丰富,特别是近年来,随着微信、微博等移动互联媒体的快速发展,用户接触网络,通过互联网表达个人观点,分享热点话题的人数也迅速增加,如何从网络信息中挖掘用户的关注点,甄选有用的信息,已经成为各个行业主管部门的迫切需求。对于交通运输行业,信息化的起步相对较晚,但是作为与百姓生活息息相关的领域,用户对交通运输领域的关注、讨论、建议等网络数据量正在呈海量增加,通过微博、微信、客户端等渠道来了解百姓对交通运输行业的诉求,收集相关的意见建议,是对改进工作流程、接受群众监督、优化服务管理的重要补充手段,因此通过信息化手段来收集和判断舆情,在交通运输行业有至关重要的意义。 本文提出了一个基于主题模型LDA的交通行业舆情监控系统,能够很好服务行业的需求,满足用户痛点。本文采用Python语言的Scrapy框架作为系统的核心爬虫的基本框架,再此基础上进行定制开发,以得到满足系统要求的抓取目的,同时,为了满足海量数据和实时性的要求,本文实现了多线程的抓取模式。为了过滤掉重复的信息,降低机器负载,同时减少舆情管理工作者的负担,本文引入了文档去重技术,采用Simhash算法对每篇抓取的文档进行哈希编码,然后采用shingles算法比对每一篇待存入数据库的舆情数据。由于网络信息数据量大,更新迅速,因此对爬虫系统进行了分布式部署,保证系统能够及时响应数据的更新和发布。本文采用Master+Client的模式实现爬虫机制控制。 本文将LDA主题模型应用到舆情系统当中,对每一篇文档进行LDA模型的生成,在这个过程中,本文将得到文档在词向量空间上的分布,以及词在文档空间上的分布,利用这两个重要的向量分布,本文能够从更进一步地发现每篇舆情数据的关键词分布和隐含主题,帮助管理者从更高的维度来进行舆情的监控和分析,而LDA产生的聚类功能,能够将包含同样含义的不同舆情数据进行归类,实现了舆情的自动分类和标签化,大大提升了舆情监控系统的效率。该系统解决了传统的基于关键词分析的舆情系统的缺少语义分析、缺少深度理解的弊端,真正提取出用户的需求,能够快速响应网络用语的更新和变化,保证了分析系统的稳定运行。 本文的基于主题模型的交通行业舆情监控系统,在实际的应用中取得了很好的效果,帮助西安市的交通行业主管部门实现了对交通舆情的实时监控和预判。

著录项

  • 作者

    王轩;

  • 作者单位

    西安电子科技大学;

  • 授予单位 西安电子科技大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 黄健斌;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    主题; 建模; 交通行业; 分析;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号