首页> 中文学位 >基于微博信息分析对旅游景点热度预测系统的设计与实现
【6h】

基于微博信息分析对旅游景点热度预测系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 课题研究的主要内容

1.4 论文结构

第二章 相关理论与技术

2.1 云计算的相关介绍

2.2 微博关键词提取

2.3 微博用户

2.4 微博用户影响力

2.5 本章小结

第三章 旅游景点热度预测系统的需求分析与设计

3.1 需求分析

3.2 系统总体设计

3.3 数据采集模块的设计

3.4 提取关键用户模块的设计

3.5 基于改进TF-IDF算法的高频旅游类关键词提取模块的设计

3.6 关键用户行为影响力分析模块的设计

3.7 旅游信息传播趋势分析模块的设计

3.8 本章小结

第四章 旅游景点热度预测系统的实现

4.1 数据采集模块的实现

4.2 提取关键用户模块的实现

4.3 基于改进TF-IDF算法的高频旅游类关键词提取模块的实现

4.4 关键用户行为影响力模块的实现

4.5 旅游信息传播趋势分析模块的实现

4.6 本章小结

第五章 实验与分析

5.1 实验环境

5.2 数据采集及存储

5.3 实验流程与结果分析

5.4 实验结果验证

5.5 本章小结

第六章 总结与展望

6.1 本文完成的主要研究工作

6.2 不足之处及后期工作展望

致谢

参考文献

附录

展开▼

摘要

微博作为目前最流行的社会化网络媒体,其对旅游景点热度预测方面有一定的作用和意义,不仅可以帮助用户在选择游玩景点时提供决策参考的价值,还可以帮助商家给用户提供个性化的旅游景点推荐,甚至在预防突发事件的发生上也有一定的重要作用。要想实现旅游景点热度预测系统,需要解决如下一些问题:一是,微博数据库的数据量正在爆炸式的增长,其数据量之大,已经超出了传统的技术对数据的处理能力。二是,传统的关键词提取算法只考虑关键词与它出现的文本数之间的关系,但是忽略了关键词在一个类别内的分布情况,从而导致对微博中关键词提取的准确性下降问题。三是,为了得到有效关键用户需要消除僵尸粉的干扰、广告用户的影响。四是,目前的相关研究都是针对过去的内容或当前的信息记录,没有做到预测性,因此需要设计相关算法。
  面对以上的问题,本文首先通过设计算法来消除僵尸粉的干扰以及广告用户的影响来得到有效的关键用户集合;其次,对海量微博信息进行了分类,从中分离出有关旅游方面的微博,对得到的旅游相关微博信息进行中文分词,进而使用改进后的TF-IDF函数进行词语权值计算,得到在某段时间内高频的旅游类关键词;然后通过对用户之间的行为影响力的分析,结合关键用户集合和高频旅游类关键词集合来分析计算旅游信息的传播趋势,从而可以预测旅游景点的热度;最后将该系统移植到Hadoop分布式框架中。实验表明,该系统是有效可行的并且Hadoop框架能快速的处理海量数据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号