首页> 中文学位 >基于XGBOOST和随机森林的热门微博预测研究
【6h】

基于XGBOOST和随机森林的热门微博预测研究

代理获取

目录

基于XGBOOST和随机森林的 热门微博预测研究

摘 要

ABSTRACT

1 绪论

1.1 研究背景和意义

1.2 研究现状

1.3 论文主要工作及创新

1.4 论文组织结构

2 相关理论研究

2.1 文本的主题特征提取

2.2 连续特征离散化技术

2.3 XGBOOST

2.4 随机森林

3 基于XGBOOST的特征离散化算法

3.1 算法框架设计

3.2 微博预处理及特征提取

3.3 基于XGBOOST的特征离散化

3.4 实验及分析

4 基于约束的随机森林热门微博预测算法

4.1 特征间相关性分析

4.2 基于约束的随机森林分类算法

4.3 实验及分析

4.4 基于CRF的热门微博预测算法总结

5 总结与展望

5.1 总结

5.2 展望

参考文献

附 录

发表论文和参加科研情况说明

致 谢

展开▼

摘要

随着新浪微博等社交网站的高速发展,越来越多的人在社交网站进行交友活动,微博网站上的内容也呈现出指数级的增长。近年来,众多学者和研究人员对微博的研究表现出很大的热情。大多数研究是围绕微博热点话题进行的,对于热门微博的研究较少。热门微博是指一段时间内,被转发、评论、赞的数量总和较高的微博。
  论文通过提取特征、离散化处理、分类预测等实现热门微博的预测。首先对微博的内容进行清洗和分词处理,然后根据主题模型从微博文本中提取文本的主题特征,进而得到文本的主题分布。提取微博所属用户非文本特征,然后将微博的文本主题特征和非文本特征相结合,构造出综合的特征集合。最后,论文使用基于约束的随机森林分类算法实现微博互动数的档位预测,从而完成对热门微博的预测。
  为提高模型的运行速率和预测准确率,论文提出使用XGBOOST的特征离散化算法,通过树的预测路径对特征进行离散化处理。针对传统随机森林算法中特征随机特征选择造成的不平衡进行相应的改进,提出基于约束的随机森林分类算法,该算法依据皮尔逊系数计算特征属性的相关性,并将特征集合划分到不同区间,按照一定的比例系数构成候选特征集供分裂结点使用。实验证明,基于离散化后的特征,使用论文提出的分类算法进行预测,热门微博的分类准确率有一定程度的提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号