首页> 中文学位 >社交网络中的创新创业热点信息分析
【6h】

社交网络中的创新创业热点信息分析

代理获取

目录

声明

摘要

第1章引言

1.1.1研究背景

1.2国内外研究现状

1.2.1主题挖掘技术的国外研究现状

1.2.2主题挖掘技术的国内研究现状

1.2.3关于创新创业的研究现状

1.2.4目前研究结果分析

1.3研究内容

1.4研究意义

1.4.1理论意义

1.4.2社会意义

1.5论文的组织结构

1.6本章小结

第2章文档模型与主题模型的分析和研究

2.1中文信息处理的基础技术

2.2文档模型和主题模型

2.2.1向量空间模型(Vector space model,VSM)

2.2.3 N元语法模型(N-gram model)

2.2.5潜在狄利克雷分布模型(Latent Dirchlet Allocation,LDA)

2.2.6神经概率模型(Neural network language model,NNLM)

2.2.7词向量模型Word2vec

2.3本章小结

第3章微博主题模型Weibo2vec

3.1模型的设计与提出

3.2符号标记与概念定义

3.3哈夫曼树与哈夫曼编码

3.4 sigmoid函数与逻辑回归

3.5 Weibo2vec模型结构

3.6 Weibo2vec模型参数训练

3.7本章小结

第4章基于Weibo2vec的微博主题模型的实现

4.1模型基本结构实现

4.1.1微博数据的结构化

4.1.2哈夫曼树的构建

4.3模型参数求解过程实现

4.4模型优化

4.4.3低频词的处理

4.5本章小结

第5章实验与分析

5.1实验数据及环境

5.2实验数据预处理

5.3测试集数据

5.4实验结果评价标准

5.5实验结果及分析

5.5.1模型参数选择和训练结果

5.5.2微博聚类结果和分析

5.6基于Weibo2vec模型的创新创业信息分析

5.7本章小结

第6章结论

6.1总结

6.2下一步工作

参考文献

致谢

个人简历

展开▼

摘要

随着互联网的飞速发展,微博作为一种社交媒体已经获得了社会各界的广泛关注。但是如何从海量、不规则的微博数据中高效地提取出有效的信息来进行话题发现,仍然是目前亟待解决的问题。因此,使用主题模型挖掘微博数据的方法得以产生。目前,学者们已经对于主题模型进行了大量的研究,但现有的方法技术仍然存在一些不足,主要体现在:一是计算的复杂度太高,对于大数据级别的微博数据计算的效率不高;二是使用一些主题模型(比如传统的LDA模型)对微博这种短文把数据进行聚类后的准确度不高等。基于此,本文提出了一种基于Weibo2vec和适合微博数据的聚类方法的新浪微博数据挖掘方法,在保证计算微博数据效率的同时,提高微博数据挖掘的准确度。  本文对Weibo2vec主题模型的微博数据挖掘方法进行了研究,研究内容主要分为微博数据的预处理、Weibo2vec建模、适合微博的聚类方法三个部分。其中,微博数据的预处理包括分词、去停用词、删除噪音数据等过程,并将预处理的结果存入PostgreSql数据库,作为下一步主题建模的输入。在Weibo2vec建模过程中,首先对数据预处理的结果进行不断地迭代,得到文档矩阵、词矩阵、用户矩阵和时间矩阵。然后选取适合微博的聚类方法对建模结果进行聚类分析,最后采用准确率、召回率和F1值对实验结果进行分析评价。使用Weibo2vec主题模型进行建模的方法避免了微博数据稀疏性的缺陷,且模型产物包括用户的向量表示和时间的向量表示。  通过实验,本文对Doc2vec主题模型和本文提出的Weibo2vec主题模型的微博热点话题发现效果进行对比分析,以两个主题模型的准确率、召回率和F1值为对比分析的依据,发现本文提出的Weibo2vec主题模型在各个评价因素中都优于Doc2vec主题模型的微博热点话题发现效果,从而证明了本文使用的主题模型对微博数据进行建模和聚类方法的有效性。

著录项

  • 作者

    孙天洋;

  • 作者单位

    对外经济贸易大学;

  • 授予单位 对外经济贸易大学;
  • 学科 产业经济学
  • 授予学位 硕士
  • 导师姓名 喇磊;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    社交网络,热点信息,主题模型,数据挖掘;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号