声明
摘要
第1章引言
1.1.1研究背景
1.2国内外研究现状
1.2.1主题挖掘技术的国外研究现状
1.2.2主题挖掘技术的国内研究现状
1.2.3关于创新创业的研究现状
1.2.4目前研究结果分析
1.3研究内容
1.4研究意义
1.4.1理论意义
1.4.2社会意义
1.5论文的组织结构
1.6本章小结
第2章文档模型与主题模型的分析和研究
2.1中文信息处理的基础技术
2.2文档模型和主题模型
2.2.1向量空间模型(Vector space model,VSM)
2.2.3 N元语法模型(N-gram model)
2.2.5潜在狄利克雷分布模型(Latent Dirchlet Allocation,LDA)
2.2.6神经概率模型(Neural network language model,NNLM)
2.2.7词向量模型Word2vec
2.3本章小结
第3章微博主题模型Weibo2vec
3.1模型的设计与提出
3.2符号标记与概念定义
3.3哈夫曼树与哈夫曼编码
3.4 sigmoid函数与逻辑回归
3.5 Weibo2vec模型结构
3.6 Weibo2vec模型参数训练
3.7本章小结
第4章基于Weibo2vec的微博主题模型的实现
4.1模型基本结构实现
4.1.1微博数据的结构化
4.1.2哈夫曼树的构建
4.3模型参数求解过程实现
4.4模型优化
4.4.3低频词的处理
4.5本章小结
第5章实验与分析
5.1实验数据及环境
5.2实验数据预处理
5.3测试集数据
5.4实验结果评价标准
5.5实验结果及分析
5.5.1模型参数选择和训练结果
5.5.2微博聚类结果和分析
5.6基于Weibo2vec模型的创新创业信息分析
5.7本章小结
第6章结论
6.1总结
6.2下一步工作
参考文献
致谢
个人简历
对外经济贸易大学;