首页> 中文学位 >基于词向量信息的短文本主题模型研究
【6h】

基于词向量信息的短文本主题模型研究

代理获取

目录

第一个书签之前

OLE_LINK48

OLE_LINK49

OLE_LINK1

OLE_LINK25

OLE_LINK43

OLE_LINK17

OLE_LINK18

OLE_LINK44

OLE_LINK4

OLE_LINK8

OLE_LINK9

OLE_LINK10

OLE_LINK56

OLE_LINK11

OLE_LINK12

OLE_LINK52

OLE_LINK16

OLE_LINK19

OLE_LINK13

OLE_LINK14

OLE_LINK54

OLE_LINK55

参考文献范例

OLE_LINK15

OLE_LINK26

OLE_LINK34

OLE_LINK42

展开▼

摘要

基于单词共现模式,传统主题模型能够从长文本数据中提取高质量的主题信息。对于短文本数据,文档的长度较短,单词之间的共现性信息较少,导致传统主题模型并不能很好地工作,无法从短文本数据中提取高质量的主题。 从大规模文本数据中训练得到的词向量蕴含着丰富的语义信息,所以词向量可以作为一种外部信息来指导主题建模的过程,弥补短文本数据中单词共现性不足的缺陷。然而,词向量一般是从大型外部文本数据中训练得到的,其中包含的语义信息可能并不适用于主题模型的训练数据,现有的模型往往忽视了这一点。基于GPU-DMM模型的思想,本文提出了ECTM模型。该模型利用词向量得到单词之间的语义相似度信息,并使用训练数据中单词之间的PMI信息对单词间的语义相似度信息进行过滤。在模型参数求解的过程中,单词间的语义相似度信息可以进一步被采样器利用,提高主题语义一致性。但是ECTM模型中需要调整的参数较多,限制了其易用性,而且该模型假设每篇短文档包含一个主题,该假设在某些情况下是比较受限的。基于ECTM模型,本文进一步提出了IECTM模型,该模型减少了ECTM模型中需要调整的参数数目,并对ECTM模型的假设进行了松弛。在IECTM模型中,一篇短文档可以包含不止一个主题。由于短文档长度的限制,每篇短文档可能不会包含所有主题,主题的个数由文档的内容决定。为实现该效果,IECTM模型引入了spike and slab稀疏先验。 本文在真实短文本数据集上进行了一系列实验来验证本文提出的ECTM模型以及IECTM模型的有效性,实验结果表明ECTM模型以及IECTM模型能够在大多数情况下从短文本数据中提取到高质量的主题信息,具有较高的可用性。

著录项

  • 作者

    冯然;

  • 作者单位

    大连理工大学;

  • 授予单位 大连理工大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 张宪超;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 文艺工作者;
  • 关键词

    向量; 信息; 文本主题;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号