首页> 中国专利> 一种基于词网络和词向量的短文本主题模型生成方法

一种基于词网络和词向量的短文本主题模型生成方法

摘要

本发明提出一种基于词网络和词向量的短文本主题模型生成方法,包括如下步骤:1)学习语义信息:a、分词并去除停止词;b、根据预处理得到的短文本数据学习词向量;c、计算词语之间的语义相似度。2)对每个词语构建伪文档:a、基于语义相似度获得词语共现列表,构建词网络;b、计算词语向量的算术关系获得潜在词语列表;c、判断伪文档长度并决定是否加入相似词语。3)对每个伪文档进行LDA主题建模,得到原始文档的主题、词语频率分布。本发明通过引入语义信息构建伪文档,并对伪文档进行主题建模,从而解决了短文本数据的稀疏和不平衡问题,使在短文本上进行主题发现、文本分类和文本聚类等任务的性能得到提升。

著录项

  • 公开/公告号CN108710611B

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利权人 南京大学;

    申请/专利号CN201810473370.5

  • 发明设计人 张雷;唐驰;陆恒杨;徐鸣;王崇骏;

    申请日2018-05-17

  • 分类号G06F40/30(20200101);G06F40/289(20200101);G06F16/30(20190101);

  • 代理机构32249 南京瑞弘专利商标事务所(普通合伙);

  • 代理人陈建和

  • 地址 210093 江苏省南京市鼓楼区汉口路22号

  • 入库时间 2022-08-23 12:15:09

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号