首页> 中国专利> 一种分析文本数据潜在主题短语的方法及系统

一种分析文本数据潜在主题短语的方法及系统

摘要

本发明公开了一种分析文本数据潜在主题短语的方法及系统,该方法包括:采集文本数据集,并对文本数据集进行分词,得到文本数据集的词语表现形式;根据文本数据集的词语提取词语搭配后形成的有效短语,得到未搭配成有效短语的词语与短语集的混合表现形式;对混合表现形式的文本数据集进行词向量训练后得到对应的词向量模型;构建DR‑Phrase LDA并求解各个参数;对DR‑Phrase LDA训练,并根据训练结果输出文本数据潜在的主题短语。本发明采用基于词向量的短语主题模型,该模型在概率主题模型训练中借助汉语言学规律来合理提升模型训练中短语的统计信息,具体采用词向量的方法度量短语成分词之间的关系,定量反映词在文本整体和短语局部中的语义关系,使得模型精度更高。

著录项

  • 公开/公告号CN110134951B

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 淮阴工学院;

    申请/专利号CN201910354460.7

  • 发明设计人 马甲林;张琳;程清雯;

    申请日2019-04-29

  • 分类号G06F40/289(20200101);G06F40/216(20200101);

  • 代理机构32204 南京苏高专利商标事务所(普通合伙);

  • 代理人王恒静

  • 地址 223005 江苏省淮安市洪泽区东七街三号高新技术产业园A12-2

  • 入库时间 2022-08-23 12:24:06

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号