首页> 中国专利> 一种基于动态自聚合主题模型的文本聚合系统

一种基于动态自聚合主题模型的文本聚合系统

摘要

本发明涉及一种基于动态自聚合主题模型的文本聚合系统,包括文本获取模块,在设定的时间间隔的时间片上,获取待聚合短文本数据;预处理模块,对待聚合短文本数据进行数据清洗和文本分词形成文本数据集;动态自聚合主题模型,结合相邻时间片上的文本数据集,来捕获文本数据集中主题的多项分布和词的多项分布;吉布斯采样模块,用于对动态自聚合主题模型中的多项分布进行推导,统计出每个时间片上的主题分布和词分布;聚合模块,根据每个时间片上的主题分布和词分布,计算与主题相关的短文本聚合的概率。本发明自动聚合短文本为标准长文档,能克服短文本稀疏性问题,并且不需要启发式的前处理或者后处理技术,使得模型简单,处理效率较高。

著录项

  • 公开/公告号CN112507713A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利权人 北京京航计算通讯研究所;

    申请/专利号CN202011479879.4

  • 申请日2020-12-15

  • 分类号G06F40/289(20200101);G06F16/9536(20190101);

  • 代理机构11386 北京天达知识产权代理事务所(普通合伙);

  • 代理人牛洪瑜

  • 地址 100074 北京市丰台区云岗北里西区1号院

  • 入库时间 2023-06-19 10:16:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-05

    发明专利申请公布后的驳回 IPC(主分类):G06F40/289 专利申请号:2020114798794 申请公布日:20210316

    发明专利申请公布后的驳回

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号