首页> 中国专利> 文本信息的挖掘方法及装置

文本信息的挖掘方法及装置

摘要

本发明公开了一种文本信息的挖掘方法及装置,挖掘方法包括:步骤S1:对获取的舆情信息进行数据提取获得多个文本,根据文本的发布时间对多个文本进行分组;步骤S2:通过jieba分词对每个分组中的文本进行分词并获得分组中每一主题词的分布统计数据;步骤S3:通过LDA算法对每个分组中的文本进行主题词提取输出文本属于主题的第一概率矩阵及每个主题中主题词分布的第二概率矩阵;步骤S4:根据第一概率矩阵及第二概率矩阵获得每个分组的文本话题特征;步骤S5:根据每个分组中文本话题特征及主题词的分布统计数据获得话题峰值。由此在保证准确率的前提下,提升了算法计算速度,满足了实时计算的需求。

著录项

  • 公开/公告号CN112069394A

    专利类型发明专利

  • 公开/公告日2020-12-11

    原文格式PDF

  • 申请/专利权人 上海风秩科技有限公司;

    申请/专利号CN202010817997.5

  • 发明设计人 吴明平;梁新敏;陈羲;

    申请日2020-08-14

  • 分类号G06F16/9535(20190101);G06F16/33(20190101);G06F40/242(20200101);

  • 代理机构37256 青岛清泰联信知识产权代理有限公司;

  • 代理人李祺

  • 地址 200333 上海市普陀区真光路1473弄3号4层、5层、6层

  • 入库时间 2023-06-19 08:04:59

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-29

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号