首页> 中国专利> 一种针对论坛文本的主题挖掘方法

一种针对论坛文本的主题挖掘方法

摘要

一种针对论坛文本的主题挖掘方法,所述方法包括以下步骤:步骤1:爬取论坛的数据,利用文本处理手段找出大概率可能是无意义的回复,并做好标记;步骤2:对论坛文本按照句子切割,之后进行分词,根据词性删除无用的词,去停用词;步骤3:对现有的文本根据BBS‑LDA主题模型使用Gibbs Sampling进行参数估计,最终得到属于每个主题可能性最大的词语。本发明对论坛的这些特点,基于LDA提出一种新的主题模型BBS‑LDA,更有效地挖掘论坛文本中的主题,以提高论坛文本主题挖掘的能力。

著录项

  • 公开/公告号CN108710650A

    专利类型发明专利

  • 公开/公告日2018-10-26

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN201810418998.5

  • 发明设计人 田贤忠;姚明超;顾思义;

    申请日2018-05-04

  • 分类号

  • 代理机构杭州斯可睿专利事务所有限公司;

  • 代理人王利强

  • 地址 310014 浙江省杭州市下城区潮王路18号浙江工业大学

  • 入库时间 2023-06-19 06:58:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-20

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20180504

    实质审查的生效

  • 2018-10-26

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号