首页> 中国专利> 一种基于改进LDA模型的互联网话题在线挖掘方法

一种基于改进LDA模型的互联网话题在线挖掘方法

摘要

本发明公开了一种基于改进LDA模型的互联网话题在线挖掘方法,对应一个持续的、流式的、逐段进行的话题挖掘过程,它每次处理n个网页,这些网页通常由网络爬虫以在线、实时的方式从互联网采集得到,对这些网页的内容进行挖掘的结果生成k个话题。在处理完当前n个网页后,对新采集到的n个网页继续进行该过程。主要包括On‑LDA模型超参数的初始化、On‑LDA模型超参数的动态更新、基于On‑LDA模型的互联网话题挖掘等。本发明从根本上改变了传统LDA模型在话题挖掘过程中关于超参数的赋值方式和使用效果。它充分利用网页内容所属的分类信息来对模型超参数赋初值,使超参数的初值完全依赖于待挖掘网页内容本身,既简化了计算过程又更具合理性。

著录项

  • 公开/公告号CN105138665B

    专利类型发明专利

  • 公开/公告日2017-06-20

    原文格式PDF

  • 申请/专利权人 东南大学;

    申请/专利号CN201510557916.1

  • 发明设计人 杨鹏;卢云骋;董永强;

    申请日2015-09-02

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构32204 南京苏高专利商标事务所(普通合伙);

  • 代理人李玉平

  • 地址 210096 江苏省南京市玄武区四牌楼2号

  • 入库时间 2022-08-23 09:57:36

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-06-20

    授权

    授权

  • 2016-01-06

    实质审查的生效 IPC(主分类):G06F 17/30 申请日:20150902

    实质审查的生效

  • 2015-12-09

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号