首页> 中国专利> 新闻话题自动发现方法

新闻话题自动发现方法

摘要

本发明公开的一种新闻话题自动发现方法,旨在提供一种能够提高新闻话题发现的准确性的方法。本发明通过下述技术方案予以实现:首先设置增量聚类相关参数和增量聚类触发参数,对增量数据进行分批次聚类,预处理输入文本,对文章统一文本格式编码,计算文本特征,生成文本特征向量,提取文本特征词,构建文本特征向量集,在批次内先做主题聚类,再做主题内层次聚类,然后计算每一个单点主题与所有聚类的相似度即每一个单点到每一个聚类中心的距离,合并到最大的类簇,将跨批次的聚类互相凝聚起来,完成主题间层次聚类;生成新闻话题并进行新类簇融合,将新类簇质心与已有历史类簇质心进行比较,然后对新增数据聚类结果与已有聚类结果做跨批次融合。

著录项

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号