首页> 中国专利> 一种大规模相似新闻标题快速归一化方法

一种大规模相似新闻标题快速归一化方法

摘要

本发明公开了一种大规模相似新闻标题快速归一化方法,所述方法包括:S1、预处理新闻标题数据;S2、将与任意给定新闻标题相关的新闻标题数据进行排序;S3、计算相关新闻标题与该新闻标题之间相似度并排序;S4、比较相关新闻标题中最大相似度值与设定相似度阈值并判断索引中是否存在相似新闻标题,若存在则将最大相似度新闻标题MD5值作为该新闻标题归一化序列码,若不存在则进入步骤S5;S5、计算该新闻标题MD5值,作为其归一化序列码与其内容存入索引中;S6、重复步骤S2和S5,完成所有新闻标题的归一化映射。本发明可以快速找出相关的新闻标题并做出相似性判定,然后将相似新闻标题映射成唯一的归一化序列码,实现了大规模相似新闻标题的快速归一化。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-10-15

    实质审查的生效 IPC(主分类):G06F16/9032 申请日:20190618

    实质审查的生效

  • 2019-09-17

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号