首页> 中国专利> 一种新闻标题相似度识别方法

一种新闻标题相似度识别方法

摘要

本发明公开了一种新闻标题相似度识别方法,包括以下步骤:1.输入两个标题;2.对两个标题中的特殊字符进行剔除;3.对剔除后的标题内容进行相同字符统计,得出相同字数;4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似:本发明方法简单,快速,可移植强。

著录项

  • 公开/公告号CN113836886A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 北京清博智能科技有限公司;

    申请/专利号CN202110948184.4

  • 发明设计人 王欢;马云腾;夏茂晋;

    申请日2021-08-18

  • 分类号G06F40/194(20200101);G06F40/258(20200101);

  • 代理机构34161 合肥兆信知识产权代理事务所(普通合伙);

  • 代理人孟祥龙

  • 地址 100089 北京市海淀区花园路5号133幢13层1301

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及文本识别技术领域,具体为一种新闻标题相似度识别方法。

背景技术

现有相似文本识别技术在计算文本相似度时,主要采用基于词典或者特征工程的文本相似度计算技术,词典或者特征工程的准确性,在很大程度上影响算法准确性。

但是,针对词汇量少、语义信息少的短文本,如新闻标题来说,难以建立准确的词典或者特征工程,将导致现有相似文本识别技术难以捕捉短文本中的关键信息,相似度计算效果较差,相似文本识别率低。

即现有相似文本识别技术存在针对新闻标题等短文本的相似文本识别率低的技术问题。

发明内容

为实现上述目的,本发明采取的技术方案为:

一种新闻标题相似度识别方法,包括以下步骤:

1.输入两个标题;

2.对两个标题中的特殊字符进行剔除;

3.对剔除后的标题内容进行相同字符统计,得出相同字数;

4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似。

工作原理和有益效果:简单,快速,可移植强。

具体实施方式

根据下述实施例,可以更好地理解本发明。

一种新闻标题相似度识别方法,包括以下步骤:

1.输入两个标题;如:a:“我国超一半人感染幽门螺杆菌!”,b:“我国超一半人已感染幽门螺杆细菌”;

2.对两个标题中的特殊字符进行剔除;

3.对剔除后的标题内容进行相同字符统计,得出相同字数;

4.计算相同字符数与最短的标题的比值,比值大于0.5即判定为相似,否则判定为不相似。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号