首页> 中国专利> 一种逐句段对比的相似文本查找方法及装置

一种逐句段对比的相似文本查找方法及装置

摘要

本发明涉及数据处理技术领域,涉及一种逐句段对比的相似文本查找方法及装置。其中,该方法包括:对待处理文本以及多个对比文本均进行分段处理,得到对应的多个待处理段落以及每个对比文本的多个对比段落,计算得到所有段落的数字指纹,以数字指纹为基础确定出与待处理段落相同的对比段落,再对剩余的段落通过动态规划算法进行处理,最终得到待处理文本与每个对比文本的相似度,确定出相似度高的对比文本。本发明相较于现有技术中基于计算最小编辑距离和降维比对的方式进行查重,通过上述步骤能够以句段为单位结合数字指纹进行初步处理,再通过动态规划算法精确处理,既保证了查找比对的效率,同时使得得到的相似度结果更加准确。

著录项

  • 公开/公告号CN112380833B

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 深圳得理科技有限公司;

    申请/专利号CN202011309156.X

  • 发明设计人 贺倩明;雷宇;

    申请日2020-11-20

  • 分类号G06F40/194(20200101);G06F16/36(20190101);G06F16/33(20190101);

  • 代理机构44663 广州博士科创知识产权代理有限公司;

  • 代理人宋佳

  • 地址 518000 广东省深圳市福田区深南大道4011号港中旅大厦9楼

  • 入库时间 2022-08-23 11:47:18

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号