首页> 外国专利> METHOD AND SYSTEM FOR DETECTING DUPLICATED DOCUMENT USING DOCUMENT SIMILARITY MEASURING MODEL BASED ON DEEP LEARNING

METHOD AND SYSTEM FOR DETECTING DUPLICATED DOCUMENT USING DOCUMENT SIMILARITY MEASURING MODEL BASED ON DEEP LEARNING

机译:基于深度学习的文档相似测量模型检测重复文档的方法和系统

摘要

Disclosed is a method and system for detecting duplicate documents using a deep learning-based document similarity measurement model. A duplicate document detection method according to an embodiment extracts a similar document pair set including a plurality of similar document pairs having the same attribute and a dissimilar document pair set including a plurality of randomly extracted dissimilar document pairs from a document database calculating a mathematical similarity using a mathematical scale for each of the plurality of similar document pairs and each of the plurality of dissimilar document pairs, increasing the mathematical similarity calculated for each of the plurality of similar document pairs, and increasing the plurality of similar document pairs calculating the semantic similarity for each of the plurality of similar document pairs and each of the plurality of dissimilar document pairs by reducing the mathematical similarity calculated for each dissimilar document pair of The method may include training a similarity model using a plurality of dissimilar document pairs and the semantic similarity, and detecting, by the at least one processor, a duplicate document using the similarity model.
机译:公开了一种用于使用基于深度学习的文档相似性测量模型来检测重复文档的方法和系统。根据实施例的重复文档检测方法提取类似的文档对集合,其包括具有相同属性的多个类似的文档对和不同的文档对集合,包括从文档数据库计算数学相似度的多个随机提取的不同文档对的多个类似文档对中的每一个的数学刻度和多个不同的文件对中的每一个,增加针对多个类似文档对中的每一个计算的数学相似度,并增加计算语义相似性的多个类似的文档对通过减少针对每个不相似的文档对计算的数学相似性的多个类似的文档对和多个不同文献对中的每一个可以包括使用多个不同的文档对和语义相似性训练相似性模型D.通过至少一个处理器静态使用相似性模型的重复文档。

著录项

  • 公开/公告号KR20210074023A

    专利类型

  • 公开/公告日2021-06-21

    原文格式PDF

  • 申请/专利权人 네이버 주식회사;

    申请/专利号KR1020190164926

  • 发明设计人 김성민;한병훈;

    申请日2019-12-11

  • 分类号G06F40/205;G06F40/279;G06K9;G06N3/08;

  • 国家 KR

  • 入库时间 2022-08-24 19:49:46

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号