首页> 外国专利> Scalable approach to information-theoretic string similarity using a guaranteed rank threshold

Scalable approach to information-theoretic string similarity using a guaranteed rank threshold

机译:使用保证等级阈值的信息理论字符串相似性的可扩展方法

摘要

A string analysis tool for calculating a similarity metric between an input string and a plurality of strings in a collection to be searched. The string analysis tool may include optimizations that may reduce the number of calculations to be carried out when calculating the similarity metric for large volumes of data. In this regard, the string analysis tool may represent strings as features. As such, analysis may be performed relative to features (e.g., of either the input string or plurality of strings to be searched) such that features from the strings may be eliminated from consideration when identifying candidate strings from the collection for which a similarity metric is to be calculated. The elimination of features may be based on a minimum similarity metric threshold, wherein features that are incapable of contributing to a similarity metric above the minimum similarity metric threshold are eliminated from consideration.
机译:字符串分析工具,用于计算输入字符串和要搜索的集合中的多个字符串之间的相似性度量。字符串分析工具可以包括优化,该优化可以减少在为大量数据计算相似性度量时要执行的计算数量。在这方面,字符串分析工具可以将字符串表示为特征。这样,可以相对于特征(例如,输入字符串或要搜索的多个字符串中的特征)执行分析,从而当从集合中识别相似度指标是候选字符串时,可以从考虑中消除来自字符串的特征。待计算。特征的消除可以基于最小相似性度量阈值,其中,不能考虑不能有助于高于最小相似性度量阈值的相似性度量的特征。

著录项

  • 公开/公告号US10482128B2

    专利类型

  • 公开/公告日2019-11-19

    原文格式PDF

  • 申请/专利权人 ORACLE INTERNATIONAL CORPORATION;

    申请/专利号US201715595393

  • 发明设计人 PHILIP OGREN;

    申请日2017-05-15

  • 分类号G06F17/30;G06F16/903;G06F16/338;G06F16/951;G06F16/22;G06F16/33;

  • 国家 US

  • 入库时间 2022-08-21 11:28:36

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号