【24h】

Learning string-edit distance

机译:学习字符串编辑距离

获取原文
获取原文并翻译 | 示例
       

摘要

In many applications, it is necessary to determine the similarity of two strings. A widely-used notion of string similarity is the edit distance: the minimum number of insertions, deletions, and substitutions required to transform one string into the other. In this report, we provide a stochastic model for string-edit distance. Our stochastic model allows us to learn a string-edit distance function from a corpus of examples. We illustrate the utility of our approach by applying it to the difficult problem of learning the pronunciation of words in conversational speech. In this application, we learn a string-edit distance with nearly one-fifth the error rate of the untrained Levenshtein distance. Our approach is applicable to any string classification problem that may be solved using a similarity function against a database of labeled prototypes.
机译:在许多应用中,必须确定两个字符串的相似性。字符串相似性的一个广泛使用的概念是编辑距离:将一个字符串转换为另一个字符串所需的最小插入,删除和替换次数。在此报告中,我们提供了字符串编辑距离的随机模型。我们的随机模型使我们能够从一系列示例中学习字符串编辑距离函数。通过将其应用于在会话语音中学习单词发音的难题,我们说明了该方法的实用性。在此应用程序中,我们学习的字符串编辑距离的错误率几乎是未经训练的Levenshtein距离的错误率的五分之一。我们的方法适用于任何可能通过对标签原型数据库使用相似性函数来解决的字符串分类问题。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号