首页> 外国专利> Optimization of text-based training set selection for language processing modules

Optimization of text-based training set selection for language processing modules

机译:针对语言处理模块的基于文本的培训集选择的优化

摘要

A device and a method provide for selection of a database from a corpus using an, optimization function. The method includes defining a size of a database, calculating a distance using a distance function for each pair in a set of pairs, and executing an optimization function using the distance to select each entry saved in the database until the number of saved entries equals the size of the database. Each pair in the set of pairs includes either two entries selected from a corpus or one entry selected from a set of previously selected entries and another entry selected from a set of a remaining portion of the corpus. The distance function may be a Levenshtein distance function or a generalized Levenshtein distance function.
机译:一种设备和方法,用于使用优化功能从语料库中选择数据库。该方法包括:定义数据库的大小;使用距离函数为一组对中的每个对计算距离;以及使用该距离执行优化函数以选择数据库中保存的每个条目,直到保存的条目数等于数据库的大小。这对对中的每一对都包括从语料库中选择的两个条目或从先前选择的条目中选择的一个条目,以及从语料库其余部分的集合中选择的另一个条目。距离函数可以是Levenshtein距离函数或广义Levenshtein距离函数。

著录项

  • 公开/公告号US2006074924A1

    专利类型

  • 公开/公告日2006-04-06

    原文格式PDF

  • 申请/专利权人 JIAN TILEI;JANI K. NURMINEN;

    申请/专利号US20040944517

  • 发明设计人 JANI K. NURMINEN;JIAN TILEI;

    申请日2004-09-17

  • 分类号G06F7/00;

  • 国家 US

  • 入库时间 2022-08-21 21:43:36

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号