首页> 外国专利> CJK NAME DETECTION

CJK NAME DETECTION

机译:中日韩名字检测

摘要

Methods, systems, and apparatus, including computer programs encoded on computer storage media, for name detection. A method includes generating a raw name detection model using a collection of family names and an annotated corpus including a collection of n-grams. The method includes applying the raw name detection model to a collection of semi-structured data to form annotated semi-structured data identifying n-grams identifying names and n-grams not identifying names and applying the raw name detection model to a large unannotated corpus to form a large annotated corpus data identifying n-grams of the large unannotated corpus identifying names and n-grams not identifying names. The method includes generating a name detection model, including deriving a name model using the annotated semi-structured data identifying names and the large annotated corpus data identifying names, deriving a not-name model using the semi-structured data not identifying names, and deriving a language model using the large annotated corpus.
机译:用于名称检测的方法,系统和装置,包括编码在计算机存储介质上的计算机程序。一种方法包括使用姓氏集合和包括n元语法集合的带注释的语料库生成原始名称检测模型。该方法包括将原始名称检测模型应用于半结构化数据的集合,以形成带注释的半结构化数据,以识别n-gram来标识名称和n-grams不会标识名称,并将原始名称检测模型应用于大型无注释语料库。形成一个大的带注释的语料库数据,该数据标识了大的无注释的语料库标识名称的n-gram和不标识的n-gram。该方法包括生成名称检测模型,包括使用标识名称的带注释的半结构化数据和标识名称的大型注释语料库数据推导名称模型,使用不标识名称的半结构化数据推导非名称模型,以及推导使用大型带注释语料库的语言模型。

著录项

  • 公开/公告号KR101453937B1

    专利类型

  • 公开/公告日2014-10-23

    原文格式PDF

  • 申请/专利权人

    申请/专利号KR20107012445

  • 发明设计人 우 준;수 후이;장 이페이;

    申请日2007-12-06

  • 分类号G06F17/30;G06F17/26;G06F17/40;

  • 国家 KR

  • 入库时间 2022-08-21 15:39:52

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号