首页> 外国专利> Word extraction method and system for use in word-breaking using statistical information

Word extraction method and system for use in word-breaking using statistical information

机译:利用统计信息进行分词的词提取方法和系统

摘要

A method, computer readable medium and system are provided which collect new words for addition to a lexicon for an agglutinative language. Sentences in the agglutinative language are retrieved from documents, for example from web pages. New word candidate character strings are identified in the retrieved sentences. The identified new word candidate character strings are filtered using a combination of a plurality of statistical criteria to generate a new words list. Words from the new words list are added to the lexicon.
机译:提供了一种方法,计算机可读介质和系统,该方法,计算机可读介质和系统收集新词以添加到用于凝集语言的词典中。可以从文档(例如,网页)中检索出具有凝集性的句子。在检索到的句子中识别新单词候选字符串。使用多个统计标准的组合来过滤所标识的新单词候选字符串,以生成新单词列表。新单词列表中的单词将添加到词典中。

著录项

  • 公开/公告号US7783476B2

    专利类型

  • 公开/公告日2010-08-24

    原文格式PDF

  • 申请/专利权人 JUNG-CHUAN YANG;

    申请/专利号US20040839144

  • 发明设计人 JUNG-CHUAN YANG;

    申请日2004-05-05

  • 分类号G06F17/21;G06F17/27;G06F17/20;

  • 国家 US

  • 入库时间 2022-08-21 18:50:08

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号