首页> 外国专利> Back-off language model compression

Back-off language model compression

机译:后退语言模型压缩

摘要

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, relating to language models stored for digital language processing. In one aspect, a method includes the actions of generating a language model, including: receiving a collection of n-grams from a corpus, each n-gram of the collection having a corresponding first probability of occurring in the corpus, and generating a trie representing the collection of n-grams, the trie being represented using one or more arrays of integers, and compressing an array representation of the trie using block encoding; and using the language model to identify a second probability of a particular string of words occurring.
机译:方法,系统和装置,包括编码在计算机存储介质上的计算机程序,涉及为数字语言处理而存储的语言模型。在一个方面,一种方法包括生成语言模型的动作,包括:从语料库接收n-gram的集合,该集合的每个n-gram具有在语料库中出现的相应的第一概率,并生成特里表示n元语法的集合,使用一个或多个整数数组表示特里,并使用块编码压缩特里的数组表示;使用语言模型来识别出现特定单词串的第二种可能性。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号