首页> 中文会议>第三届学术计算语言学研讨会 >基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

摘要

词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战.其中一个主要因素就是缺少一个供我们作词频估计的"完美的"语料库.我们现有的语料库有:规模可以任意大的生语料库;由生语料库通过自动分词得到的已切分语料库;一些规模较小,由不同机构根据不同的分词标准开发的熟语料库.基于以上所有因素及已有的语料库,本文提出了一种基于折中的思想,综合利用已有信息来进行中文词频估计的方法.实验表明这一策略在多数情况下能够显著提高词频估计的准确度,但在某些情况下,这一方法的性能仍不够满意.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号