首页> 中文期刊> 《微处理机》 >基于新统计量mt的汉语自动分词方法研究

基于新统计量mt的汉语自动分词方法研究

         

摘要

汉语自动分词是进行中文信息处理的基础.传统分词需要大规模加工过的熟语料库做为测试集来训练模型以获取参数,代价高昂.在互信息和t-测试差的基础上,通过将两者进行线性和非线性组合,提出了一个新的统计量mt.该统计量所需的所有统计数据直接从待切分的生语料中获得,无须大规模加工过的熟语料和人工干预,大大降低了分词成本.测试结果显示,该统计量关于字间位置的分词正确率为80.14%,比单独使用互信息和t-测试差分别提高了6.83%和7.27%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号