首页> 中文期刊>计算机工程与应用 >基于条件随机场的藏文人名识别研究

基于条件随机场的藏文人名识别研究

     

摘要

The best feature of segmentation of Tibetan names based on Conditional Random Field(CRF)on the character level is making use of the basic and context features of the Tibetan names. This paper defines a feature tag set to fit in with the characters of Tibetan names, uses CRF as tagging model to train and test corpus data. The experimental result shows that the method has a high recognition rate and deserves further study. The next steps are to expand the corpus and optimize the tag set for the isomorphic phenomena of Tibetan names and general words.%基于条件随机场模型在字粒度上识别并切分藏文人名,其优势是可以较好地利用藏文人名在文本中出现的基本特征和上下文特征来确定藏文人名在文本序列中的边界。根据藏文人名自身的特点设定特征标签集,利用条件随机场模型作为标注建模工具来进行训练和测试。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并针对人名与一般词语同形现象进行特征标签集的优化。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号