首页> 中文会议>第四届全国少数民族青年自然语言信息处理学术研讨会 >一种通用的少数民族语言语种和编码识别方法

一种通用的少数民族语言语种和编码识别方法

摘要

语种和编码识别是自然语言处理的基础环节.我国的一些少数民族语言有多种编码方式,增大了语种和编码识别的复杂性.本文提出了一种通用的基于统计的语种和编码识别方法,首先将编码粗识别为三类字符编码系列,然后结合三种粒度语言模型同时实现少数民族语言的语种和编码识别.该方法不依赖于各种少数民族语言特有的规则,便于扩展到新的语种和编码.实验结果表明,该方法对于维语、藏语、汉语、英语、阿拉伯语混合文本的语种和编码识别的准确率达99.95%以上,能够很好地完成少数民族语种和编码识别的任务.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号