藏语语料库预处理技术研究

摘要

语料库和词汇库作为基本的语言数据库和知识库,成为信息处理的基础.随着架构于语料库的统计机器翻译技术的迅速发展,语料库的重要性日益凸现.为提高藏语料库的使用效率,在使用语料前需要对语料进行预处理.文章在开发藏文自动抽词、藏文自动分词、藏文自动标注和藏文句对齐时,通过对藏语料库的统计分析,提出了藏语语料库建设的方案和预处理方法,从3697KB藏语语料中提取了预处理的20个藏文噪音字,并以藏文自动抽词为例,对比分析了用噪音字进行语料预处理前后的使用效率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号