首页> 中文期刊>计算机应用与软件 >濒危语言与汉语平行语料库动态构建技术研究

濒危语言与汉语平行语料库动态构建技术研究

     

摘要

利用自然语言处理的各种技术完成濒危语言的口语记音、转写、标注和翻译是保护国家濒危语言非物质文化遗产的主要途径.濒危语言是低资源语言,在机器翻译过程中,构建其语言模型面临的主要问题是语料不足.以濒危语言——吕苏语的语料作为被扩展对象,首先提取吕苏语的关键词,然后依据提取的关键词在静态网页下爬虫获取大量的中文文本,最后通过基于最小哈希的Jaccard算法来计算吕苏语语料与获取的中文文本之间的相似度,将相似度较高的中文文本作为吕苏语的汉语平行扩展语料.这一过程有效地解决了濒危语言在机器翻译过程中的语料不足问题.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号