首页> 中文学位 >藏汉双语平行语料库构建方法及关键技术研究
【6h】

藏汉双语平行语料库构建方法及关键技术研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着互联网技术在藏区的快速普及以及藏文信息技术的发展,国内外很多研究机构和院校纷纷开始了藏文信息处理技术的研究。回顾藏文信息处理的研究历史,其研究主要分为两个层面,一是字符处理层面,即藏文字符的输入、存储和输出等;另一个是语言处理层面。目前藏文信息技术的研究热点正转向以“词”、“句”、“段”、“篇”为主的语言处理层面,而藏汉双语平行语料库的构建也正属于这一层面的研究。本论文的选题正是迎合了藏文信息处理技术研究的发展趋势。藏汉双语平行语料库的构建是藏汉机器翻译和双语对比等研究领域的重要基础性工作,且双语语料库规模和质量直接影响藏汉机器翻译等藏语自然语言的处理。近年来,随着大数据技术广泛的应用,藏汉双语平行语料库在藏文信息处理领域的作用日益明显,但目前相关的研究和介绍主要侧重于双语平行语料库的应用,对大规模藏汉平行语料库构建技术关注较少。在自然语言处理领域中,英汉双语平行语料库构建技术发展非常迅速,但藏汉双语平行语料库构建研究还处于起步阶段,语料的规模和相关技术都具有较大的研究空间,所以本论文的选题具有很重要的研究和应用的意义。 本文在研究国内外双语平行语料库构建方法的基础上,结合藏文本身的特点,找出篇章、段落等不同层次对齐的藏汉双语平行语料库构建的关键问题;提出不同层次对齐的藏汉双语平行语料库构建方法;再运用提出的方法建立不同层次对齐的藏汉双语平行语料库,通过测试达到了预期的效果。本文的主要工作如下: 1.分析了英汉、汉语与其他少数民族语言间双语平行语料库构建的常用方法,结合藏文本身的特点,提出了藏汉双语平行语料库构建的层次框架,设计了藏汉双语平行语料库构建的总体方案。 2.研究了藏汉双语语料收集和预处理的几种方法,选择对本文收集双语语料最有效的方法完成了藏汉双语语料收集,并且对藏汉双语语料进行了字符编码归一化、删除网络标记等预处理。 3.提取藏汉双语文本中的文章主题、文章段落数、文章中的数字(时间和数量等)和缩略词等文本的特征。基于文本的特征研究了“基于主题的双语文本相似度计算方法”和“基于主题和特征的双语文本相似度计算方法”。把两种方法应用于汉语与藏语的篇章对齐上,编程实现该两种方法,比较实验结果发现“基于主题和特征的双语文本相似度计算方法”的综合效果最佳,故选择该方法完成了篇章对齐的藏汉双语平行语料库构建。 4.基于篇章对齐的藏汉双语平行语料库,简单用“基于回车符的双语语料分段方法”来对篇章对齐的双语语料进行分段,通过计算双语段落间相似度实现了藏汉双语平行语料库构建中的段落对齐。 5.以段落对齐的藏汉双语平行语料为基础,首先以汉文的句号、问号、感叹号,藏文的单垂符等作为句子的边界进行简单的句子划分,再研究了“基于长度的双语句子对齐方法”和“基于词汇的双语句子对齐方法”,编程实现该两种方法并对结果进行比较,选择了效果较好的“基于词汇的双语句子对齐方法”来实现了藏汉双语平行语料库构建中的句子对齐。 6.以句子对齐的藏汉双语平行语料库为基础,研究了“基于统计的双语词对齐方法”和“基于词典的双语词对齐方法”,评估选择了第二种方法来实现藏汉双语平行语料库中的词对齐,并分析了实验结果。 本文基于现有的研究基础,取得了以下成果: 1.基于网络上的藏汉真实文本,提出了建立藏汉双语语料库进行文本的收集和预处理方法; 2.研究了双语篇章、段落、句子、词等不同层次对齐的方法,比较不同的方法,结合藏汉语本身的特点,提出了构建不同层次藏汉双语语料对齐的方法,并运用于实践; 3.建立了篇章、段落、句子、词的不同层次的藏汉双语对齐语料,为以后的研究奠定了基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号