首页> 外文期刊>ACM transactions on Asian and low-resource language information processing >Optimisation of the Largest Annotated Tibetan Corpus Combining Rule-based, Memory-based, and Deep-learning Methods
【24h】

Optimisation of the Largest Annotated Tibetan Corpus Combining Rule-based, Memory-based, and Deep-learning Methods

机译:优化规则基础,基于内存和深学习方法的最大注释的藏语语料库

获取原文
获取原文并翻译 | 示例

摘要

This article presents a pipeline that converts collections of Tibetan documents in plain text or XML into a fully segmented and POS-tagged corpus. We apply the pipeline to the large extent collection of the Buddhist Digital Resource Center. The semi-supervised methods presented here not only result in a new and improved version of the largest annotated Tibetan corpus to date, the integration of rule-based, memory-based, and neural-network methods also serves as a good example of how to overcome challenges of under-researched languages. The end-to-end accuracy of our entire automatic pipeline of 91.99% is high enough to make the resulting corpus a useful resource for both linguists and scholars of Tibetan studies.
机译:本文介绍了一个管道,将纯文本或XML中的藏文档集合转换为完全分段和POS标记的语料库。 我们将管道应用于佛教数字资源中心的很大程度上。 这里介绍的半监督方法不仅会导致最大的迄今为止最大的注释的藏语版本,基于规则的,基于内存和神经网络方法的整合也是一个很好的例子 克服了研究后的语言的挑战。 我们整个自动管道的端到端准确性为91.99%的高度足够高,以使由此产生的语料库是一种有用的资源,适用于西藏研究的语言学家和学者。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号