首页> 外文会议>International conference on language resources and evaluation >Development of a Web-Scale Chinese Word N-gram Corpus with Parts of Speech Information
【24h】

Development of a Web-Scale Chinese Word N-gram Corpus with Parts of Speech Information

机译:具有部分语音信息的网络级中文单词N-gram语料库的开发

获取原文

摘要

Web provides a large-scale corpus for researchers to study the language usages in real world. Developing a web-scale corpus needs not only a lot of computation resources, but also great efforts to handle the large variations in the web texts, such as character encoding in processing Chinese web texts. In this paper, we aim to develop a web-scale Chinese word N-gram corpus with parts of speech information called NTU PN-Gram corpus using the ClueWeb09 dataset. We focus on the character encoding and some Chinese-specific issues. The statistics about the dataset is reported. We will make the resulting corpus a public available resource to boost the Chinese language processing.
机译:Web为研究人员提供了大规模的语料库,以研究现实世界中的语言用法。开发Web规模的语料库不仅需要大量的计算资源,而且还需要付出巨大的努力来处理Web文本中的大量变化,例如处理中文Web文本中的字符编码。在本文中,我们的目标是使用ClueWeb09数据集开发具有语音信息部分的网络级中文单词N-gram语料库,称为NTU PN-Gram语料库。我们专注于字符编码和一些中文相关的问题。报告有关数据集的统计信息。我们将使所得的语料库成为公共可用资源,以促进中文处理。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号