首页> 中文期刊>中文信息学报 >大规模现代汉语标注语料库的加工规范

大规模现代汉语标注语料库的加工规范

     

摘要

北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法),并标出专有名词以及短语型的地名、机构名称等等。规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号