首页> 中文会议>第二届全国教育教材语言专题学术研讨会 >汉语语料库大规模统计与小规模统计的对比

汉语语料库大规模统计与小规模统计的对比

摘要

本文以上海市中小学语文教材语料库为统计样本,对比统计了大规模汉语语料库与小规模汉语语料库在覆盖率及分布率两个方面的数据,统计分析表明:1.高频字比率随着文本规模的增大而下降,但高频字的绝对数在合计文本统计中基本保持不变,维持在500-600字之间。2.总字次数与平均出现次数及总字种数,呈正相关关系,不过平均出现次数及总字种数的增长幅度不如总字次数大,尤其是总字种数增长幅度要缓慢得多。3.在覆盖率方面大规模统计与小规模统计以及单个的小文本统计三者之间都存在着很大的差异。4.在字种数方面,单个的小文本统计与合计文本统计之间有较大差异,而大规模统计与小规模统计之间差不多。5.从分布率来看,上海市语文教材不同文本之间的共用字是很少的,不能笼统地说认识500多个汉字就能认识文本中80%的汉字。6.对于由多个子语料库构成的语料库而言,总字种数的大小影响到它们之间共用字种的百分比。一般说,总字种数越小,则共用字种的百分比越大。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号