首页> 中文会议>全国第八届计算语言学联合学术会议 >基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析

基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析

摘要

词表对于中文信息处理等领域具有重要的价值和意义.作者对从2002年10种主流报纸中提取的两个词表(流通度表和使用度表)前3000词语进行了比较,如果把使用度词表作为初表,对比后发现流通度对使用度词表进行了较大幅度的调整,使用度表前3000词语中34.37%的词语到了流通度表中跌出了3000,65.63%的词语保留在了流通度表前3000,同时有1031个词语新进入了流通度表前3000.本文对新进入的词语进行分析,发现2/3的词语具有显著领域特色;标识类名词数量众多,代词和形容词数目偏少.我们还进行了语感验证,结果显示流通度对使用度词表的调整是合理的,最后的结论是:以流通度为标准提取的词表由于加入了发行量和媒体等系数,在内容和顺序上更能反映报纸的动态变化,更加科学实用.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号