首页> 中文学位 >Web文本中特定类别词汇自动发现技术的研究
【6h】

Web文本中特定类别词汇自动发现技术的研究

代理获取

摘要

中文信息处理,是指利用计算机对汉语信息(包括Web文本)进行处理,在当代Web文本中的信息是极其重要的资源。本文针对某一领域Web文本提出了一种基于条件随机场的特定类别词汇自动发现方法,该方法将领域内特定类别词汇的自动发现看作一个序列标注问题,特定类别词汇分布的特征量化作为训练的特征,利用词汇共现原理,以汉语连接词和互信息为工具,扩充原始特定类别词汇,再用CRF模型训练出一个领域内特定类别词汇的特征模板,然后利用该模板进行领域内特定类别词汇的自动发现。
   实验采用的语料来自于《现代军事》杂志网页版和2009年最新搜狗中文语料。实验取得了良好的结果,封闭测试短的特定类别词汇准确率为97.58%,召回率为96.35%,F-测度为97.27%。对长的特定类别词汇的随机局部统计,其正确率在63.59%左右。表明该方法简单易行,且具有领域通用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号