首页> 中文期刊> 《北京邮电大学学报》 >级联中文组块识别

级联中文组块识别

             

摘要

基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识别的F1值为95.05%;类型识别的准确率为99.43%;整体F1值为93.58%.该方法提高了系统性能,缩短了学习器的训练时间.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号