首页> 中文期刊> 《软件学报》 >基于双语协同训练的最大名词短语识别研究

基于双语协同训练的最大名词短语识别研究

         

摘要

针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.

著录项

  • 来源
    《软件学报》 |2015年第7期|1615-1625|共11页
  • 作者单位

    北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心;

    北京 100081;

    北京理工大学计算机学院;

    北京100081;

    山东理工大学计算机科学与技术学院;

    山东淄博255049;

    北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心;

    北京 100081;

    北京理工大学计算机学院;

    北京100081;

    北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心;

    北京 100081;

    北京理工大学计算机学院;

    北京100081;

    北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心;

    北京 100081;

    北京理工大学计算机学院;

    北京100081;

    北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心;

    北京 100081;

    北京理工大学计算机学院;

    北京100081;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 人工智能理论;
  • 关键词

    最大名词短语; 半监督学习; 标注投射; 双语协同训练; 短语识别;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号