首页> 中文期刊> 《四川轻化工大学学报:自然科学版 》 >基于伪标注样本融合的领域分词方法

基于伪标注样本融合的领域分词方法

             

摘要

目前常用的神经网络分词模型,均需要大量的标注语料才可得到较好的泛化效果,但在面对领域标注语料稀缺的场景时,不能很好的适应。为解决这一问题,该文提出了一种基于伪标注样本融合的领域分词方法。该方法从领域专业辞典、电商及百科网站等数据源收集相关词汇组成领域词典,并从中随机抽取词汇生成伪标注样本。将伪标注样本与通用语料融合为训练样本,即将领域词典信息融合至模型训练当中。网络模型方面,该方法选用双向门限循环神经网络(Bidirectional Gate Recurrent Unit,BiGRU)作为主网络层,联合一维卷积(One-dimensional convolutional neural network,Conv1D)获取更多局部上下文信息,最终由条件随机场(Conditional random field,CRF)解码输出。通过实验证明,该文的方法可以有效提高模型的领域分词性能,与未使用伪样本的模型相比可提升F1值约6.67%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号