首页> 中文期刊> 《计算机应用》 >面向电网设备故障报告的半监督命名实体识别方法

面向电网设备故障报告的半监督命名实体识别方法

     

摘要

针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法 Semi-supervised PGTBC。首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(BiLSTM)和条件随机场模型(CRF)建立电网领域命名实体识别模型,最后基于半监督思想,引入基于深度自注意力网络的实体类别综合描述相似度计算,结合PGTBC的置信度作为半监督阈值筛选依据,减少对电网设备故障报告实体标注的依赖。数据集使用来源于1 256篇的电网故障报告的10 301条标注样本数和30 829条无标注样本数。在有标注电网领域数据上的实验结果表明,基于PGTBC模型的预测F1为96.43%,相对于传统的BiLSTM-CRF模型提高了7.09个百分点。在无标注样本上,半监督方法 Semi-supervised PGTBC取得了93.16%的F1,相对半监督CRF模型的F1提高了23.4个百分点,并对无标注样本进行了自动标注,识别出1 661条新实体,有效减少电网设备故障报告命名实体任务对人工标注的依赖。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号