【目的】为了解决开源非结构化军事领域数据的命名实体识别问题。【方法】本文提出基于预训练模型(Bidirectional Encoder Representations from Transformers,BERT)的命名实体识别方法,首先基于预训练BERT模型生成自建开源军事语料的动态特征词向量的字符表示,然后基于双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)完成语义特征提取,最后利用条件随机场模型(Conditional Random Fields,CRF)选出最优标签序列完成实体识别的任务。【结果】模型在自建的开源军事数据集上的实验结果表明,相较于基于统计模型和神经网络的方法,本文提出的方法可使准确率提升8%,F值提高11%,召回率提高10%。【局限】由于现阶段在开源军事领域中公开标注数据集较为缺乏,所以未能在开源军事语料上训练BERT模型。【结论】但本文提出的基于预训练模型的开源军事命名实体识别方法,在一定程度上解决了边界划分问题,同时解决了在数据集不足的情况下实体识别任务表现不佳的问题。
展开▼