首页> 中文期刊>中文信息学报 >基于古汉语语料的新词发现方法

基于古汉语语料的新词发现方法

     

摘要

新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步.该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法.该算法分为三个步骤.第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集.第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列.第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词.实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68% 和81.13%,与现有方法相比,F1值分别提高了8.66% 和2.21%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号