首页> 中文期刊> 《情报杂志》 >序列标注模型中不同输入特征组合的集成学习与直推学习方法研究——以CCKS-2018电子病历命名实体识别任务为例

序列标注模型中不同输入特征组合的集成学习与直推学习方法研究——以CCKS-2018电子病历命名实体识别任务为例

         

摘要

cqvip:[目的/意义]研究机器学习中集成学习与直推学习方法对电子病历命名实体识别任务的性能影响,为基于机器学习方法的文本信息抽取提供一种性能优化方法。[方法/过程]首先对CCKS-2018提供的电子病历文本进行分析,提取中文分词、词性标注、临床实体类别特征;然后在条件随机场CRF算法下,采用不同输入特征组合的方法构造“基学习器”进行投票集成;最后用直推学习方法对集成学习结果进行优化。[结果/结论]实验中集成学习获得总体效果F1值86.93%均优于“基学习器”结果值,直推学习获得了模型的最佳泛化性能87.06%,同时多特征组合比单独字特征可以获得更好的“基学习器”。实验证明采用不同输入特征组合的集成学习和直推学习可以有效提升模型的泛化性能,该方法可以在其他相关机器学习与文本信息抽取领域中推广。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号