首页> 中国专利> 面向大规模医疗文本挖掘的中文分词和命名实体识别系统

面向大规模医疗文本挖掘的中文分词和命名实体识别系统

摘要

本发明提供一种面向大规模医疗文本挖掘的中文分词和命名实体识别系统,涉及数据处理技术领域。本发明首先构建词典;基于词典对文本进行改进的双向最大词典匹配算法获得文本粗分结果中的歧义集;基于CRF模型对歧义集再次分词;基于word2vec和分词后的文本获取词向量,将词向量输入到叠层BiLSTM‑CRF模型中,通过叠层BiLSTM‑CRF模型的第一层对词向量进行实体标注,实体标注后的词向量加入词性特征构成输入特征集,通过叠层BiLSTM‑CRF模型第二层对输入特征集进行复杂命名实体识别。本发明有效解决了提出了基于词典的CRF分词,利用CRF实现自动消除歧义,改善歧义词的分词效果,提高了叠层BiLSTM‑CRF模型输入词向量的准确度,从而降低引入分词错误,实现提高命名实体识别的准确率。

著录项

  • 公开/公告号CN111950283A

    专利类型发明专利

  • 公开/公告日2020-11-17

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN202010755373.5

  • 申请日2020-07-31

  • 分类号G06F40/295(20200101);G16H50/70(20180101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11542 北京久诚知识产权代理事务所(特殊普通合伙);

  • 代理人余罡

  • 地址 230009 安徽省合肥市包河区屯溪路193号

  • 入库时间 2023-06-19 08:56:41

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号