首页> 中国专利> 一种数据集自动生成的中文分词与实体识别联合学习方法

一种数据集自动生成的中文分词与实体识别联合学习方法

摘要

本发明公开了一种数据集自动生成的中文分词与实体识别联合学习方法,所述方法包括以下步骤:第一步、目标领域数据集的构建;第二步、将第一步中得到的数据集中的带有的一串汉字字符序列的句子s输入到神经网络模型的字符向量表示层,得到每个汉字字符的向量表示;第三步、将第二步中得到的汉字字符的向量表示的序列输入到带有K个相互独立的开关切换的Bi‑LSTM细胞层和一个开关切换的双向LSTM神经网络中,得到每个汉字字符的隐藏状态;第四步:将第三步中得到的每个汉字字符的隐藏状态分别输入到条件随机场层CRF,CRF对汉字字符标签进行联合解码,提升NER模型识别实体边界的能力以及准确率。

著录项

  • 公开/公告号CN111967265A

    专利类型发明专利

  • 公开/公告日2020-11-20

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN202010895913.X

  • 发明设计人 程良伦;莫非;张伟文;

    申请日2020-08-31

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F40/211(20200101);G06F16/33(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人胡素莉

  • 地址 510060 广东省广州市越秀区东风东路729号大院

  • 入库时间 2023-06-19 08:59:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-15

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号