首页> 中国专利> 基于序列识别的企业或组织中文名称实体消歧方法和装置

基于序列识别的企业或组织中文名称实体消歧方法和装置

摘要

本发明提供了一种基于序列识别的企业或组织中文名称实体消歧方法和装置,其中方法包括:爬取公开的新闻数据集并进行数据清洗,得到清洗后的数据;提取清洗后的数据中的实体词,得到初步规范数据;设置语义模板规则,对初步规范数据进行筛选,得到待规范数据;确定待规范数据中的同义标准词与同义副词,明确待规范数据中的同义词对;设定数据标注策略,对待规范数据进行标注,添加人工构建数据,得到训练数据;预训练字向量与词向量,将字向量与词向量垂直方向进行合并得到新向量;利用Encoder Decoder结构构建模型对预处理后的训练数据进行训练,保存最优指标模型;利用最优指标模型对待预测样本进行预测。

著录项

  • 公开/公告号CN110020438A

    专利类型发明专利

  • 公开/公告日2019-07-16

    原文格式PDF

  • 申请/专利权人 上海冰鉴信息科技有限公司;

    申请/专利号CN201910297022.1

  • 发明设计人 顾凌云;

    申请日2019-04-15

  • 分类号G06F17/27(20060101);

  • 代理机构32231 常州佰业腾飞专利代理事务所(普通合伙);

  • 代理人刘松

  • 地址 200120 上海市上海自由贸易试验区商城路618号四层B207室

  • 入库时间 2024-02-19 11:46:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-08-09

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20190415

    实质审查的生效

  • 2019-07-16

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号