首页> 中国专利> 一种开放域文本的实体关系抽取方法及系统

一种开放域文本的实体关系抽取方法及系统

摘要

本发明提出一种开放域文本的实体关系抽取方法和系统,包括:获取已标注的文本作为训练数据,实体识别抽取训练数据中所有命名实体和名词短语,并对其进行数据增强;以增强后的数据为输入,训练神经网络模型,得到实体关系分类模型;统计增强后的数据中各命名实体和名词短语出现的词频,并将词频大于预设值的命名实体和名词短语标记为过滤词汇;获取开放域文本及其对应的头实体,抽取开放域文本中除过滤词汇以外的命名实体和名词短语并输入实体关系分类模型,得到开放域文本的实体关系。通过有效的数据增强策略,无需增加额外的成本,有效解决由于候选尾实体带来的噪音问题导致的实体关系识别在实际应用中效果不佳的问题。

著录项

  • 公开/公告号CN114021566A

    专利类型发明专利

  • 公开/公告日2022-02-08

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN202111268377.1

  • 申请日2021-10-29

  • 分类号G06F40/295(20200101);G06F16/36(20190101);G06F16/35(20190101);G06N3/08(20060101);

  • 代理机构11006 北京律诚同业知识产权代理有限公司;

  • 代理人祁建国

  • 地址 100080 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-06-19 14:08:07

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号