首页> 中国专利> 一种面向非结构化表格文档的实体与关系抽取方法

一种面向非结构化表格文档的实体与关系抽取方法

摘要

一种面向非结构化表格文档的实体与关系抽取方法,将非结构化表格文档划分为离散的单值表格和多值表格;采用表格位置特征和文本规则从单值表格中抽取出知识,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式;利用表格位置和文本规则从多值表格中抽取出知识,对字符串进行语义分割,并基于规则对其进行标注,得到实体、关系、属性和属性值,组织成三元组形式。本发明给出的实体与关系抽取方法能够将非结构化表格文档的信息处理成结构化数据,并准确的抽取出其中的实体、关系、属性及属性值,形成三元组集合,为进一步构建知识图谱的工作奠定了良好的基础。

著录项

  • 公开/公告号CN111274327B

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202010021995.5

  • 申请日2020-01-09

  • 分类号G06F16/28(20190101);G06F16/36(20190101);

  • 代理机构33241 杭州斯可睿专利事务所有限公司;

  • 代理人王利强

  • 地址 310014 浙江省杭州市下城区朝晖六区潮王路18号

  • 入库时间 2022-08-23 12:14:23

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号