首页> 中国专利> 基于规则和远程监督的百度百科关系三元组抽取方法

基于规则和远程监督的百度百科关系三元组抽取方法

摘要

本发明提供一种基于规则和远程监督的百度百科关系三元组抽取方法,该方法对信息框这种信息集中的结构化文本,本发明主要采用基于规则、正则表达式的方法抽取关系三元组,这些三元组后续又可以作为远程监督算法的输入。对正文这种信息零散的非结构化文本,本发明一方面通过撰写简单的、准确的、显而易见的规则,抽取小部分关系三元组,另一方面,将前面所有基于规则得到的三元组作为远程监督算法的输入,将所有正文文本中包含头实体和尾实体的句子标记出来,按关系分类,训练分类器,再将分类器应用到正文文本的其他句子上,藉此发现更多的三元组。

著录项

  • 公开/公告号CN108763353B

    专利类型发明专利

  • 公开/公告日2022-03-15

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN201810466172.6

  • 发明设计人 王珩;毛明志;潘嵘;

    申请日2018-05-14

  • 分类号G06F16/35(20190101);G06F16/36(20190101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 510275 广东省广州市海珠区新港西路135号

  • 入库时间 2022-08-23 13:16:34

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号