首页> 中国专利> 一种基于回译的文本三元组标注样本增强方法

一种基于回译的文本三元组标注样本增强方法

摘要

一种基于回译的文本三元组标注样本增强方法,包括以下步骤,为标注三元组添加实体类型,根据标注实体和回译中间语言对原文本进行预处理,将预处理后的三元组标注样本按字串长度限制,通过分隔符组成一个预处理批次;根据原始文本中三元组各命名实体的标识标签,将回译后多样化的命名实体及其添加的标识标签,还原成原命名实体或替换为其他同类型命名实体;同时,也将回译后句子和三元组标注的对应部分做相同操作,以得到增强样本;通过对比增强样本和原始文本中句子的相似度,按阈值过滤掉相似句子,保留句子的多样性。

著录项

  • 公开/公告号CN112380864B

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 广西大学;

    申请/专利号CN202011207598.3

  • 申请日2020-11-03

  • 分类号G06F40/295(20200101);G06F40/247(20200101);G06F40/211(20200101);G06F16/33(20190101);G06K9/62(20060101);

  • 代理机构44741 广东慧图知识产权代理事务所(普通合伙);

  • 代理人余俊磊

  • 地址 530004 广西壮族自治区南宁市西乡塘区大学东路100号

  • 入库时间 2022-08-23 11:51:10

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号