首页> 中国专利> 文献数据集上知识图谱实体标注错误识别方法和系统

文献数据集上知识图谱实体标注错误识别方法和系统

摘要

本发明提出了一种文献数据集上知识图谱实体标注错误识别方法,包括如下步骤:对进行了实体标注的文献数据集进行数据预处理;选择预设数量的采用SentencePiece分词器的预训练模型;基于选取的预训练模型建立相应数量的深度学习网络模型进行训练,记录并保存整个训练过程中的模型及参数作为待选取评委模型;基于模型准确率从待选取评委模型中选取2k个模型作为评委模型,并为它们设置可信参数,k为所选择的预训练模型个数;基于投票机制,使用选取的评委模型选出所述文本数据集中的争议实体;搜索文本数据集中与所述争议实体文本信息重合度超过预设重合度阈值的前n个实体,根据重合度和频率对争议实体进行打分,将得分小于判别阈值的争议实体判别为错误实体。

著录项

  • 公开/公告号CN115130465A

    专利类型发明专利

  • 公开/公告日2022-09-30

    原文格式PDF

  • 申请/专利权人 浙大城市学院;

    申请/专利号CN202210839625.1

  • 发明设计人 明朝燕;刘世壮;吴明晖;

    申请日2022-07-18

  • 分类号G06F40/279;G06F40/117;G06N3/08;

  • 代理机构杭州宇信联合知识产权代理有限公司;

  • 代理人王健

  • 地址 310015 浙江省杭州市拱墅区湖州街51号

  • 入库时间 2023-06-19 17:01:21

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-30

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号