首页> 中国专利> 一种考虑文本语义信息的实体识别方法及系统

一种考虑文本语义信息的实体识别方法及系统

摘要

本发明属于数据清洗、数据集成应用技术领域,公开了一种考虑文本语义信息的实体识别方法及系统,对于待识别记录集合A与B,所述实体识别方法包括:数据读取与预处理;创建关于数据集的倒排索引;加载SBERT模型;计算数据集中词语的IDF值;生成待匹配记录对;计算记录相似性;处理与返回识别结果。本发明基于倒排索引与SBERT模型,通过倒排索引与计算数据源中单词的IDF值快速生成待匹配记录对,提高了识别效率;通过SBERT模型充分提取文本记录中的语义信息,利用余弦相似度计算记录间的相似性,提高识别准确性,由此达到高效准确的实体识别效果;相较于传统实体识别方法,本方法在论文数据集上实体识别结果的查全率提升了20%左右,查准率提升10%左右。

著录项

  • 公开/公告号CN113971403A

    专利类型发明专利

  • 公开/公告日2022-01-25

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN202111116386.9

  • 发明设计人 宗威;林松涛;李兵;

    申请日2021-09-23

  • 分类号G06F40/295(20200101);G06F40/30(20200101);G06F16/31(20190101);

  • 代理机构61227 西安长和专利代理有限公司;

  • 代理人何畏

  • 地址 710071 陕西省西安市太白南路2号西安电子科技大学

  • 入库时间 2023-06-19 14:00:21

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号