首页> 中国专利> 一种中文领域下基于词形和语义的负样本生成方法及装置

一种中文领域下基于词形和语义的负样本生成方法及装置

摘要

本发明公开一种中文领域下基于词形和语义的负样本生成方法及装置,该方法包括:提取出中文百科知识图谱中的实体以及其周围一跳内的所有关系,将关系拼接在一起形成实体的描述信息文本;利用在中文语料上训练过的Word2Vec对实体和描述信息文本进行向量表示;将目标匹配实体和全部实体进行相似度匹配,返回符合条件的实体作为语义相似度候选实体集;将目标匹配实体再次和全部实体进行编辑距离的计算,返回符合条件的实体作为词形相似度候选实体集;根据语义相似度候选实体集和词形相似度候选实体集进行高混淆度负样本选取。本发明联合了词形相似度和语义相似度进行负样本选取,可以加速模型的收敛速度,还可以使模型训练出良好的决策边界。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-08

    公开

    发明专利申请公布

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号