首页> 中国专利> 融合关键词特征和多粒度语义特征的文本相似度计算方法

融合关键词特征和多粒度语义特征的文本相似度计算方法

摘要

本发明公开了一种融合关键词特征和多粒度语义特征的文本相似度计算方法,属于自然语言智能处理技术领域。本发明首先基于关键词特征,引入Ksimhash算法,计算当前两个文本的相似度sim1;其次,利用TFIDF算法,抽取出文本关键词,并利用Word2vec模型得到每个词对应的词向量,利用关键词以及关键词向量信息得到文本对应的词语语义向量,基于词语语义向量,计算当前两个文本的相似度sim2;然后,利用Doc2vec模型,得到每篇文本对应的篇章语义向量,基于文本语义向量,计算当前两个文本的相似度sim3;最后,对sim1、sim2、sim3相加求平均,得到最终文本的相似度结果。本发明计算得到的相似度准确度高,可用于文本检索、查重等应用领域。

著录项

  • 公开/公告号CN113011194B

    专利类型发明专利

  • 公开/公告日2022-05-03

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN202110403916.1

  • 发明设计人 刘丹;张成辉;史梦雨;

    申请日2021-04-15

  • 分类号G06F40/30;G06F40/289;G06F40/216;G06K9/62;

  • 代理机构电子科技大学专利中心;

  • 代理人周刘英

  • 地址 611731 四川省成都市高新区(西区)西源大道2006号

  • 入库时间 2022-08-23 13:34:48

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号