首页> 中国专利> 文本间相似度计算方法、装置、存储介质及电子设备

文本间相似度计算方法、装置、存储介质及电子设备

摘要

本公开涉及一种文本间相似度计算方法、装置、存储介质及电子设备。所述方法包括:针对待计算相似度的第一文本和第二文本,进行分词及停用词过滤处理,并根据处理结果得到不含重复分词的对应于第一文本的第一分词集合和对应于第二文本的第二分词集合;根据第一分词集合和第二分词集合中每个分词在所在文本中携带的信息量,以及每个分词对应的词嵌入向量,确定第一文本与第二文本之间的语义信息转移代价;根据语义信息转移代价,确定第一文本和第二文本之间的相似度。这样,充分考虑了文本中各词本身以及各词上下文对于文本的语义影响,相似度的计算依据更加贴近文本本身的语义,使得计算出的相似度更加准确。

著录项

  • 公开/公告号CN109684629B

    专利类型发明专利

  • 公开/公告日2022.12.16

    原文格式PDF

  • 申请/专利权人 东软集团股份有限公司;

    申请/专利号CN201811420108.0

  • 发明设计人 董超;

    申请日2018.11.26

  • 分类号G06F40/194;G06F40/216;G06F40/284;G06F40/30;

  • 代理机构北京英创嘉友知识产权代理事务所(普通合伙);

  • 代理人魏嘉熹;南毅宁

  • 地址 110179 辽宁省沈阳市浑南新区新秀街2号

  • 入库时间 2022-12-29 02:05:48

获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号