首页> 中国专利> 文本相似度的确定方法、装置和计算机可读存储介质

文本相似度的确定方法、装置和计算机可读存储介质

摘要

本公开涉及一种文本相似度的确定方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:根据第一文本的第一词袋特征和第二文本的第二词袋特征,确定第一文本和第二文本的相似度,作为初步相似度;根据第一文本中各个词语的重要程度确定第一文本的第一语义特征,根据第二文本中各个词语的重要程度确定第二文本的第二语义特征;将初步相似度,第一语义特征和第二语义特征,以及第一文本和第二文本的对比统计特征输入预先训练的分类模型,得到第一文本和第二文本的相似度;其中,对比统计特征包括:第一文本和第二文本的距离、第一文本和第二文本的词语的比对结果,以及第一文本和第二文本的字符比对结果中至少一项。

著录项

  • 公开/公告号CN113935387A

    专利类型发明专利

  • 公开/公告日2022-01-14

    原文格式PDF

  • 申请/专利权人 中国电信股份有限公司;

    申请/专利号CN202010603116.X

  • 发明设计人 马娜;蔡志平;王学聪;程帅;

    申请日2020-06-29

  • 分类号G06K9/62(20060101);G06F40/289(20200101);G06F40/30(20200101);

  • 代理机构11038 中国贸促会专利商标事务所有限公司;

  • 代理人孙玉;方亮

  • 地址 100033 北京市西城区金融大街31号

  • 入库时间 2023-06-19 13:54:12

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号