首页> 中国专利> 融合关键词和语义特征的汉越文本相似度计算方法

融合关键词和语义特征的汉越文本相似度计算方法

摘要

本发明涉及融合关键词和语义特征的汉越文本相似度计算方法,属于自然语言处理技术领域。本发明包括步骤:提取汉语、越南语文章的关键词,将越南语关键词翻译为中文,计算出两篇文章中的共现关键词,得到词的相似信息;然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本,并去除无关的句子以压缩文本;再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码,以获得上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。

著录项

  • 公开/公告号CN112257453B

    专利类型发明专利

  • 公开/公告日2022-02-22

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN202011006911.7

  • 申请日2020-09-23

  • 分类号G06F40/30(20200101);G06F40/211(20200101);G06F40/289(20200101);G06F40/284(20200101);G06F40/247(20200101);G06F40/216(20200101);

  • 代理机构53204 昆明人从众知识产权代理有限公司;

  • 代理人何娇

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2022-08-23 13:08:47

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号