首页> 中国专利> 基于语义相似度的新闻语句聚类方法、装置及存储介质

基于语义相似度的新闻语句聚类方法、装置及存储介质

摘要

本发明提供了一种基于语义相似度的新闻语句聚类方法,该方法包括以下步骤:对语料库的新闻语句进行预处理,提取出可用词;利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;利用每个新闻语句的初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量迭代训练所述连续词袋模型,得到该新闻语句中每个可用词的当前词向量和该新闻语句的最终句子向量;将每个新闻语句的所有可用词的词向量的平均值、高频词的one‑hot向量及最终句子向量合并,得到该新闻语句的语义向量;计算语义向量之间的距离,得到不同新闻语句间的语义相似度,依此对所述语料库的新闻语句聚类。本发明还提供一种电子装置以及一种计算机可读存储介质。

著录项

  • 公开/公告号CN107679144B

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN201710874624.X

  • 发明设计人 徐冰;汪伟;肖京;

    申请日2017-09-25

  • 分类号G06F16/35(20190101);G06F40/30(20200101);G06F40/284(20200101);G06F40/289(20200101);

  • 代理机构44347 深圳市沃德知识产权代理事务所(普通合伙);

  • 代理人高杰;于志光

  • 地址 518000 广东省深圳市福田区八卦岭工业区平安大厦六楼

  • 入库时间 2022-08-23 12:09:03

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号