首页> 中国专利> 一种基于word2vec和语义相似度的专利文本建模方法

一种基于word2vec和语义相似度的专利文本建模方法

摘要

本发明涉及文本建模领域,提出一种基于word2vec和语义相似度的专利文本建模方法,包括以下步骤:爬取专利文本集并进行预处理;计算专利文本集每个词的TF‑IDF值,排序选取得到特征词集;文本集导入word2vec模型通过训练得到词向量;计算余弦相似度得到相近词集wordC_1;计算word2vec相似度得到相近词集textC_1;文本集导入文本处理系统进行训练,得到语义相似度,选取相近词集wordC_2;计算语义相似度得到相近词集textC_2;计算混合相似度得到扩展词集textC_f;计算权重形成新的文本标识,完成建模。本发明从word2vec的统计学角度和语义相似度的语义角度为传统向量空间模型增加一部分词语间的信息,在一定程度上降低其文本矩阵的稀疏性,且聚类效果更显著稳定,具有更强的文本标识能力。

著录项

  • 公开/公告号CN109376352B

    专利类型发明专利

  • 公开/公告日2022.11.29

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN201810991083.3

  • 发明设计人 路永和;刘小桦;

    申请日2018.08.28

  • 分类号G06F40/216;G06F40/30;G06F40/247;G06F40/289;G06F40/242;G06F16/332;G06Q50/18;

  • 代理机构广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 510275 广东省广州市海珠区新港西路135号

  • 入库时间 2022-12-29 02:02:05

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号