首页> 中国专利> 一种基于word2vec和语义相似度的专利文本建模方法

一种基于word2vec和语义相似度的专利文本建模方法

页面导航

摘要
著录项
相似文献

摘要

本发明涉及文本建模领域，提出一种基于word2vec和语义相似度的专利文本建模方法，包括以下步骤：爬取专利文本集并进行预处理；计算专利文本集每个词的TF‑IDF值，排序选取得到特征词集；文本集导入word2vec模型通过训练得到词向量；计算余弦相似度得到相近词集wordC_1；计算word2vec相似度得到相近词集textC_1；文本集导入文本处理系统进行训练，得到语义相似度，选取相近词集wordC_2；计算语义相似度得到相近词集textC_2；计算混合相似度得到扩展词集textC_f；计算权重形成新的文本标识，完成建模。本发明从word2vec的统计学角度和语义相似度的语义角度为传统向量空间模型增加一部分词语间的信息，在一定程度上降低其文本矩阵的稀疏性，且聚类效果更显著稳定，具有更强的文本标识能力。

著录项

公开/公告号CN109376352B

专利类型发明专利
公开/公告日2022.11.29

原文格式PDF
申请/专利权人中山大学;
展开▼

申请/专利号CN201810991083.3
发明设计人路永和;刘小桦;
展开▼

申请日2018.08.28
分类号G06F40/216;G06F40/30;G06F40/247;G06F40/289;G06F40/242;G06F16/332;G06Q50/18;
代理机构广州粤高专利商标代理有限公司;
代理人林丽明
地址 510275 广东省广州市海珠区新港西路135号
入库时间 2022-12-29 02:02:05

相似文献

专利
中文文献
外文文献

1. 一种基于word2vec和语义相似度的专利文本建模方法 [P] . 中国专利： CN109376352A . 2019-02-22
2. 一种基于单词语义相似度的短文本主题建模方法 [P] . 中国专利： CN105955948B . 2018-07-24
3. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
4. LDA Word2vec Similar patent document recommendation system and method using LDA topic modeling and Word2vec [P] . 韩国专利： KR102161666B1 . 2020-10-05

机译： LDA Word2vec使用LDA主题建模和Word2vec的类似专利文件推荐系统和方法
5. Systems and methods for modeling free-text clinical documents into a hierarchical graph-like data structure based on semantic relationships among clinical concepts present in the documents [P] . 美国专利： US11017033B2 . 2021-05-25

机译：用于将自由文本临床文本建模到基于文档中存在的临床概念之间的语义关系的分层图数据结构的系统和方法