首页> 中国专利> 一种基于余弦相似度算法的查重方法

一种基于余弦相似度算法的查重方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供一种基于余弦相似度算法的查重方法，包括下列步骤：对待查重文本以及对比文本分别进行分词处理，形成第一词集；对第一词集进行向量化处理，形成特征向量集；根据特征向量集，对第一词集进行第一编码处理，形成包含若干编码子集的第二词集组，对第二词集组分别进行第二编码处理，形成包含若干词频向量集的第三词集组；基于余弦相似度算法，计算两两词频向量集的余弦相似度，若余弦相似度大于阈值，则将对比文本作为查重结果。

著录项

公开/公告号CN112364647A

专利类型发明专利
公开/公告日2021-02-12

原文格式PDF
申请/专利权人南方电网海南数字电网研究院有限公司;
展开▼

申请/专利号CN202011326607.0
发明设计人陈文博;胡微;王鹏;王保强;陈余;
展开▼

申请日2020-11-24
分类号G06F40/289(20200101);G06F40/216(20200101);
代理机构44202 广州三环专利商标代理有限公司;
代理人陈欢
地址 570100 海南省海口市美兰区海府路32号
入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及数据查重技术领域，尤其涉及一种基于余弦相似度算法的查重方法。

背景技术

随着计算机文本信息挖掘等各种自然语言处理应用的普及，当今社会对基于文本相似度的文档检索系统需求日益增加，同时人们对计算机文本处理也提出了更高的要求。在自然语言处理过程中，经常会涉及到如何度量两个文本之间的相似性，我们都知道文本是一种高维的语义空间，如何对其进行抽象分解，从而能够站在数学角度去量化其相似性，是此方法的重点。在相似度检索领域，现有的相似度检索方法，要么在检索效率上存在不足，要么在准确度方面不能令人满意。

发明内容

本发明的目的在于提供一种基于余弦相似度算法的查重方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的：一种基于余弦相似度算法的查重方法，包括下列步骤：

对待查重文本以及对比文本分别进行分词处理，形成第一词集；

对第一词集进行向量化处理，形成特征向量集；

根据特征向量集，对第一词集进行第一编码处理，形成包含若干编码子集的第二词集组，对第二词集组分别进行第二编码处理，形成包含若干词频向量集的第三词集组；

基于余弦相似度算法，计算两两词频向量集的余弦相似度；

重复上述步骤，计算待查重文本以及其他待对比文本的余弦相似度，选取余弦相似度最大的待对比文本作为查重结果。

优选的，对待查重文本以及对比文本分别进行分词处理，形成第一词集，包括：

对待查重文本分词处理，形成包含多个单词的第一分词集，对对比文本进行分词处理，形成包含多个单词的第二分词集；

将第一分词集、第二分词集中的单词进行逐一对比，若存在相同单词，则选取一个相同单词放入第一词集中；

若存在不同单词，则将不同单词均放入第一词集中。

优选的，所述分词处理包括结巴分词法中的一种或多种。

优选的，对第一词集进行向量化处理，形成特征向量集，包括：

对第一词集中的单词的出现顺序进行数字标号，形成包含单词以及数字的特征向量集。

优选的，所述第一编码处理包括：

根据特征向量集，将第一分词集转换为包含数字的第一编码子集，将第二分词集转换为包含数字的第二编码子集，所述第一编码子集、第二编码子集组成第二词集组。

优选的，第二编码处理，包括：

对第一编码子集进行oneHot编码处理，获得第一词频向量集；

对第二编码子集进行oneHot编码处理，获得第二词频向量集；

所述第一词频向量集、第二词频向量集组成第三词集组。

与现有技术相比，本发明达到的有益效果如下：

本发明提供的一种基于余弦相似度算法的查重方法，可提高系统查重效率及准确率，减少人力资源浪费。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于余弦相似度算法的查重方法的流程图。

具体实施方式

为了更好理解本发明技术内容，下面提供具体实施例，并结合附图对本发明做进一步的说明。

参见图1，一种基于余弦相似度算法的查重方法，包括下列步骤：

步骤101：对待查重文本以及对比文本分别进行分词处理，形成第一词集；

具体的，对待查重文本分词处理，形成包含多个单词的第一分词集，对对比文本进行分词处理，形成包含多个单词的第二分词集；

将第一分词集、第二分词集中的单词进行逐一对比，若存在相同单词，则选取一个相同单词放入第一词集中；

若存在不同单词，则将不同单词均放入第一词集中。

在本实施例的一种实施方式中，所述分词处理包括结巴分词法中的一种或多种。

步骤102：对第一词集进行向量化处理，形成特征向量集；

具体的，对第一词集中的单词的出现顺序进行数字标号，形成包含单词以及数字的特征向量集。

步骤103：根据特征向量集，对第一词集进行第一编码处理，形成包含若干编码子集的第二词集组，对第二词集组分别进行第二编码处理，形成包含若干词频向量集的第三词集组；

具体的，第一编码处理包括：根据特征向量集，将第一分词集转换为包含数字的第一编码子集，将第二分词集转换为包含数字的第二编码子集，所述第一编码子集、第二编码子集组成第二词集组。

第二编码处理，包括：

对第一编码子集进行oneHot编码处理，获得第一词频向量集；

对第二编码子集进行oneHot编码处理，获得第二词频向量集；

所述第一词频向量集、第二词频向量集组成第三词集组。

步骤104：基于余弦相似度算法，计算两两词频向量集的余弦相似度；

步骤105：重复步骤101-104，计算待查重文本以及其他待对比文本的余弦相似度，选取余弦相似度最大的待对比文本作为查重结果。

若余弦相似度大于阈值，则将对比文本作为查重结果。

下面以句子A以及句子B为例进行说明。

句子A为待查重文本：这只皮靴号码大了。那只号码合适。

句子B为对比文本：这只皮靴号码不小，那只更合适。

对句子A以结巴分词的方式进行分词处理，得到第一分词集：

第一分词集＝[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘大‘,‘了‘,‘那‘,‘只‘,‘号码‘,‘合适‘]；

对句子B以结巴分词的方式进行分词处理，得到第二分词集：

第二分词集＝[‘这‘,‘只‘,‘皮靴‘,‘号码‘,‘不小‘,‘那‘,‘只‘,‘更合‘,‘合适‘]。

对比第一分词集、第二分词集，将第一分词集、第二分词集中的单词进行逐一对比，若存在相同单词，则选取一个相同单词放入第一词集中，最终获得如下第一词集：

第一词集＝{'不小','了','合适','那','只','皮靴','更合','号码','这','大'}。

按照第一词集中各个单词出现的顺序进行标号，用以实现第一词集的向量化处理，最终结果如下：

特征向量集＝{'不小':0,'了':1,'合适':2,'那':3,'只':4,'皮靴':5,'更合':6,'号码':7,'这':8,'大':9}

根据特征向量集对第一分词集、第二分词集进行第一编码处理，获得如下结果：

第一编码子集＝[8,4,5,7,9,1,3,4,7,2]；

第二编码子集＝[8,4,5,7,0,3,4,6,2]；

对第一编码子集、第二编码子集进行oneHot编码处理，就是计算每个分词出现的次数，其结果如下：

第一词频向量集＝[0,1,1,1,2,1,0,2,1,1]；

第二词频向量集[1,0,1,1,2,1,1,1,1,0]；

得出两个句子的词频向量之后，就变成了计算第一词频向量集、第二词频向量集之间夹角的余弦值，值越大相似度越高，其具体的计算公式如下：

同理，重新计算句子A与句子C之间的余弦相似度，计算句子A与句子D之间的余弦相似度，对三个余弦相似度进行比较，选取余弦相似度最大的待对比文本作为查重结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于余弦相似度算法的查重方法 [P] . 中国专利： CN112364647A . 2021-02-12
2. 一种基于应用文写作的查重系统及其查重方法 [P] . 中国专利： CN113032546A . 2021-06-25
3. a composition comprising, based on the dry weight of said composition, 10 to 70 by weight of one or more hydraulic binder and 20 to 85 by weight of one or more filler, hardened product, use of a composition and use of 0 .05 to 5 by weight, based on the amount of hydraulic binder, of at least one terpenoid alcohol by weight of one or more fillers [P] . BR112015002504A2 . 2017-07-04

机译：组合物，基于所述组合物的干重，其包含10至70重量％的一种或多种水硬性粘合剂和20至85重量％的一种或多种填料，硬化产品，组合物的用途和0的用途。基于水硬性粘结剂的量，以重量计，一种或多种填料中的至少一种萜类醇为05至5％（重量）
4. Device for displaying the cosªî, in particular using the known telecommunication networks are also a method, with the aid of a measuring instrument, on which the difference between two torques acts [P] . 德国专利： DE555178C . 1932-08-15

机译：用于显示余弦的装置，尤其是使用已知的电信网络显示余弦的装置，也是一种借助于测量仪器的方法，两个扭矩之间的差作用在该方法上
5. A method for performing approximation and quantization of discrete cosine transform and approximation of inverse quantization and inverse discrete cosine transform. [P] . 日本专利： JP4444940B2 . 2010-03-31

机译：一种执行离散余弦变换的近似和量化以及逆量化和离散余弦逆变换的近似的方法。