首页> 中国专利> 文章查重方法和装置、电子设备、存储介质

文章查重方法和装置、电子设备、存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本实施例提供一种文章查重方法和装置、电子设备、存储介质，属于人工智能技术领域。该方法包括：将待检测文章的特征向量输入至预先训练好的查重模型，就能得到与待检测文章相关的相关文章，以相关文章为参照，就能确定待检测文章的查重率，其中查重模型是依据多个相互独立的文章数据库的训练数据进行联合训练得到的，能够使查重模型的文章更为全面，并且扩大查重范围，不需要广大科研人员、高校学生和教师切换不同查重平台来对文章进行查重，提升查重效率，此外，通过查重模型可以快速筛选出待查询文章的相关文章，缩小后续对待检测文章的重复率检测范围，能够提高文章查重的准确性。

著录项

公开/公告号CN113836322A

专利类型发明专利
公开/公告日2021-12-24

原文格式PDF
申请/专利权人平安科技(深圳)有限公司;
展开▼

申请/专利号CN202111135491.7
发明设计人卢春曦;王健宗;
展开▼

申请日2021-09-27
分类号G06F16/383(20190101);G06F16/35(20190101);G06F40/194(20200101);G06F40/205(20200101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44205 广州嘉权专利商标事务所有限公司;
代理人廖慧贤
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文章查重方法和装置、电子设备、存储介质。

背景技术

在文章发表之前，用户一般会利用查重平台，例如知网、Paperpass、维普和万方等对文章进行重复率检测，以避免文章中有大量篇幅与其他人重复，并造成较为恶劣的影响。目前，用户往往需要在不同查重平台来对文章进行查重，得到的查重结果不尽相同，导致待检测文章的查重率难以判定。因此，亟需一种查重效果更好的文章查重方法。

发明内容

本公开实施例的主要目的在于提出一种文章查重方法和装置、电子设备、存储介质，能够提高文章查重的准确性。

为实现上述目的，本公开实施例的第一方面提出了一种文章查重方法，包括：

获取待检测文章；

提取待检测文章的特征向量；

根据待检测文章的特征向量以及查重模型，确定出与待检测文章相关的相关文章，其中，相关文章的特征向量与待检测文章的特征向量之间的相似值大于或者等于预设的相似值，查重模型是根据N种文章数据库的训练数据训练得到的，N种文章数据库为N种相互独立的数据库，N为大于1的整数；

以相关文章为参照，确定待检测文章的查重率。

在一些实施例，查重模型是根据目标训练集合训练得到的，目标训练集合包括N种数据库中的预存文章和参考文章，参考文章是根据预存文章进行模型训练时确定的与预存文章的相似度满足预设要求的文章。

在一些实施例，N种数据库中任意两个数据库中的文章的文章重复率小于预设重复率。

在一些实施例，提取待检测文章的特征向量，包括；

获取待检测文章对应的文章标签；

根据文章标签对待检测文章进行特征处理，得到待检测文章对应的特征向量。

在一些实施例，根据待检测文章的特征向量以及查重模型，确定出与待检测文章相关的相关文章，包括：

将特征向量输入至查重模型；

获取查重模型根据特征向量输出的相似向量；

根据相似向量得到与待检测文章相关的相关文章。

在一些实施例，相关文章包括M个文章，以相关文章为参照，确定待检测文章的查重率，包括：

确定待检测文章分别与M个文章的查重率，以得到M个查重率；

根据M个查重率确定待检测文章的查重率。

在一些实施例，根据M个查重率确定待检测文章的查重率，包括：

对M个查重率进行加权处理，以得到待检测文章的查重率，其中，M个查重率的权重是根据对应文章与待检测文章的领域相关程度进行确定。

在一些实施例，M个查重率的权重和对应文章与待检测文章的领域相关程度为正相关关系。

在一些实施例，以相关文章为参照，确定待检测文章的查重率，包括：

确定待检测文章分别与M个文章的查重率，以得到M个查重率；

计算M个查重率的平均查重率，将得到的平均查重率确定为待检测文章的查重率。

本公开实施例的第二方面提出了一种文章查重装置，包括：

获取模块：用于获取待检测文章；

处理模块：用于提取待检测文章的特征向量，根据待检测文章的特征向量以及查重模型，确定出与待检测文章相关的相关文章，以相关文章为参照，确定待检测文章的查重率，其中，相关文章的特征向量与待检测文章的特征向量之间的相似值大于或者等于预设的相似值，查重模型是根据N种文章数据库的训练数据训练得到的，N种文章数据库为N种相互独立的数据库，N为大于1的整数。

在一些实施例，处理模块包括：

标签获取单元：用于获取待检测文章对应的文章标签；

标签处理单元：用于根据文章标签对待检测文章进行特征处理，得到待检测文章对应的特征向量。

本公开实施例的第三方面提出了一种电子设备，电子设备包括存储器和处理器，其中，存储器中存储有程序，程序被处理器执行时处理器用于执行如本申请第一方面实施例任一项的方法。

本公开实施例的第四方面提出了一种计算机可读存储介质，其中，存储器中存储有程序，程序被处理器执行时处理器用于执行如本申请第一方面实施例任一项的方法。

本公开实施例提出的文章查重方法和装置、电子设备、存储介质，通过将待检测文章的特征向量输入至预先训练好的查重模型，就能得到与待检测文章相关的相关文章，以相关文章为参照，就能确定待检测文章的查重率，其中查重模型是依据多个相互独立的文章数据库的训练数据进行联合训练得到的，能够使查重模型的文章更为全面，并且扩大查重范围，不需要广大科研人员、高校学生和教师切换不同查重平台来对文章进行查重，提升查重效率，此外，通过查重模型可以快速筛选出待查询文章的相关文章，缩小后续对待检测文章的重复率检测范围，提高查重准确率。

附图说明

图1是本公开实施例提供的文章查重方法的流程图；

图2是本公开实施例提供的查重模型训练的流程图；

图3是图1中的步骤S200的流程图；

图4是图1中的步骤S400的流程图；

图5是本公开实施例提供的文章查重装置的模块结构框图；

图6是本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

特征向量：矩阵的特征向量是矩阵理论上的重要概念之一，它有着广泛的应用。数学上，线性变换的特征向量(本征向量)是一个非简并的向量，其方向在该变换下不变，该向量在此变换下缩放的比例称为其特征值(本征值)。

自然语言处理(natural language processing，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

差分隐私(differential privacy)：是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。差分隐私可以通过向聚合查询结果添加随机化"噪声"来实现，以保护个人的条目，而不会显著改变查询结果，并且能够保证攻击者能获取的个人数据几乎和他们从没有这个人记录的数据集中能获取的相差无几。

差分攻击(differential cryptanalysis)：是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法，也是针对对称分组加密算法提出的攻击方法。

联邦机器学习(Federated machine learning/Federated Learning)：又名联邦学习，是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，联邦机器学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。

横向联邦学习(Horizontal Federated Learning)：也称为特征对齐的联邦学习(Feature-Aligned Federated Learning)，即横向联邦学习的参与者的数据特征是对齐的，横向联邦学习适用于参与者的数据特征重叠较多，而样本ID重叠较少的情况。

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一，卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。

门控卷积神经网络(G-CNN)：是一个迭代方法，它将边框回归(bounding box)在尽可能少的步骤下朝着目标位置移动。

Sigmoid函数(Sigmoid function)：是一个在生物学中常见的S型函数，也称为S型生长曲线。在信息科学中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间。

激活函数(Activation Function)：激活函数就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端，对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用，引入激活函数是为了增加神经网络模型的非线性。

自注意力机制(Self-attention)：注意力机制中的一种特殊情况，在self-attention中，Q＝K＝V每个序列中的单元和该序列中所有单元进行attention计算，多头attention通过计算多次来捕获不同子空间上的相关信息，self-attention的特点在于无视词之间的距离直接计算依赖关系，能够学习一个句子的内部结构，实现简单，且可以并行计算。

最大池化(max-pooling)：即取局部接受域中值最大的点。

平均池化(mean-pooling)：即对局部接受域中的所有值求均值。

全连接层(Fully connected layer)：在CNN结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层，全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来，全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。

归一化指数函数(Normalized exponential function，Softmax函数)：是逻辑函数的一种推广，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在文章发表之前，用户需要利用查重平台，例如知网、Paperpass、维普和万方等对文章进行重复率检测，以避免文章中有大量篇幅与其他人重复，并造成较为恶劣的影响。目前，用户往往需要在不同查重平台来对文章进行查重，得到的查重结果不尽相同，导致待检测文章的查重率难以判定。因此，亟需一种查重效果更好的文章查重方法。

基于此，本公开实施例提供一种文章查重方法和装置、电子设备、存储介质，能够提高文章查重的准确性。

本公开实施例提供文章查重方法和装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的文章查重方法。

本公开实施例提供的文章查重方法，涉及人工智能技术领域。本公开实施例提供的文章查重方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现文章查重方法的应用等，但并不局限于以上形式。

本公开实施例可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

参照图1，根据本公开实施例的文章查重方法，包括但不限于包括步骤S100至步骤S400。

S100，获取待检测文章；

S200，提取待检测文章的特征向量；

S300，根据待检测文章的特征向量以及查重模型，确定出与待检测文章相关的相关文章；

S400，以相关文章为参照，确定待检测文章的查重率。

在步骤S100中，获取待检测文章，其中待检测文章指需要进行查重率检测的文章，包括但不限于论文、专利等学术研究资料，具体可以通过客户端来获取待检测文章，在实际应用中，用户可以通过客户端将要检测的论文上传。

在步骤S200中，具体可以通过卷积处理来获取待检测文章的特征向量，待检测文章的特征向量也由待检测文章的文本转换得到，并且为能够表示待检测文章的向量，特征向量将作为机器学习模型，例如本申请实施例提到的查重模型的输入，用于预测待检测文章可能引用到的相关文章。

在一些实施例中，如图3所示，步骤S200包括但不限于包括：

S210，获取待检测文章对应的文章标签；

S220，根据文章标签对待检测文章进行特征处理，得到待检测文章对应的特征向量。

在步骤S210中，获取待检测文章对应的文章标签，待检测文章的文章标签具体的生成过程为：根据待检测文章的标题和内容，对文章进行深度分析，输入能够反映文章中的关键信息，作为文章标签。文章标签包括但不限于被检测文章的主题、关键词、技术领域等，在实际应用中，文章标签可为待检测文章中出现频率较高的词汇，以及能准确描述被检测文章的词汇，在对被检测文章进行特征处理之前，提取对应的文章标签，能够确保文章的相关性，从而提高查重率检测的准确性。

在步骤S220中，根据文章标签对待检测文章进行特征处理，得到待检测文章对应的特征向量。其中，特征处理包括但不限于对文章标签进行数据清洗、数据预处理，例如特征选择、降维等，目的是最大限度地从原始数据中提取特征以供算法和模型使用。

在步骤S300中，将待检测文章的特征向量输入至预先训练好的查重模型中，通过查重模型的输出确定与待检测文章相关的相关文章，其中，相关文章的特征向量与待检测文章的特征向量之间的相似值大于或者等于预设的相似值，用于保证相关文章和待检测文章之间的相关程度，从而提高查重率检测的准确性。此外，查重模型是根据N种文章数据库的训练数据训练得到的，N种文章数据库为N种相互独立的数据库，N为大于1的整数，在实际应用中，独立的数据库包括但不限于来自高校的数据库，来自科研院所的数据库，和来自商业公司的数据库等，通过收录不同独立的数据库，能够使查重模型的文章更为全面，从而保证查重模型的检测效果。

在一些实施例中，步骤S300具体包括步骤：

将特征向量输入至查重模型；

通过查重模型对特征向量进行相似度检测处理，得到相似向量；

根据相似向量得到与待检测文章相关的相关文章。

在步骤“将特征向量输入至查重模型，通过查重模型对特征向量进行相似度检测处理，得到相似向量”中，将步骤S220得到的特征向量输入至查重模型中，查重模型对特征向量进行相似度检测处理，即查重模型根据预存的多个训练数据中，找到与特征向量相似的相似向量，其中特征向量与相似向量之间的相似值大于或者等于预设的相似值。

在步骤“根据相似向量得到与待检测文章相关的相关文章”中，需要说明的是，在查重模型存储多个训练数据中，存储有文章对应的文章向量，其文章向量也是对文章的文章标签进行特征处理得到的，通过文章向量能获取到对应的文章。在本申请实施例中，查重模型检测到与特征向量相似的相似向量之后，就能直接根据相似向量获取对应的相似文章。

在一些实施例中，N种数据库中任意两个数据库中的文章的文章重复率小于预设重复率，这样能够保证各数据库的文章更为全面。需要说明的是，不一定任意两个数据库之间的文章重复率都小于预设重复率，只要N种数据库的部分数据库中的文章的文章重复率小于预设重复率即可。例如，本申请实施例有三种数据库，其中，第一种数据库和第二种数据库中的文章的文章重复率小于预设重复率(假设预设重复率为5％)，而第一种数据库和第三种数据库之间的文章的文章重复率可以大于5％。

在一些实施例中，查重模型是根据目标训练集合训练得到的，目标训练集合包括N种数据库中的预存文章和参考文章，参考文章是根据预存文章进行模型训练时确定的与预存文章的相似度满足预设要求的文章，为了提高查重模型输出的准确度，本申请实施例考虑加入与预存文章相似的文章进行训练，例如，数据库有10个预存文章，在训练过程中发现了5个相似的文章，就把这5个文章加入到数据库中进行训练。需要说明的是，本申请实施例提到的参考文章与相关文章的性质类似，其中，参考文章是与预存文章相似度满足要求的文章，相关文章是与待检测文章的相似性满足要求的文章，取不同名称的目的是便于区分。

在实际应用中，本申请实施例将不同机构，即各参与方的训练数据进行联合训练，得到查重模型，但是由于各机构，例如知网、paperpass等商业公司的数据库都会进行保密，且其他科研单位、各大高校因发展和创新的需要，通常也不会公布用于存储科研数据的数据库，虽然这些不同机构的数据全部加在一起形成一个大数据库后训练的模型有更好的表现，但会受制于隐私、安全等问题，考虑到该情况，本申请实施例采用结合差分隐私的联邦学习方法，在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果。由于N种相互独立的数据库之间有一定的相似性，也就是数据特征重叠较多，例如数据库都具有文章名称和文章类型的数据特征，本申请实施例采用横向联邦学习的方式进行查重模型的训练。

在一些实施例中，如图2所示，对本申请实施例的查重模型生成的整体流程进行举例，需要理解的是，下面描述仅是示例性说明，而不是对本申请的具体限制。

由于不同机构的数据库的训练数据并非完全重合，所以需要分别对各数据库进行加密样本对齐操作，即在各机构在不公开各自数据的前提下确认多方机构的某些属性，例如共有用户，并且不暴露不互相重叠的用户，以便联合这些用户的特征进行建模，对来自高校数据库的训练数据进行加密样本对齐操作后，得到模型A，对来自科研单位数据库的训练数据进行加密样本对齐操作后，得到模型B，对来自商业机构数据库的训练数据进行加密样本对其操作后，得到模型C，其中模型A、模型B和模型C分别为各机构分别进行本地训练后得到的本地训练模型，将模型C、模型B和模型C进行加密训练，得到联合模型，即本申请实施例提到的查重模型，查重模型具体的训练过程如下，需要理解的是，下面描述仅是示例性说明，而不是对本申请的具体限制。

步骤一：根据分别对各参与方的本地模型进行训练，分别得到训练好的本地模型。具体为：例如各参与方的本地模型分别为模型A、模型B和模型C，通过SQL(结构化查询语言，Structured Query Language)判断模型A、模型B和模型C是否具有相似的数据结构，若各模型不具备相似的数据结构，则不能进一步进行训练，若各模型具备相似的数据结构，则利用自适应梯度下降的差分隐私对模型A、模型B和模型C进行本地训练，具体为：将各模型的训练数据，例如论文、专利等学术研究资料进行聚类后，得到第一轮训练的相关资料的集合，以用户经常查看的相关文献为特征，对第一轮训练集合进行第二轮聚类，得到第二轮训练集合，这样是为了增大训练样本，从而提高训练效果，在第二轮训练集合的基础上，进行多轮训练，直到满足预设的训练需求，例如训练精度达到预设的要求时，得到训练好的本地模型。需要说明的是，在对本地模型进行训练的过程中，可以采用差分隐私的方式保护数据安全，即在本地模型更新梯度下降的过程中，可以采用公式(1)给梯度添加噪音，换句话说，就是在训练的过程中加入一定的偶然性来防范差分攻击。

其中，w

需要说明的是，各参与方在模型训练中，通常是采用平均分配隐私预算的方法，但是采用这种方法有如下两方面的缺点，一方面是模型表现效果严重依赖迭代轮数，另一方面是若设置更多训练轮数，则各参与方隐私预算会变小，即意味着添加的噪音过大，影响模型表现。本申请实施例通过动态分布各参与方的隐私预算，来保持预设的总隐私预算不变，在模型迭代训练过程中，通过自适应的方法给梯度加入不同的噪音，即根据梯度大小自适应调节每一轮隐私预算，以保证模型效果。

步骤二：在得到训练好的本地模型后，分别将本地模型的模型参数更新至服务器，进行参数聚合。具体为：将各参与方的本地模型上传至服务器，将上传完成的本地模型的模型参数取平均值。为了能对各参与方的数据进行隐私保护，本申请实施例考虑对平均化的过程进行随机化处理，具体为：对各参与方的模型参数进行随机采样，即在模型参数更新时，每一轮训练有某个随机子集从某个参与方上传至服务器，服务器同时只把该更新子集的下一轮训练结果发送给该参与方，从而保证在每轮的模型参数更新后，服务器会记录更新情况。此外，本申请实施例还通过使用高斯机制来扰动参与方本地的模型梯度，以保证数据在上传过程的安全性。

步骤三：服务器将更新后的模型参数回传给各参与者，如此反复，直到收敛。具体为：各参与者使用各自的加密技术，将本地模型的模型梯度和模型参数传给服务器，服务器在不了解任何参与者的信息以及数据库数据的情况下，进行安全聚合，得到汇总结果，并将汇总结果回传给各参与方，各参与方根据汇总结果更新各自的本地模型，最终得到查重模型。在这个过程中，各参与方下都是相同且完整的查重模型，且各参与方之间不交流不依赖，在进行进行相似文章预测时，各参与方可以根据查重模型进行独立的预测。

本申请实施例通过预先训练好的查重模型，可以进行快速精准的定位，即在各参与方的数据库里筛选出与待检测文章相似的相似文章，缩小查重范围、提升查重效率并减少查重成本。

在步骤S400中，以相关文章为参照，确定待检测文章的查重率，需要说明的是，在本申请实施例中，查重率可以是指待检测的文章与相近的文章的相似度或者相似率，查重率也可以称为重复率，步骤S400具体可以是以寻找到的相关文章为基准，来确定待检测文章与相关文章的相似度进而确定待检测文章的查重率。

在实际应用中，可通过计算待检测文章与相关文章之间的语句相似度来确定待检测文章的查重率。

在一些实施例中，如图4所示，步骤S400具体包括步骤：

S410，确定待检测文章分别与M个文章的查重率，以得到M个查重率；

S420，根据M个查重率确定待检测文章的查重率。

在步骤S410和步骤S420中，计算待检测文章分别与M个文章的查重率，得到M个查重率，根据计算出的M个查重率确定待检测文章的查重率，其中，通过计算待检测文章与相关文章的重复内容在待检测文章中原文的占比，得到该文章的查重率，相关文章包括M个文章，M可以为一个或者多个，如果查重模型输出的相关文章为1篇，则可以直接根据待检测文章与该相关文章的查重率，确定待检测文章的查重率。

在一些实施例中，步骤S400具体还包括步骤：计算M个查重率的平均查重率，将得到的平均查重率确定为待检测文章的查重率，由于通过查重模型输出的相关文章可能为多篇，所以需要结合待检测文章分别与多篇相关文章的查重率，综合计算待检测文章的查重率，具体可以取待检测文章分别与多篇相关文章的查重率的平均值，得到平均查重率，将平均查重率作为待检测文章的查重率，本申请实施例通过结合多篇相关文章计算的查重率，相对于只选取某一篇相关文章计算的查重率，其查重率更为准确。在实际应用中，如果查重模型输出的相关文章为2篇，则需要根据待检测文章分别与这2篇文章的2个查重率，确定文章的查重率，在实际应用中，可以考虑取2个查重率的平均值，作为待检测文章的查重率，例如2个文章的查重率分别为20％和30％，对2个查重率取平均值，即(20％+30％)/2＝25％，因此待检测文章的查重率为25％。

在一些实施例中，步骤S420具体包括步骤：对M个查重率进行加权处理，以得到待检测文章的查重率，其中，M个查重率的权重是根据对应文章与待检测文章的领域相关程度进行确定，通过对不同的领域相关程度确定不同的权重，并且对多个查重率进行加权处理，能够进一步考虑到领域对于查重的影响，一般来说，领域越相关越能影响查重率的检测，其检测结果也更为准确。

在一些实施例中，M个查重率的权重和对应文章与待检测文章的领域相关程度为正相关关系，即待检测文章与对应文章的领域较为相关，对应的权重也较高，待检测文章与对应文章的领域相关程度较低，对应的权重也比较低，此处的领域可以是学科领域，例如，通信，计算机，机械，数学，化学等等，通信和计算机的领域更接近，相关程度较高，而通信和化学则相差较大，相关程度较低。如果待检测文章属于通信领域，且查重模型检测输出了2篇相关文章，2篇相关文章中第一个文章也属通信领域，则第一个文章对应的查重率的权重可以是1，2篇相关文章中第二个文章属于计算机领域，则第二个文章对应的查重率的权重可以是0.5，待检测文章的查重率具体计算过程为：20％*1+40％*0.5＝40％，因此待检测文章的查重率为40％。

在一些实施例中，本申请实施例还公开了待检测文章与相似文章的查重率的计算过程，具体采用一种基于局部与全局语义融合的跨语言句子语义相似度判断方式，需要理解的是，下面描述仅是示例性说明，而不是对本申请的具体限制。

步骤一：获取句子的局部信息。具体为：首先对待检测文章的每个句子进行编码，接着使用门控卷积神经网络G-CNN捕捉句子的局部语义，其中G-CNN采用两个结构一致，即卷积核数和窗口大小一致的独立卷积结构，其中一个独立卷积结构采用Sigmoid函数，另外一个独立卷积结构不加激活函数，最后进行逐位相乘，其计算结果可通过公式(2)得到：

其中，S为待计算的句子，S’为最终输出。

步骤二：抽取句子中长距离语义的相关信息。具体为：自注意力机制可以获取句子中不同单词对之间的语义相关关系，并且这种关系不受单词的语序和句子中单词所在位置的影响。并行使用多个头对句子的输入进行自注意力操作，自注意力操作方式如公式(3)-(5)：

MultiHead(S′)＝Concat(head

其中，L为句子长度，D为句子中单词的词向量维度，S′

步骤三：句子对之间的语义相似度表示。

根据步骤一和步骤二分别获取了句子的局部信息和句子中远距离单词之间语义相关信息，最后对这些信息分别执行最大池化操作和平均池化操作，然后对池化结果进行拼接，得到句子最后的语义表示，之后计算句子间的语义相似度，对最终得到的语义执行按位减操作和按位乘操作后进行拼接，从而获得两个句子的语义相似度的表示对，计算结果由公式(6)得到：

其中，source为每个句子对中的第一个句子，target表示每个句子对中的第二个句子，

最后，将句子的语义相似度表示输入两个表示输入两个全连接层，输入softmax函数得到两个句子表示的语义相似度概率分布，由此得出两篇文章之间的重复率。

在本申请实施例中，用户进行查重时，查重平台运作的过程如下：首先，用户输入一篇文章，例如论文或专利等学术内容，根据文章的文章标签，形成一个特征向量，接着将特征向量输入至训练好的查重模型中，通过查重模型进行快速预测，筛选在各个机构，例如各大高校和研究所等存储的数据库中与特征向量相似的相似向量，根据相似向量得到该文章可能引用到的相关文章，接着使用局部与全局语义融合的跨语言句子语义相似度的判断方式，检测该文章的文本重复情况，并标记重复内容，最后，输出该文章的重复内容和可能引用到的相关文章，通过计算重复内容在该文章原文的占比，得到并输出该文章的查重率。

本公开实施例还提供一种文章查重装置，可以实现上述文章查重方法，如图5所示，该装置包括：

获取模块100：用于获取待检测文章；

处理模块200：用于提取待检测文章的特征向量，根据待检测文章的特征向量以及查重模型，确定出与待检测文章相关的相关文章，以相关文章为参照，确定待检测文章的查重率，其中，相关文章的特征向量与待检测文章的特征向量之间的相似值大于或者等于预设的相似值，查重模型是根据N种文章数据库的训练数据训练得到的，N种文章数据库为N种相互独立的数据库，N为大于1的整数。

在本申请实施例中，处理模块200包括标签获取单元和标签处理单元，其中标签获取单元用于获取待检测文章对应的文章标签，标签处理单元用于根据文章标签对待检测文章进行特征处理，得到待检测文章对应的特征向量。

本公开实施例提出的文章查重装置，通过实现上述文章查重方法，能够使查重模型的文章更为全面，并且扩大查重范围，不需要广大科研人员、高校学生和教师切换不同查重平台来对文章进行查重，提升查重效率，此外，通过查重模型可以快速筛选出待查询文章的相关文章，缩小后续对待检测文章的重复率检测范围，能够提高文章查重的准确性，并且提高查重准确率。

本公开实施例还提供了一种电子设备，包括：电子设备包括存储器和处理器，其中，存储器中存储有程序，程序被处理器执行时处理器用于执行如本申请实施例的文章查重方法。

下面结合图6对电子设备的硬件结构进行详细说明，电子设备可以包括处理器501和存储器502。

处理器501，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器502，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器502可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器502中，并由处理器501来调用执行本公开实施例的文章查重方法；

该电子设备还可以包括输入/输出接口503、通信接口504和总线505。

输入/输出接口503，用于实现信息输入及输出；

通信接口504，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；和

总线505，在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息；

其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。

本公开实施例还提供一种存储介质，存储器中存储有程序，程序被处理器执行时处理器用于执行如本申请实施例的文章查重方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案，并不构成对于本公开实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本公开实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1、图3-4中示出的技术方案并不构成对本公开实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本公开实施例的优选实施例，并非因此局限本公开实施例的权利范围。本领域技术人员不脱离本公开实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本公开实施例的权利范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 文章查重方法和装置、电子设备、存储介质 [P] . 中国专利： CN113836322A . 2021-12-24
2. 一种文章的查重检测方法、装置、设备及存储介质 [P] . 中国专利： CN110472203A . 2019-11-19
3. METHOD, DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM FOR GENERATING TRIPLE SAMPLE [P] . KR20210158815A . 2021-12-31

机译：用于生成三重样品的方法，装置，电子设备和存储介质
4. METHOD AND APPARATUS FOR GENERATING TRIPLE SAMPLE, ELECTRONIC DEVICE AND COMPUTER STORAGE MEDIUM [P] . EP3929768A1 . 2021-12-29

机译：用于生成三重样品，电子设备和计算机存储介质的方法和装置
5. METHOD AND APPARATUS FOR GENERATING TRIPLE SAMPLE, ELECTRONIC DEVICE AND COMPUTER STORAGE MEDIUM [P] . US2021406467A1 . 2021-12-30

机译：用于生成三重样品，电子设备和计算机存储介质的方法和装置