首页> 中国专利> 一种文章去重方法、装置、设备及存储介质

一种文章去重方法、装置、设备及存储介质

摘要

本申请公开了一种文章去重方法、装置、设备及存储介质,包括:获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识文章;根据所确定出的每篇文章对应的文章属性对目标文章进行去重。由于文章属性与文章之间通常是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。

著录项

  • 公开/公告号CN112528114A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 北京国双科技有限公司;

    申请/专利号CN201910877090.5

  • 发明设计人 任志伟;

    申请日2019-09-17

  • 分类号G06F16/951(20190101);G06F16/9535(20190101);G06F16/955(20190101);G06F16/33(20190101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人刘晓菲

  • 地址 100086 北京市海淀区北四环中路229号海泰大厦4层南401号

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本申请涉及数据处理技术领域,特别是涉及一种文章去重方法、装置、设备及存储介质。

背景技术

在对文章数据进行数据处理的过程中,数据的清洗去噪是相对来说较为重要的步骤。文章数据去噪效果的好坏,决定着最终所使用的文章数据的数据质量的高低,进而影响着后续对文章数据进行分析处理时所得到的分析结果的准确性。其中,去重,是指去除文章数据中内容重复的文章,也是对文章数据进行去噪处理过程中的一个重要方面。

现有的文章数据去重方式中,通常是基于文章对应的URL(Uniform ResourceLocator,统一资源定位符)来实现对文章数据的去重,但是,这种去重方式的效果较差,进行去重处理后所得到的文章数据中仍然存在较多内容重复的文章数据。

发明内容

本申请实施例提供了一种文章去重方法、装置、设备及存储介质,以去除重复的文章数据,降低文章数据中的重复率,从而提高文章数据的唯一性。

第一方面,本申请实施例提供了一种文章去重方法,所述方法包括:

获取目标文章,所述目标文章为待去重的文章;

确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;

根据所述文章属性,对所述目标文章进行去重。

在一些可能的实施方式中,文章属性具体可以是文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。

在一些可能的实施方式中,所述根据所述文章属性,对所述目标文章进行去重,包括:

对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;

将哈希值相同的特征参数所对应的文章进行去重。

在一些可能的实施方式中,所述特征参数包括发文作者、发文时间以及标题中至少两种参数,所述对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值,包括:

将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;

对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。

在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述根据所述文章属性,对所述目标文章进行去重,包括:

根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;

根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。

在一些可能的实施方式中,所述根据所述文章属性,对所述目标文章进行去重,包括:

分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;

将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。

在一些可能的实施方式中,所述获取目标文章,包括:

获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;

利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。

第二方面,本申请实施例还提供了一种文章去重装置,所述装置包括:

获取模块,用于获取目标文章,所述目标文章为待去重的文章;

确定模块,用于确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;

去重模块,用于根据所述文章属性,对所述目标文章进行去重。

在一些可能的实施方式中,所述文章属性具体为所述文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。

在一些可能的实施方式中,所述去重模块,包括:

哈希运算单元,用于对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;

第一去重单元,用于将哈希值相同的特征参数所对应的文章进行去重。

在一些可能的实施方式中,所述特征参数发文作者、发文时间以及标题中的至少两种参数,所述哈希运算单元,包括:

拼接子单元,用于将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;

哈希运算子单元,用于对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。

在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述去重模块,包括:

初步去重单元,用于根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;

二次去重单元,用于根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。

在一些可能的实施方式中,所述去重模块,包括:

比较单元,用于分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;

第二去重单元,用于将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。

在一些可能的实施方式中,所述获取模块,包括:

获取单元,用于获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;

初始去重单元,用于利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。

第三方面,本申请实施例还提供了一种存储介质,其上存储有程序,所述程序被处理器执行时实现上述第一方面中任一种实施方式所述的文章去重方法。

第四方面,本申请实施例还提供了一种设备,所述设备包括至少一个处理器,以及与所述处理器连接的至少一个存储器;

所述存储器用于调用所述存储器中的程序指令,以执行上述第一方面中任一种实施方式所述的文章去重方法。

在本申请实施例的上述实现方式中,通过唯一标识文章的文章属性来实现对文章的去重,以降低文章数据中的重复率,从而提高文章数据的唯一性。具体实现时,可以获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识该文章;然后,根据所确定出的每篇文章对应的文章对目标文章进行去重。可以理解,由于文章属性与文章之间是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请实施例中一示例性应用场景示意图;

图2为本申请实施例中一种文章去重方法的流程示意图;

图3为本申请实施例中一种文章去重装置的结构示意图;

图4为本申请实施例中一种设备的硬件结构示意图。

具体实施方式

现有的文章数据去重的技术方案中,大多是采用文章数据的URL(具体为URL的字符串)来对文章数据进行去重,但是,这种去重方式所得到的文章数据中文章的重复率较高,即,去重后的文章数据中仍然存在较多内容一致的文章,去重效果较差。

发明人经研究发现,URL与文章内容之间并非是一一对应的。具体的,对于同一篇文章,其可能会存在于网络上的多个位置,比如,一篇文章可能会在多个网络平台上发表等,这使得一篇文章实际上可能对应于多个不同的URL。则,基于URL对文章数据进行去重时,虽然URL不同,但是其所对应的文章内容仍然相同,从而导致去重效果较差的问题。

基于此,本申请书实施例提供了一种文章去重方法,基于能够唯一标识文章的文章属性来实现对文章的去重,以降低文章数据中的重复率,从而提高文章数据的唯一性。具体实现时,可以获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识该文章;然后,根据所确定出的每篇文章对应的文章属性对目标文章进行去重。可以理解,由于文章属性与文章之间具有一一对应的关系,即文章属性可以对文章进行唯一标识,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。

作为一种示例,本申请实施例可以应用于如图1所示的示例性应用场景。在该场景中,用户101可以在终端102上执行针对于文章数据爬取的触发操作;终端102响应该触发操作,向服务器103发送数据爬取请求;服务器103基于该数据爬取请求,从网络104中爬取文章数据;由于服务器103所爬取到的文章数据中存在较多内容重复的文章,因此,服务器103可以对爬取到的文章数据进行去重处理。具体实现时,服务器103可以确定所爬取到的文章(可以为上述目标文章)中每篇文章所对应的特征参数(该特征参数可以作为上述文章属性),该特征参数包括文章的发文作者、发文时间以及标题中的至少两种参数,和/或,该特征参数包括文章的摘要、正文内容中的至少一种参数;然后,服务器103可以根据所确定出的每篇文章对应的特征参数,对爬取到的文章数据进行去重处理,得到去重后的文章数据;最后,服务器103可以将去重后的文章数据发送给终端102,由终端102将其呈现给用户101。

可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。比如,在其它可能的实施方式中,服务器103所获取的文章数据也可以是第三方平台所提供的数据等;又比如,上述数据爬取以及文章数据去重处理的过程,也可以是由终端102执行等。总之,本申请实施例可以应用于任何可适用的应用场景中,而不限于上述场景示例。

为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合附图对本申请实施例中的各种非限定性实施方式进行示例性说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

参阅图2,图2示出了本申请实施例中一种文章去重方法的流程示意图,该方法可以应用于图1所示的终端102或者服务器103等,该方法具体可以包括:

S201:获取目标文章,该目标文章为待去重的文章。

本实施例中,当终端或者服务器需要执行针对于文章数据的去重处理时,可以先获取所需待去重的文章,也即为步骤S201中所述的目标文章。

本实施例中,获取目标文章的实施方式存在多种。在一种示例性的实施方式中,可以是由终端或者服务器基于爬虫程序从互联网中爬取所需的文章,也可以从爬虫已爬取的文章集合中选取目标文章。其中,所爬取的文章可以是具有特定类型的文章,比如,可以是微博文章,或者是学术论文等;当然,所爬取的文章也可以是互联网的特定网站中的文章等。

在又一种示例性的实施方式中,也可以是由第三方的数据平台向终端或者服务器提供目标文章,以将该目标文章交由该终端或者服务器进行文章去重。当然,在其它可能的实施方式中,终端或者服务器也可以是对用户所指定的文章数据进行去重,即,终端或者服务器所获取的目标文章,也可以是由用户提供。

实际应用中,本实施例的文章去重方法,可以是在利用URL对文章进行去重的基础上所进行的进一步去重。具体的,在实施本实施例的技术方案之前,还可以先获取初始待去重文章以及该初始待去重文章中每篇文章对应的URL;然后,利用该URL对初始待去重文章进行去重,得到步骤S201中所述的目标文章。从而,在已经利用URL对文章进行去重的基础上,可以实施本实施例的技术方案对该已经完成初步去重的文章进行进一步的去重处理。

S202:确定目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识文章。

由于文章的URL与文章内容之间并非是一一对应的关系,因此,基于文章的URL对目标文章可能会使得去重后的文章中仍然存在较多内容重复的文章,从而使得文章的去重效果较差。

基于此,本实施例中,是利用文章属性对文章进行去重,由于文章属性可以对文章进行唯一标识,即文章属性与文章内容之间具有一一对应的关系,因此,利用该文章属性对目标文章进行去重后,剩余的文章之间重复率较低,甚至是不存在重复文章。

作为一种示例性的具体实施方式,本实施例中的文章属性具体可以是文章的特征参数。其中,文章的特征参数具体可以是文章的发文作者、发文时间以及标题中的至少两种参数。可以理解,通常情况下,同一发文作者在发表不同文章时,其发文时间或者发文标题通常并不相同,而对于不同发文作者,其在发表文章时,通常发文时间以及发表文章的标题基本不会同时相同。因此,对于实际应用中任意两篇文章,若这两篇文章的发文作者、发文时间以及文章标题中的至少两种参数均不相同,则可以认为这两篇文章的内容通常也不相同;反之,若这两篇文章的发文作者、发文时间以及文章标题中的至少两种参数均相同,则可以认为这两篇文章的内容相同,实际上应该为同一篇文章。为此,本实施例中,可以利用文章的发文作者、发文时间以及标题中的至少两种参数来对目标文章进行去重处理。

在其它可能的实施方式中,作为文章属性的特征参数,也可以是文章的摘要以及文章的正文内容。可以理解,实际应用中,若两篇文章的内容不同,则这两篇文章的摘要以及正文内容通常也不会相同,而当两篇文章的摘要或者正文内容相同,则这两篇文章很有可能具有相同的文章内容,也即这两篇文章实际上为同一篇文章。因此,本实施例中,也可以利用文章的摘要以及正文内容中的至少一种参数,来对该目标文章进行去重处理。

当然,结合上述两种示例性实施方式中,在又一种可能的实施方式中,所确定出的文章的特征参数,也可以在包括文章的发文作者、发文时间以及标题中的至少两种参数的同时,也可以包括文章的摘要以及正文内容中的至少一种参数。

实际应用中,终端或者服务器所获取的目标文章,可以携带有每篇文章所对应的发文作者、发文时间以及标题等特征参数,因此,终端或者服务器在确定目标文章中每篇文章的特征参数时,可以从目标文章提取得到。

S203:根据所确定出的文章属性,对目标文章进行去重。

本实施例中,由于所确定出的文章属性与目标文章中的每篇文章之间具有一一对应关系,因此,根据所确定出的文章属性,对目标文章进行去重后,可以降低去重后所得到的文章的重复率。对于文章内容相同但是URL不同的文章,也可以是基于所确定出的文章属性实现去重,从而可以有效降低去重后的文章的重复率,提高文章的去重效果。

作为一种去重的示例性实施方式,文章属性具体为文章的特征参数,则在对目标文章进行去重时,具体可以是利用特征参数的哈希值来将具有相同内容的文章进行去重。具体的,在确定出特征参数后,可以对该特征参数进行哈希运算,得到该特征参数的哈希值,然后,可以将哈希值相同的特征参数所对应的文章进行去重。可以理解,若特征参数相同,则,对该相同的特征参数进行哈希运算后,所得到的特征参数的哈希值也相同,而哈希值相同的特征参数所对应的文章通常是内容相同的文章,则可以进行去重处理;反之,若特征参数不同,则对不同特征参数进行哈希运算后,所得到的特征参数的哈希值通常也不相同,而对于哈希值不同的特征参数所对应的文章通常是内容不相同的文章,则可以不对其进行去重处理。因此,将特征参数的哈希值相同的文章进行去重后,所得到的去重后的文章中通常不会存在内容重复的文章。

进一步的,当特征参数包括至少两个参数,以包括第一参数以及第二参数两种参数为例,对特征参数进行哈希运算,具体可以是对第一参数以及第二参数所拼接得到的字符串进行哈希运算。具体的,若第一参数以及第二参数为发文作者、发文时间以及标题中的任意两个参数,则可以将该第一参数与第二参数进行字符串拼接,得到组合字符串,然后,可以对该组合字符串进行哈希运算,得到组合字符串的哈希值,该组合字符串的哈希值也即为特征参数的哈希值。

当然,若特征参数包括三个参数,比如,特征参数同时包含发文作者、发文时间以及标题这三种参数,则同样可以将该三种参数进行字符串拼接,得到由发文作者、发文时间以及标题这三种参数所拼接得到的组合字符串,然后,对该组合字符串进行哈希运算,得到组合字符串的哈希值(即特征参数的哈希值)。其中,发文作者、发文时间以及标题这三种参数在进行字符串拼接时,拼接的顺序可以是任意顺序,但是对于目标文章中的每篇文章对应的特征参数,均是按照相同的拼接顺序完成字符串的拼接。比如,假设特征参数同时包括发文作者、发文时间以及标题,则目标文章中的文章1对应的特征参数在按照发文作者、发文时间以及标题这种拼接顺序完成字符串的拼接时,目标文章的文章2、文章3等其它文章对应的特征参数也需要按照发文作者、发文时间以及标题这种拼接顺序完成字符串的拼接。

实际应用中,当特征参数包括多个参数时,也可以是对多个参数对应的字符串分别进行哈希运算,从而得到每个参数对应的哈希值,则在对文章进行去重时,可以将各个参数对应的哈希值均相同的文章进行去重。其中,若两篇文章的各个参数中存在任何一个哈希值不相同,则可以认为这两篇文章的文章内容不相同。

本实施例中,除了上述利用特征参数的哈希值来对文章进行去重的实施方式以外,还可以利用特征参数的相似度来对文章进行去重。具体的,可以比较目标文章中每篇文章的特征与其它文章的特征参数之间的相似度,并且,若目标文章中两篇文章的特征参数的相似度不低于预设阈值,则可以认为这两篇文章为内容相同的文章,进而可以对这两篇文章进行去重处理;若目标文章中两篇文章的特征参数的相似度低于预设阈值,则可以认为这两篇文章为内容不相同的文章,无需对这两篇文章进行去重处理。比如,对于目标文章中的任意两篇文章,可以将这两篇文章的特征参数进行字符比对,从而根据字符比对结果确定特征参数之间的相似度。

值得注意的是,上述预设阈值可以是根据特征参数的不同而被设定成不同值。比如,若特征参数为发文作者以及发文时间时,则,该预设阈值可以为0.999或者为1等;而若该特征参数为发文作者以及标题时,该预设阈值可以为0.98等;而若该特征参数为摘要或者正文内容等,则可以将预设阈值设置为0.8或者0.85等。

实际应用中,当文章对应的文章属性具体为特征参数时,还可以是对文章执行两次去重过程。具体的,对于目标文章中的每篇文章,均可以具有第一特征参数以及第二特征参数,当前,每篇文章对应的第一特征参数与第二特征参数可以不同。在利用特征参数对目标文章进行去重时,可以先利用每篇文章对应的第一特征参数,对目标文章进行一次去重,得到初步去重文章;然后,在利用该初步去重文章中每篇文章对应的第二特征参数,对该初步去重文章再次进行去重,得到二次去重文章。这样,通过对目标文章进行两次递进式的去重过程,可以进一步降低最终去重得到的文章的重复率,提高去重效果。

举例来说,假设第一特征参数具体为文章的标题以及作者,第二特征参数具体为文章的发文作者以及发文时间,则可以利用文章的标题以及作者,对目标文章进行一次去重,得到初步去重文章,所得到的初步去重文章中不同文章之间的标题以及作者并不同时相同;然后,可以再利用文章的发文作者以及发文时间,对初步去重文章再次进行去重,得到二次去重文章,从而可以进一步降低最终去重得到的二次去重文章的重复率,提高去重效果。当然,在其它示例中,第一特征参数也可以是发文作者、发文时间以及标题中的至少两种参数,而第二特征参数可以是文章的摘要或者正文内容中的至少一种参数等。

本实施例中,可以获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,文章属性可以用于唯一标识文章,当文章属性具体是特征参数时,该特征参数可以包括文章的发文作者、发文时间以及标题中的至少两种参数,和/或,该特征参数可以包括文章的摘要、正文内容中的至少一种参数;然后,根据所确定出的每篇文章对应的文章属性对目标文章进行去重。可以理解,由于文章属性与文章之间是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。

此外,本申请实施例还提供了一种文章去重装置。参阅图3,图3示出了本申请实施例中一种文章去重装置,所述装置300包括:

获取模块301,用于获取目标文章,所述目标文章为待去重的文章;

确定模块302,用于确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;

去重模块303,用于根据所述文章属性,对所述目标文章进行去重。

特征参数,其中,该特征参数包括文章的发文作者、发文时间以及标题中的至少两种参数,和/或,该特征参数包括文章的摘要、正文内容中的至少一种参数。

在一些可能的实施方式中,所述去重模块303,包括:

哈希运算单元,用于对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;

第一去重单元,用于将哈希值相同的特征参数所对应的文章进行去重。

在一些可能的实施方式中,所述特征参数包括所述发文作者、发文时间以及标题中的至少两种参数,所述哈希运算单元,包括:

拼接子单元,用于将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;

哈希运算子单元,用于对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。

在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述去重模块303,包括:

初步去重单元,用于根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;

二次去重单元,用于根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。

在一些可能的实施方式中,所述去重模块303,包括:

比较单元,用于比较所述目标文章中的每篇文章的特征参数,与其它文章的特征参数之间的相似度;

第二去重单元,用于将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。

在一些可能的实施方式中,所述获取模块301,包括:

,获取单元,用于获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;

初始去重单元,用于利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。

需要说明的是,上述装置各模块、单元以及子单元之间的信息交互、执行过程等内容,由于与本申请实施例中方法实施例属于同一构思,相应的,其带来的技术效果与本申请实施例中方法实施例所具有的技术效果相同,具体内容可参见方法实施例中相关之处的描述,此处不再赘述。

本实施例中,由于文章属性与文章之间是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。

所述文章去重装置包括处理器和存储器,上述获取模块、确定模块、去重模块、第二获取模块、初步去重单元、二次去重单元、获取单元、初始去重单元、哈希运算单元、第一去重单元、比较单元、第二去重单元、拼接子单元以及哈希运算子单元等均作为程序模块、单元和子单元可以存储在存储器中,由处理器执行存储在存储器中的上述程序模块、单元和子单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序模块、单元和子单元。内核可以设置一个或以上,通过调整内核参数来去除重复的文章数据,降低文章数据中的重复率,从而提高文章数据的唯一性。

本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文章去重方法。

本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文章去重方法。

参阅图4,图4示出了本申请实施例提供的一种设备40,该设备40包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403;其中,处理器41、存储器402通过总线403完成相互间的通信;处理器401用于调用存储器402中的程序指令,以执行上述的文章去重方法。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

获取目标文章,所述目标文章为待去重的文章;

确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;

根据所述特征参数,对所述目标文章进行去重。

在一些可能的实施方式中,文章属性具体可以是文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。

在一些可能的实施方式中,当在数据处理设备上执行时,适于具体执行初始化有如下方法步骤的程序:

对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;

将哈希值相同的特征参数所对应的文章进行去重。

在一些可能的实施方式中,所述特征参数包括所述发文作者、发文时间以及标题中的至少两种参数,则,当在数据处理设备上执行时,适于具体执行初始化有如下方法步骤的程序:

将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;

对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。

在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,则,当在数据处理设备上执行时,适于具体执行初始化有如下方法步骤的程序:

根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;

根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。

在一些可能的实施方式中,当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:

分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;

将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。

在一些可能的实施方式中,当在数据处理设备上执行时,具体适于执行初始化有如下方法步骤的程序:

获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;

利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。

本申请是参照根据本申请实施例的方法、装置、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

本申请实施例中提到的“第一去重单元”、“第一特征参数”等名称中的“第一”只是用来做名字标识,并不代表顺序上的第一。该规则同样适用于“第二”等。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号