首页> 中国专利> 学术文章处理方法和学术文章的搜索处理方法及装置

学术文章处理方法和学术文章的搜索处理方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供一种学术文章处理方法和学术文章的搜索处理方法及装置。所述学术文章处理方法包括：获取作者姓名特征相同的多篇文章；根据文章的作者所属机构特征对所述多篇文章进行聚类，得到多个第一簇；根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类，得到多个第二簇；根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类，得到多个第三簇，所述第二语义特征的集合为所述第一语义特征的集合的子集。本发明提供的学术文章处理方法和学术文章的搜索处理方法及装置，提高了对应一个作者实体的文章的准确率和召回率。

著录项

公开/公告号CN104899281A

专利类型发明专利
公开/公告日2015-09-09

原文格式PDF
申请/专利权人百度在线网络技术(北京)有限公司;
展开▼

申请/专利号CN201510293626.0
发明设计人高一鸣;李浩;张晓婧;
展开▼

申请日2015-06-01
分类号G06F17/30(20060101);
代理机构11461 北京金律言科知识产权代理事务所(普通合伙);
代理人罗延红;杨移
地址 100085 北京市海淀区上地十街10号百度大厦三层
入库时间 2023-12-18 10:55:13

法律信息

法律状态公告日

法律状态信息

法律状态
2018-07-27

授权

授权
2015-10-07

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150601

实质审查的生效
2015-09-09

公开

公开

说明书

技术领域

本发明涉及计算机技术领域，尤其涉及一种学术文章处理方法和学术文章的搜索处理方法及装置。

背景技术

随着电子出版物(论文、书籍、专利等)的数量迅速增加，同一作者以多个姓名(别名、简写等)出现，以及多个作者同名的情况也越来越严重。

设想如下场景：某个领域的研究生在阅读该领域的相关文献时，发现一篇特别感兴趣的文章，文章的第一作者是“张三”，该研究生想把这个“张三”的其他文章也都找来阅读。但是即使在科研领域，名叫“张三” 的学者可能就会数量众多，甚至在相同的一个细分领域，都会有不少重名的情况。那么，如何在大量作者(包括了“张三”这个姓名)的文献中，找出所有这个研究生感兴趣的“张三”发表的文章呢？这时就需要进行作者消歧的工作。

简而言之，作者消歧的目标就是为每一个作者实体(可能重名)，例如这个研究生感兴趣的“张三”，确立一个唯一的标识方式，然后将每一篇文章对应到一个或者多个特定的作者实体上。

现有技术中，通常采用分类器和聚类的方法对学术作者进行消歧处理。具体的，根据多篇文章的标注数据训练一个分类器，用以判断两篇文章是否出自同一个作者实体，同时给出一个打分；然后，根据两两文章间的打分进行聚类，通常是采用层次聚类，聚类完成后每个类别下的文章即为属于某个特定作者实体的全部文章。

在实现上述对学术作者进行消歧的过程中，至少存在如下问题：因为消歧的难度和各个文章的来源质量参差不齐，一般准确率和召回率位于70％-90％之间，并且很难同时达到很高的准确率和召回率。

发明内容

本发明的目的在于提供一种学术文章处理方法和学术文章的搜索处理方法及装置，提高对应一个作者实体的文章的准确率和召回率。

根据本发明的一方面，本发明提供一种通过计算机实现的学术文章处理方法，所述方法包括：获取作者姓名特征相同的多篇文章；根据文章的作者所属机构特征对所述多篇文章进行聚类，得到多个第一簇；根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类，得到多个第二簇；根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类，得到多个第三簇，所述第二语义特征的集合为所述第一语义特征的集合的子集。

进一步地，所述合作者特征包括至少一个以下特征：合作者姓名特征和合作者所属机构特征，并且所述第一语义特征包括至少一个以下特征：发表期刊名特征、发表会议名特征、文章标题特征和文章关键词特征。

优选地，所述方法还包括：为所述第三簇分别设定唯一的簇标识，并且为所述第三簇中的文章标注其所属的所述第三簇的簇标识。

优选地，所述根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类，得到多个第二簇的处理包括：对于所述多个第一簇当中的第一待聚类簇和第二待聚类簇，其中，所述第一待聚类簇中文章的数量大于所述第二待聚类簇中文章的数量，执行如下聚类处理：分别计算所述第一待聚类簇和所述第二待聚类簇之间所述合作者特征的第一相似度和所述第一语义特征的第二相似度；根据所述第一相似度的值和所述第二相似度的值计算所述第一待聚类簇和所述第二待聚类簇之间的第三相似度；如果所述第三相似度的值大于第一聚类阈值，则将所述第二待聚类簇聚类到所述第一待聚类簇中；将对所述多个第一簇经过前述聚类处理后得到的多个所述第一待聚类簇和所述第二待聚类簇作为所述多个第二簇。

优选地，所述根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类，得到多个第三簇的处理包括：对于所述多个第二簇当中的第三待聚类簇和第四待聚类簇，其中，所述第三待聚类簇中文章的数量大于所述第四待聚类簇中文章的数量，执行如下聚类处理：计算所述第三待聚类簇和所述第四待聚类簇之间所述作者所属机构特征的第四相似度；当所述第四相似度的值大于第二聚类阈值时，计算所述第三待聚类簇和所述第四待聚类簇之间所述第二语义特征的第五相似度；如果所述第五相似度的值大于第三聚类阈值，则将所述第四待聚类簇聚类到所述第三待聚类簇中；将对所述多个第二簇经过前述聚类处理后得到的多个所述第三待聚类簇和所述第四待聚类簇作为所述多个第三簇。

优选地，所述对于所述多个第一簇当中的第一待聚类簇和第二待聚类簇执行的聚类处理还包括：如果所述第三相似度的值小于或者等于所述第一聚类阈值，且大于第一候选阈值，则将所述第二待聚类簇作为所述第一待聚类簇所属的所述第二簇的第一候选簇。

优选地，所述对于所述多个第二簇当中的第三待聚类簇和第四待聚类簇执行的聚类处理还包括：如果所述第五相似度的值小于或者等于所述第三聚类阈值，且大于第二候选阈值，则将所述第四待聚类簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇；将所述第四待聚类簇的所述第一候选簇作为所述第四待聚类簇所属的所述第三簇的第二候选簇，并且将所述第三待聚类簇的所述第一候选簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇。

优选地，所述方法还包括：根据文章的所述合作者特征和所述第二语义特征对所述第三簇的多个所述第二候选簇进行聚类，得到多个所述第三簇的认领候选簇。

优选地，所述方法还包括：如果所述第三簇具有认领候选簇，则为所述认领候选簇分别设定唯一的认领候选簇标识，并且为所述认领候选簇中的文章标注其所属的认领候选簇的认领候选簇标识，并且为所述第三簇存储其所述认领候选簇的认领候选簇标识。

进一步地，所述第二语义特征包括至少一个以下特征：所述文章标题特征和所述文章关键词特征。

根据本发明的另一方面，本发明还提供一种学术文章的搜索处理方法，所述方法包括：将用户用于学术文章的搜索词发送给服务器；从所述服务器接收多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识；在用户界面上显示所述学术文章搜索结果条目；响应于用户在所述用户界面上对所述作者信息的操作，将特定文章对应的簇标识发送至服务器；从所述服务器接收与所述特定文章对应的簇标识对应的簇中的文章；在所述用户界面上显示所述簇中的文章。

优选地，所述方法还包括：从所述服务器接收与认领候选簇标识对应的认领候选簇中的文章，所述认领候选簇标识为与所述特定文章对应的簇标识对应的认领候选簇标识；在所述用户界面上显示所述认领候选簇中的文章。

根据本发明的另一方面，本发明还提供一种学术文章的搜索处理方法，所述方法包括：从客户端接收用户用于学术文章的搜索词；根据所述搜索词获取与所述搜索词对应的多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识；向所述客户端发送所述多条学术文章搜索结果条目；从所述客户端接收特定文章对应的簇标识；根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的簇中的文章；将所述簇中的文章发送至所述客户端。

优选地，所述方法还包括：根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的认领候选簇标识；根据所述认领候选簇标识获取与所述认领候选簇标识对应的认领候选簇中的文章；将所述认领候选簇中的文章发送至所述客户端。

根据本发明的另一方面，本发明还提供一种用于学术文章处理的装置，所述装置包括：文章获取单元，用于获取作者姓名特征相同的多篇文章；第一聚类单元，用于根据文章的作者所属机构特征对所述多篇文章进行聚类，得到多个第一簇；第二聚类单元，用于根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类，得到多个第二簇；第三聚类单元，用于根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类，得到多个第三簇，所述第二语义特征的集合为所述第一语义特征的集合的子集。

优选地，所述装置还包括：簇标识标注单元，用于为所述第三簇分别设定唯一的簇标识，并且为所述第三簇中的文章标注其所属的所述第三簇的簇标识。

根据本发明的另一方面，本发明还提供一种用于学术文章的搜索处理装置，所述搜索处理装置包括：搜索词发送单元，用于将用户用于学术文章的搜索词发送给服务器；搜索结果条目接收单元，用于从所述服务器接收多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识；搜索结果条目显示单元，用于在用户界面上显示所述学术文章搜索结果条目；簇标识发送单元，用于响应于用户在所述用户界面上对所述作者信息的操作，将特定文章对应的簇标识发送至服务器；簇文章接收单元，用于从所述服务器接收与所述特定文章对应的簇标识对应的簇中的文章；簇文章显示单元，用于在所述用户界面上显示所述簇中的文章。

优选地，所述搜索处理装置还包括：认领候选簇文章接收单元，用于从所述服务器接收与认领候选簇标识对应的认领候选簇中的文章，所述认领候选簇标识为与所述特定文章对应的簇标识对应的认领候选簇标识；认领候选簇文章显示单元，用于在所述用户界面上显示所述认领候选簇中的文章。

根据本发明的另一方面，本发明还提供一种用于学术文章的搜索处理装置，所述搜索处理装置包括：搜索词接收单元，用于从客户端接收用户用于学术文章的搜索词；搜索结果条目获取单元，用于根据所述搜索词获取与所述搜索词对应的多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识；搜索结果条目发送单元，用于向所述客户端发送所述多条学术文章搜索结果条目；簇标识接收单元，用于从所述客户端接收特定文章对应的簇标识；簇文章获取单元，用于根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的簇中的文章；簇文章发送单元，用于将所述簇中的文章发送至所述客户端。

优选地，所述搜索处理装置还包括：认领候选簇标识获取单元，用于根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的认领候选簇标识；认领候选簇文章获取单元，用于根据所述认领候选簇标识获取与所述认领候选簇标识对应的认领候选簇中的文章；认领候选簇文章发送单元，用于将所述认领候选簇中的文章发送至所述客户端。

本发明提供的学术文章处理方法和学术文章的搜索处理方法及装置，根据文章的作者所属机构特征对作者姓名特征相同的多篇文章进行第一次聚类，根据文章的合作者特征和第一语义特征对第一次聚类得到的多个第一簇进行第二次聚类，根据文章的作者所属机构特征和第二语义特征对第二次聚类得到的多个第二簇进行聚类，得到多个第三簇。每个第三簇中的文章即召回的某个作者实体的文章，将每篇文章与某个作者实体对应，提高了对应一个作者实体的文章的准确率和召回率。

附图说明

图1是示出本发明示例性实施例通过计算机实现的学术文章处理方法的流程示意图；

图2是示出本发明示例性实施例学术文章的搜索处理方法的流程示意图；

图3是示出本发明示例性实施例学术文章的搜索处理方法的流程示意图；

图4是示出本发明示例性实施例用于学术文章处理的装置的结构示意图；

图5是示出本发明示例性实施例用于学术文章的搜索处理装置的结构示意图；

图6是示出本发明示例性实施例用于学术文章的搜索处理装置的结构示意图。

具体实施方式

本发明的基本构思是：对于作者姓名特征相同的多篇文章，根据文章的作者所属机构特征、合作者特征和第一语义特征对多篇文章进行聚类，聚类结果中的每个簇中的文章即召回的某个作者实体的文章，将每篇文章与某个作者实体对应，以提高对应一个作者实体的文章的准确率和召回率。

下面结合附图对本发明示例性实施例的学术文章处理方法和学术文章的搜索处理方法及装置进行详细描述。

实施例一

图1是示出本发明示例性实施例通过计算机实现的学术文章处理方法的流程示意图。

参照图1，本实施例的通过计算机实现的学术文章处理方法具体包括：

在步骤S110，获取作者姓名特征相同的多篇文章。

具体地，本步骤的目的在于将同一作者姓名(可能重名)的多篇文章提取出来聚到一起。

在步骤S120，根据文章的作者所属机构特征对所述多篇文章进行聚类，得到多个第一簇。

具体地，本步骤的目的在于将作者所属机构相同或相似的文章聚到一起。“作者姓名+作者所属机构”作为一个作者实体的标识方式，但是因为存在机构变更、一个作者同时在多个机构挂职等情况，因此可能导致同一个作者发表的文章对应多个机构名。第一次聚类的目标是将一个作者在同一个机构下发表的文章都聚到一起，一方面为了防止遗漏，另一方面将多篇文章聚集到一个簇中后，以簇为单位计算特征会更加准确。本步骤具体可包括以下步骤S1201-S1202：

在步骤S1201，对于作者姓名特征相同的多篇文章当中的第一待聚类文章和第二待聚类文章，执行如下聚类处理：分别计算所述第一待聚类文章和所述第二待聚类文章之间作者所属机构特征的相似度，如果所述作者所属机构特征的相似度的值大于聚类阈值，则将所述第一待聚类文章和所述第二待聚类文章聚到一个簇中。

具体地，本步骤中相似度的计算基于两篇文章(即第一待聚类文章和第二待聚类文章)的作者所属机构特征。相似度计算一般基于字符串的相似度，但本步骤中作者所属机构特征的相似度并不适用这种基于字符串的比较，例如“海南省国税局”和“湖南省国税局”，这两个字符串只有一字之差，但却是完全不同的两个机构。因此我们将作者所属机构特征进一步划分为地名词特征和非地名词特征，分别计算两篇文章之间地名词特征的相似度和非地名词特征的相似度，并为所述地名词特征和所述非地名词特征分别设定对应的权重，根据两篇文章之间地名词特征的相似度和非地名词特征的相似度以及对应的权重计算两篇文章之间作者所属机构特征的相似度，例如余弦相似度。如果两篇文章之间作者所属机构特征的相似度的值大于聚类阈值，则将这两篇文章聚到一个簇中。如果两篇文章分别与某一文章之间作者所属机构特征的相似度的值大于聚类阈值，则无论这两篇文章之间作者所属机构特征的相似度的值是否大于聚类阈值，都将这两篇文章与所述某一文章聚到一个簇中。

在步骤S1202，将对所述多篇文章经过前述聚类处理后得到的多个簇或未聚到簇中的单个文章作为所述多个第一簇。

在步骤S130，根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类，得到多个第二簇。

具体地，本步骤的目的在于将同一作者在不同机构下发表的文章聚到一起，提高召回率。本步骤具体可包括以下步骤S1301-S1302：

在步骤S1301，对于所述多个第一簇当中的第一待聚类簇和第二待聚类簇，其中，所述第一待聚类簇中文章的数量大于所述第二待聚类簇中文章的数量，执行如下聚类处理：分别计算所述第一待聚类簇和所述第二待聚类簇之间所述合作者特征的第一相似度和所述第一语义特征的第二相似度，根据所述第一相似度的值和所述第二相似度的值计算所述第一待聚类簇和所述第二待聚类簇之间的第三相似度，如果所述第三相似度的值大于第一聚类阈值，则将所述第二待聚类簇聚类到所述第一待聚类簇中。

在本步骤中，基于两个第一簇(即第一待聚类簇和第二待聚类簇) 中的文章的合作者特征和第一语义特征执行相似度的计算。其中，合作者特征具体可包括至少一个以下特征：合作者姓名特征和合作者所属机构特征，第一语义特征具体可包括至少一个以下特征：发表期刊名特征、发表会议名特征、文章标题特征和文章关键词特征。

具体地，分别计算两个第一簇之间合作者特征的第一相似度和第一语义特征的第二相似度，并为所述合作者特征和所述第一语义特征分别设定对应的权重，根据两个第一簇之间合作者特征的第一相似度和第一语义特征的第二相似度以及对应的权重计算两个第一簇之间的第三相似度，例如余弦相似度。如果两个第一簇之间第三相似度的值大于第一聚类阈值，则将这两个第一簇中包含文章数较少的第一簇(即第二待聚类簇)聚到另一个包含文章数较多的第一簇(即第一待聚类簇)中。如果两个第一簇分别与某一第一簇之间第三相似度的值大于第一聚类阈值，则无论这两个第一簇之间第三相似度的值是否大于第一聚类阈值，都将这两个第一簇与所述某一第一簇聚到一个簇中。

在步骤S1302，将对所述多个第一簇经过前述聚类处理后得到的多个所述第一待聚类簇和所述第二待聚类簇作为所述多个第二簇。

在步骤S140，根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类，得到多个第三簇，所述第二语义特征的集合为所述第一语义特征的集合的子集。

在前两次聚类完成后，准确率能达到95％以上，召回率等达到80％左右，但仍然存在一些因为特征不全面或者特征不明显的文章或文章簇未被召回，导致召回率偏低。本步骤的目的在于基于作者所属机构相似和语义相似，将前两次聚类中明显未召回的文章或文章簇召回，提高召回率。

因此，第三次聚类本质上是为第二簇之间寻找更多的作者所属机构相似度交集，以及更宽泛的语义特征。本步骤中作者所属机构特征的相似度的计算方式与步骤S120中作者所属机构特征的相似度的计算方式不同，采用带权的最长公共子串相似度来计算本步骤中作者所属机构特征的相似度。本步骤具体可包括以下步骤S1401-S1402：

在步骤S1401，对于所述多个第二簇当中的第三待聚类簇和第四待聚类簇，其中，所述第三待聚类簇中文章的数量大于所述第四待聚类簇中文章的数量，执行如下聚类处理：计算所述第三待聚类簇和所述第四待聚类簇之间所述作者所属机构特征的第四相似度，当所述第四相似度的值大于第二聚类阈值时，计算所述第三待聚类簇和所述第四待聚类簇之间所述第二语义特征的第五相似度，如果所述第五相似度的值大于第三聚类阈值，则将所述第四待聚类簇聚类到所述第三待聚类簇中。

在本步骤中基于两个第二簇(即第三待聚类簇和第四待聚类簇)中的文章的作者所属机构特征和第二语义特征执行相似度的计算。其中，第二语义特征具体可包括以下特征中的至少一种：文章标题特征和文章关键词特征。

具体地，首先计算两个第二簇之间作者所属机构特征的第四相似度，当这两个第二簇之间的第四相似度大于第二聚类阈值时，进一步计算这两个第二簇之间第二语义特征的的第五相似度，如果第五相似度的值大于第三聚类阈值，则将这两个第二簇中包含文章数较少的第二簇(即第四待聚类簇)聚到另一个包含文章数较多的第二簇(即第三待聚类簇) 中。如果两个第二簇分别与某一第二簇之间第五相似度的值大于第三聚类阈值，则无论这两个第二簇之间第五相似度的值是否大于第三聚类阈值，都将这两个第二簇与所述某一第二簇聚到一个簇中。

在步骤S1402，将对所述多个第二簇经过前述聚类处理后得到的多个所述第三待聚类簇和所述第四待聚类簇作为所述多个第三簇。

本发明实施例的通过计算机实现的学术文章处理方法，根据文章的作者所属机构特征对作者姓名特征相同的多篇文章进行第一次聚类，根据文章的合作者特征和第一语义特征对第一次聚类得到的多个第一簇进行第二次聚类，根据文章的作者所属机构特征和第二语义特征对第二次聚类得到的多个第二簇进行聚类，得到多个第三簇。每个第三簇中的文章即召回的某个作者实体的文章，将每篇文章与某个作者实体对应，提高了对应一个作者实体的文章的准确率和召回率。

优选地，本实施例的通过计算机实现的学术文章处理方法还可包括：为所述第三簇分别设定唯一的簇标识，并且为所述第三簇中的文章标注其所属的所述第三簇的簇标识。

具体地，为所述第三簇中的文章标注其所属的所述第三簇的簇标识，一方面在用户搜索时，向用户展示特定文章及所属的第三簇的簇标识，并在用户想要获取与特定文章对应的作者实体相同的其他文章时，根据所述簇标识获取标注有所述簇标识的文章即获取特定文章所属的第三簇中的文章，实现向用户展示与特定文章对应的作者实体相同的全部文章。

优选地，本实施例的步骤S130还可包括：

在步骤S1303，如果所述第三相似度的值小于或者等于所述第一聚类阈值，且大于第一候选阈值，则将所述第二待聚类簇作为所述第一待聚类簇所属的所述第二簇的第一候选簇。

具体地，在第二次聚类过程中，对于两个第一簇(即第一待聚类簇和第二待聚类簇)之间第三相似度小于或者等于所述第一聚类阈值，且大于第一候选阈值的情况，将两个第一簇中包含文章较少的第一簇(即第二待聚类簇)作为另一个包含文章较多的第一簇(即第一待聚类簇) 所属的第二簇的第一候选簇。

优选地，本实施例的步骤S140还可包括：

在步骤S1403，如果所述第五相似度的值小于或者等于所述第三聚类阈值，且大于第二候选阈值，则将所述第四待聚类簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇。

在步骤S1404，将所述第四待聚类簇的所述第一候选簇作为所述第四待聚类簇所属的所述第三簇的第二候选簇，并且将所述第三待聚类簇的所述第一候选簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇。

具体地，在第三次聚类过程中，对于两个第二簇(即第三待聚类簇和第四待聚类簇)之间第五相似度小于或者等于所述第三聚类阈值，且大于第二候选阈值的情况，将两个第二簇中包含文章较少的第二簇(即第四待聚类簇)作为另一个包含文章较多的第二簇(即第一待聚类簇) 所属的第三簇的第二候选簇。并将第二簇的第一候选簇作为第二簇所属的第三簇的第二候选簇，即将第四待聚类簇的第一候选簇作为第四待聚类簇所属的第三簇的第二候选簇，并且将第三待聚类簇的第一候选簇作为第三待聚类簇所属的第三簇的第二候选簇。

步骤S1303、S1403和S1404的目的在于获取第三簇的第二候选簇，即获取同一作者实体的第二候选簇，以供用户认领，进一步提高召回率和准确率。

优选地，本实施例的通过计算机实现的学术文章处理方法还可包括：根据文章的所述合作者特征和所述第二语义特征对所述第三簇的多个所述第二候选簇进行聚类，得到多个所述第三簇的认领候选簇。

具体地，在第三次聚类完成后，部分第三簇可能具有多个第二候选簇，但如果给用户提供多个第二候选簇，每个第二候选簇中文章数量较少的话，会给用户带来较大的负担。本步骤的目的在于对每个第三簇的多个第二候选簇进行合并，以为用户提供较少数量的认领候选簇，每个认领候选簇中文章数量尽可能多并且保证准确。本步骤中相似度的计算基于同一第三簇的两个第二候选簇中的文章的合作者特征(第二次聚类中用到过)和第二语义特征(第三次聚类中用到过)。分别计算同一第三簇的两个第二候选簇之间合作者特征的相似度和第二语义特征的相似度，并为合作者特征和第二语义特征分别设定对应的权重，根据同一第三簇的两个第二候选簇之间合作者特征的相似度和第二语义特征的相似度以及对应的权重计算同一第三簇的两个第二候选簇之间的相似度，例如余弦相似度。如果同一第三簇的两个第二候选簇之间相似度的值大于聚类阈值，则将这两个第二候选簇中包含文章数较少的第二候选簇聚到另一个包含文章数较多的第二候选簇中。如果两个第二候选簇分别与某一第二候选簇之间相似度的值大于聚类阈值，则无论这两个第二候选簇之间相似度的值是否大于聚类阈值，都将这两个第二候选簇与所述某一第二候选簇聚到一个簇中。将对第三簇的多个第二候选簇经过前述聚类处理后得到的多个第二候选簇作为所述第三簇的认领候选簇。

优选地，本实施例的通过计算机实现的学术文章处理方法还可包括：如果所述第三簇具有认领候选簇，则为所述认领候选簇分别设定唯一的认领候选簇标识，并且为所述认领候选簇中的文章标注其所属的认领候选簇的认领候选簇标识，并且为所述第三簇存储其所述认领候选簇的认领候选簇标识。

具体地，为所述第三簇的认领候选簇中的文章标注其所属的认领候选簇的认领候选簇标识，并且为所述第三簇存储其所述认领候选簇的认领候选簇标识，一方面在用户想要获取与特定文章对应的作者实体相同的其他文章时，根据第三簇的簇标识获取其认领候选簇的认领候选簇标识，并根据认领候选簇标识获取标注有所述认领候选簇标识的文章即获取特定文章所属的第三簇的认领候选簇中的文章，实现向用户展示特定文章对应的作者实体的全部认领候选文章。

实施例二

图2是示出本发明示例性实施例学术文章的搜索处理方法的流程示意图。

参照图2，本实施例的学术文章的搜索处理方法具体包括：

在步骤S210，将用户用于学术文章的搜索词发送给服务器。

在步骤S220，从所述服务器接收多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识。

具体地，作者信息可包括作者姓名、作者所属机构等。所述簇标识即实施例一中的第三簇的簇标识。

在步骤S230，在用户界面上显示所述学术文章搜索结果条目；

在步骤S240，响应于用户在所述用户界面上对所述作者信息的操作，将特定文章对应的簇标识发送至服务器。

具体地，特定文章即用户所述操作对应的文章，也即用户感兴趣的文章。

在步骤S250，从所述服务器接收与所述特定文章对应的簇标识对应的簇中的文章。

具体地，与所述特定文章对应的簇标识对应的簇中的文章，即实施例一中标注有所述特定文章对应的第三簇簇标识的文章，也即根据实施例一的方法得到的与所述特定文章的作者实体相同的文章。

在步骤S260，在所述用户界面上显示所述簇中的文章。

本发明实施例的学术文章的搜索处理方法中，学术文章搜索结果条目中的簇标识以及与特定文章对应的簇标识对应的簇中的文章基于上述实施例一中为文章标注的第三簇的簇标识得到。

优选地，本实施例的学术文章的搜索处理方法还可包括：从所述服务器接收与认领候选簇标识对应的认领候选簇中的文章，所述认领候选簇标识为与所述特定文章对应的簇标识对应的认领候选簇标识。在所述用户界面上显示所述认领候选簇中的文章。

具体地，参见实施例一中的相关描述，根据第三簇的簇标识获取对应的认领候选簇标识，根据认领候选簇标识获取标注有认领候选簇标识的文章。

实施例三

图3是示出本发明示例性实施例学术文章的搜索处理方法的流程示意图。

参照图3，本实施例的学术文章的搜索处理方法具体包括：

在步骤S310，从客户端接收用户用于学术文章的搜索词。

在步骤S320，根据所述搜索词获取与所述搜索词对应的多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识。

具体地，作者信息可包括作者姓名、作者所属机构等。所述簇标识即图1所示实施例中的第三簇的簇标识。

在步骤S330，向所述客户端发送所述多条学术文章搜索结果条目。

在步骤S340，从所述客户端接收特定文章对应的簇标识。

具体地，特定文章即用户在客户端的操作对应的文章，也即用户感兴趣的文章。

在步骤S350，根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的簇中的文章。

在步骤S360，将所述簇中的文章发送至所述客户端。

优选地，本实施例的学术文章的搜索处理方法还可包括：根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的认领候选簇标识。根据所述认领候选簇标识获取与所述认领候选簇标识对应的认领候选簇中的文章。将所述认领候选簇中的文章发送至所述客户端。

具体地，参见实施例一中的相关描述，根据第三簇的簇标识获取对应的认领候选簇标识，根据认领候选簇标识获取标注有认领候选簇标识的文章。

实施例四

图4是示出本发明示例性实施例用于学术文章处理的装置的结构示意图。

参照图4，本实施例的用于学术文章处理的装置可执行实施例一的通过计算机实现的学术文章处理方法。本实施例的用于学术文章处理的装置具体包括：文章获取单元410、第一聚类单元420、第二聚类单元 430和第三聚类单元440。

文章获取单元410用于获取作者姓名特征相同的多篇文章。

第一聚类单元420用于根据文章的作者所属机构特征对所述多篇文章进行聚类，得到多个第一簇。

第二聚类单元430用于根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类，得到多个第二簇。

第三聚类单元440用于根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类，得到多个第三簇，所述第二语义特征的集合为所述第一语义特征的集合的子集。

优选地，第二聚类单元430具体用于：对于所述多个第一簇当中的第一待聚类簇和第二待聚类簇，其中，所述第一待聚类簇中文章的数量大于所述第二待聚类簇中文章的数量，执行如下聚类处理：分别计算所述第一待聚类簇和所述第二待聚类簇之间所述合作者特征的第一相似度和所述第一语义特征的第二相似度，根据所述第一相似度的值和所述第二相似度的值计算所述第一待聚类簇和所述第二待聚类簇之间的第三相似度，如果所述第三相似度的值大于第一聚类阈值，则将所述第二待聚类簇聚类到所述第一待聚类簇中。将对所述多个第一簇经过前述聚类处理后得到的多个所述第一待聚类簇和所述第二待聚类簇作为所述多个第二簇。

优选地，第三聚类单元440具体用于：对于所述多个第二簇当中的第三待聚类簇和第四待聚类簇，其中，所述第三待聚类簇中文章的数量大于所述第四待聚类簇中文章的数量，执行如下聚类处理：计算所述第三待聚类簇和所述第四待聚类簇之间所述作者所属机构特征的第四相似度，当所述第四相似度的值大于第二聚类阈值时，计算所述第三待聚类簇和所述第四待聚类簇之间所述第二语义特征的第五相似度，如果所述第五相似度的值大于第三聚类阈值，则将所述第四待聚类簇聚类到所述第三待聚类簇中。将对所述多个第二簇经过前述聚类处理后得到的多个所述第三待聚类簇和所述第四待聚类簇作为所述多个第三簇。

优选地，第二聚类单元430还用于：如果所述第三相似度的值小于或者等于所述第一聚类阈值，且大于第一候选阈值，则将所述第二待聚类簇作为所述第一待聚类簇所属的所述第二簇的第一候选簇。

优选地，第三聚类单元440还用于：如果所述第五相似度的值小于或者等于所述第三聚类阈值，且大于第二候选阈值，则将所述第四待聚类簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇。将所述第四待聚类簇的所述第一候选簇作为所述第四待聚类簇所属的所述第三簇的第二候选簇，并且将所述第三待聚类簇的所述第一候选簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇。

优选地，所述装置还包括：第四聚类单元，用于根据文章的所述合作者特征和所述第二语义特征对所述第三簇的多个所述第二候选簇进行聚类，得到多个所述第三簇的认领候选簇。

优选地，所述装置还包括：认领候选簇标识标注单元，用于如果所述第三簇具有认领候选簇，则为所述认领候选簇分别设定唯一的认领候选簇标识，并且为所述认领候选簇中的文章标注其所属的认领候选簇的认领候选簇标识，并且为所述第三簇存储其所述认领候选簇的认领候选簇标识。

进一步地，所述第二语义特征具体可包括至少一个以下特征：所述文章标题特征和所述文章关键词特征。

本发明实施例的用于学术文章处理的装置，根据文章的作者所属机构特征对作者姓名特征相同的多篇文章进行第一次聚类，根据文章的合作者特征和第一语义特征对第一次聚类得到的多个第一簇进行第二次聚类，根据文章的作者所属机构特征和第二语义特征对第二次聚类得到的多个第二簇进行聚类，得到多个第三簇。每个第三簇中的文章即召回的某个作者实体的文章，将每篇文章与某个作者实体对应，提高了对应一个作者实体的文章的准确率和召回率。

实施例五

图5是示出本发明示例性实施例用于学术文章的搜索处理装置的结构示意图。

参照图5，本实施例的用于学术文章的搜索处理装置可执行实施例二的学术文章的搜索处理方法。本实施例的用于学术文章的搜索处理装置具体包括：搜索词发送单元510、搜索结果条目接收单元520、搜索结果条目显示单元530、簇标识发送单元540、簇文章接收单元550和簇文章显示单元560。

搜索词发送单元510用于将用户用于学术文章的搜索词发送给服务器。

搜索结果条目接收单元520用于从所述服务器接收多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识。

搜索结果条目显示单元530用于在用户界面上显示所述学术文章搜索结果条目。

簇标识发送单元540用于响应于用户在所述用户界面上对所述作者信息的操作，将特定文章对应的簇标识发送至服务器。

簇文章接收单元550用于从所述服务器接收与所述特定文章对应的簇标识对应的簇中的文章。

簇文章显示单元560用于在所述用户界面上显示所述簇中的文章。

优选地，本实施例的搜索处理装置还包括：认领候选簇文章接收单元，用于从所述服务器接收与认领候选簇标识对应的认领候选簇中的文章，所述认领候选簇标识为与所述特定文章对应的簇标识对应的认领候选簇标识。认领候选簇文章显示单元，用于在所述用户界面上显示所述认领候选簇中的文章。

本发明实施例的用于学术文章的搜索处理装置中，学术文章搜索结果条目中的簇标识以及与特定文章对应的簇标识对应的簇中的文章基于上述实施例四中为文章标注的第三簇的簇标识得到。

实施例六

图6是示出本发明示例性实施例用于学术文章的搜索处理装置的结构示意图。

参照图6，本实施例的用于学术文章的搜索处理装置可执行实施例三的学术文章的搜索处理方法。本实施例的用于学术文章的搜索处理装置具体包括：搜索词接收单元610、搜索结果条目获取单元620、搜索结果条目发送单元630、簇标识接收单元640、簇文章获取单元650和簇文章发送单元660。

搜索词接收单元610用于从客户端接收用户用于学术文章的搜索词。

搜索结果条目获取单元620用于根据所述搜索词获取与所述搜索词对应的多条学术文章搜索结果条目，所述学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识。

搜索结果条目发送单元630用于向所述客户端发送所述多条学术文章搜索结果条目。

簇标识接收单元640用于从所述客户端接收特定文章对应的簇标识。

簇文章获取单元650用于根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的簇中的文章。

簇文章发送单元660用于将所述簇中的文章发送至所述客户端。

优选地，本实施例的搜索处理装置还包括：认领候选簇标识获取单元，用于根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的认领候选簇标识。认领候选簇文章获取单元，用于根据所述认领候选簇标识获取与所述认领候选簇标识对应的认领候选簇中的文章。认领候选簇文章发送单元，用于将所述认领候选簇中的文章发送至所述客户端。

需要指出，根据实施的需要，可将本申请中描述的各个步骤拆分为更多步骤，也可将两个或多个步骤或者步骤的部分操作组合成新的步骤，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 学术文章处理方法和学术文章的搜索处理方法及装置 [P] . 中国专利： CN104899281B . 2018.07.27
2. 一种搜索处理方法、客服信息处理方法及装置 [P] . 中国专利： CN112559575A . 2021-03-26
3. Search processing method, search processing device, and search processing program [P] . 日本专利： JP6645240B2 . 2020-02-14

机译：搜索处理方法，搜索处理装置和搜索处理程序
4. Corresponding point search device, corresponding point search processing method and a corresponding point search processing program [P] . 日本专利： JP3898936B2 . 2007-03-28

机译：对应点搜索装置，对应点搜索处理方法和对应点搜索处理程序
5. SOLUTION SEARCH PROCESSING APPARATUS AND SOLUTION SEARCH PROCESSING METHOD [P] . 美国专利： US2019220750A1 . 2019-07-18

机译：溶液搜索处理装置和溶液搜索处理方法