首页> 中国专利> 学术文章处理方法和学术文章的搜索处理方法及装置

学术文章处理方法和学术文章的搜索处理方法及装置

摘要

本发明提供一种学术文章处理方法和学术文章的搜索处理方法及装置。所述学术文章处理方法包括:获取作者姓名特征相同的多篇文章;根据文章的作者所属机构特征对所述多篇文章进行聚类,得到多个第一簇;根据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类,得到多个第二簇;根据文章的所述作者所属机构特征和第二语义特征对所述多个第二簇进行聚类,得到多个第三簇,所述第二语义特征的集合为所述第一语义特征的集合的子集。本发明提供的学术文章处理方法和学术文章的搜索处理方法及装置,提高了对应一个作者实体的文章的准确率和召回率。

著录项

  • 公开/公告号CN104899281A

    专利类型发明专利

  • 公开/公告日2015-09-09

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201510293626.0

  • 发明设计人 高一鸣;李浩;张晓婧;

    申请日2015-06-01

  • 分类号G06F17/30(20060101);

  • 代理机构11461 北京金律言科知识产权代理事务所(普通合伙);

  • 代理人罗延红;杨移

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2023-12-18 10:55:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-27

    授权

    授权

  • 2015-10-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150601

    实质审查的生效

  • 2015-09-09

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,尤其涉及一种学术文章处理方法和学 术文章的搜索处理方法及装置。

背景技术

随着电子出版物(论文、书籍、专利等)的数量迅速增加,同一作 者以多个姓名(别名、简写等)出现,以及多个作者同名的情况也越来 越严重。

设想如下场景:某个领域的研究生在阅读该领域的相关文献时,发 现一篇特别感兴趣的文章,文章的第一作者是“张三”,该研究生想把这 个“张三”的其他文章也都找来阅读。但是即使在科研领域,名叫“张三” 的学者可能就会数量众多,甚至在相同的一个细分领域,都会有不少重 名的情况。那么,如何在大量作者(包括了“张三”这个姓名)的文献中, 找出所有这个研究生感兴趣的“张三”发表的文章呢?这时就需要进行 作者消歧的工作。

简而言之,作者消歧的目标就是为每一个作者实体(可能重名), 例如这个研究生感兴趣的“张三”,确立一个唯一的标识方式,然后将每 一篇文章对应到一个或者多个特定的作者实体上。

现有技术中,通常采用分类器和聚类的方法对学术作者进行消歧处 理。具体的,根据多篇文章的标注数据训练一个分类器,用以判断两篇 文章是否出自同一个作者实体,同时给出一个打分;然后,根据两两文 章间的打分进行聚类,通常是采用层次聚类,聚类完成后每个类别下的 文章即为属于某个特定作者实体的全部文章。

在实现上述对学术作者进行消歧的过程中,至少存在如下问题:因 为消歧的难度和各个文章的来源质量参差不齐,一般准确率和召回率位 于70%-90%之间,并且很难同时达到很高的准确率和召回率。

发明内容

本发明的目的在于提供一种学术文章处理方法和学术文章的搜索 处理方法及装置,提高对应一个作者实体的文章的准确率和召回率。

根据本发明的一方面,本发明提供一种通过计算机实现的学术文章 处理方法,所述方法包括:获取作者姓名特征相同的多篇文章;根据文 章的作者所属机构特征对所述多篇文章进行聚类,得到多个第一簇;根 据文章的合作者特征和第一语义特征对所述多个第一簇进行聚类,得到 多个第二簇;根据文章的所述作者所属机构特征和第二语义特征对所述 多个第二簇进行聚类,得到多个第三簇,所述第二语义特征的集合为所 述第一语义特征的集合的子集。

进一步地,所述合作者特征包括至少一个以下特征:合作者姓名特 征和合作者所属机构特征,并且所述第一语义特征包括至少一个以下特 征:发表期刊名特征、发表会议名特征、文章标题特征和文章关键词特 征。

优选地,所述方法还包括:为所述第三簇分别设定唯一的簇标识, 并且为所述第三簇中的文章标注其所属的所述第三簇的簇标识。

优选地,所述根据文章的合作者特征和第一语义特征对所述多个第 一簇进行聚类,得到多个第二簇的处理包括:对于所述多个第一簇当中 的第一待聚类簇和第二待聚类簇,其中,所述第一待聚类簇中文章的数 量大于所述第二待聚类簇中文章的数量,执行如下聚类处理:分别计算 所述第一待聚类簇和所述第二待聚类簇之间所述合作者特征的第一相 似度和所述第一语义特征的第二相似度;根据所述第一相似度的值和所 述第二相似度的值计算所述第一待聚类簇和所述第二待聚类簇之间的 第三相似度;如果所述第三相似度的值大于第一聚类阈值,则将所述第 二待聚类簇聚类到所述第一待聚类簇中;将对所述多个第一簇经过前述 聚类处理后得到的多个所述第一待聚类簇和所述第二待聚类簇作为所 述多个第二簇。

优选地,所述根据文章的所述作者所属机构特征和第二语义特征对 所述多个第二簇进行聚类,得到多个第三簇的处理包括:对于所述多个 第二簇当中的第三待聚类簇和第四待聚类簇,其中,所述第三待聚类簇 中文章的数量大于所述第四待聚类簇中文章的数量,执行如下聚类处理: 计算所述第三待聚类簇和所述第四待聚类簇之间所述作者所属机构特 征的第四相似度;当所述第四相似度的值大于第二聚类阈值时,计算所 述第三待聚类簇和所述第四待聚类簇之间所述第二语义特征的第五相 似度;如果所述第五相似度的值大于第三聚类阈值,则将所述第四待聚 类簇聚类到所述第三待聚类簇中;将对所述多个第二簇经过前述聚类处 理后得到的多个所述第三待聚类簇和所述第四待聚类簇作为所述多个 第三簇。

优选地,所述对于所述多个第一簇当中的第一待聚类簇和第二待聚 类簇执行的聚类处理还包括:如果所述第三相似度的值小于或者等于所 述第一聚类阈值,且大于第一候选阈值,则将所述第二待聚类簇作为所 述第一待聚类簇所属的所述第二簇的第一候选簇。

优选地,所述对于所述多个第二簇当中的第三待聚类簇和第四待聚 类簇执行的聚类处理还包括:如果所述第五相似度的值小于或者等于 所述第三聚类阈值,且大于第二候选阈值,则将所述第四待聚类簇作 为所述第三待聚类簇所属的所述第三簇的第二候选簇;将所述第四待 聚类簇的所述第一候选簇作为所述第四待聚类簇所属的所述第三簇的 第二候选簇,并且将所述第三待聚类簇的所述第一候选簇作为所述第 三待聚类簇所属的所述第三簇的第二候选簇。

优选地,所述方法还包括:根据文章的所述合作者特征和所述第二 语义特征对所述第三簇的多个所述第二候选簇进行聚类,得到多个所述 第三簇的认领候选簇。

优选地,所述方法还包括:如果所述第三簇具有认领候选簇,则为 所述认领候选簇分别设定唯一的认领候选簇标识,并且为所述认领候选 簇中的文章标注其所属的认领候选簇的认领候选簇标识,并且为所述第 三簇存储其所述认领候选簇的认领候选簇标识。

进一步地,所述第二语义特征包括至少一个以下特征:所述文章标 题特征和所述文章关键词特征。

根据本发明的另一方面,本发明还提供一种学术文章的搜索处理方 法,所述方法包括:将用户用于学术文章的搜索词发送给服务器;从所 述服务器接收多条学术文章搜索结果条目,所述学术文章搜索结果条目 包括文章标题、作者信息以及所述文章对应的簇标识;在用户界面上显 示所述学术文章搜索结果条目;响应于用户在所述用户界面上对所述作 者信息的操作,将特定文章对应的簇标识发送至服务器;从所述服务器 接收与所述特定文章对应的簇标识对应的簇中的文章;在所述用户界面 上显示所述簇中的文章。

优选地,所述方法还包括:从所述服务器接收与认领候选簇标识对 应的认领候选簇中的文章,所述认领候选簇标识为与所述特定文章对应 的簇标识对应的认领候选簇标识;在所述用户界面上显示所述认领候选 簇中的文章。

根据本发明的另一方面,本发明还提供一种学术文章的搜索处理方 法,所述方法包括:从客户端接收用户用于学术文章的搜索词;根据所 述搜索词获取与所述搜索词对应的多条学术文章搜索结果条目,所述学 术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标 识;向所述客户端发送所述多条学术文章搜索结果条目;从所述客户端 接收特定文章对应的簇标识;根据所述特定文章对应的簇标识获取与所 述特定文章对应的簇标识对应的簇中的文章;将所述簇中的文章发送至 所述客户端。

优选地,所述方法还包括:根据所述特定文章对应的簇标识获取与 所述特定文章对应的簇标识对应的认领候选簇标识;根据所述认领候选 簇标识获取与所述认领候选簇标识对应的认领候选簇中的文章;将所述 认领候选簇中的文章发送至所述客户端。

根据本发明的另一方面,本发明还提供一种用于学术文章处理的装 置,所述装置包括:文章获取单元,用于获取作者姓名特征相同的多篇 文章;第一聚类单元,用于根据文章的作者所属机构特征对所述多篇文 章进行聚类,得到多个第一簇;第二聚类单元,用于根据文章的合作者 特征和第一语义特征对所述多个第一簇进行聚类,得到多个第二簇;第 三聚类单元,用于根据文章的所述作者所属机构特征和第二语义特征对 所述多个第二簇进行聚类,得到多个第三簇,所述第二语义特征的集合 为所述第一语义特征的集合的子集。

优选地,所述装置还包括:簇标识标注单元,用于为所述第三簇分 别设定唯一的簇标识,并且为所述第三簇中的文章标注其所属的所述第 三簇的簇标识。

根据本发明的另一方面,本发明还提供一种用于学术文章的搜索处 理装置,所述搜索处理装置包括:搜索词发送单元,用于将用户用于学 术文章的搜索词发送给服务器;搜索结果条目接收单元,用于从所述服 务器接收多条学术文章搜索结果条目,所述学术文章搜索结果条目包括 文章标题、作者信息以及所述文章对应的簇标识;搜索结果条目显示单 元,用于在用户界面上显示所述学术文章搜索结果条目;簇标识发送单 元,用于响应于用户在所述用户界面上对所述作者信息的操作,将特定 文章对应的簇标识发送至服务器;簇文章接收单元,用于从所述服务器 接收与所述特定文章对应的簇标识对应的簇中的文章;簇文章显示单元, 用于在所述用户界面上显示所述簇中的文章。

优选地,所述搜索处理装置还包括:认领候选簇文章接收单元,用 于从所述服务器接收与认领候选簇标识对应的认领候选簇中的文章,所 述认领候选簇标识为与所述特定文章对应的簇标识对应的认领候选簇 标识;认领候选簇文章显示单元,用于在所述用户界面上显示所述认领 候选簇中的文章。

根据本发明的另一方面,本发明还提供一种用于学术文章的搜索处 理装置,所述搜索处理装置包括:搜索词接收单元,用于从客户端接收 用户用于学术文章的搜索词;搜索结果条目获取单元,用于根据所述搜 索词获取与所述搜索词对应的多条学术文章搜索结果条目,所述学术文 章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇标识; 搜索结果条目发送单元,用于向所述客户端发送所述多条学术文章搜索 结果条目;簇标识接收单元,用于从所述客户端接收特定文章对应的簇 标识;簇文章获取单元,用于根据所述特定文章对应的簇标识获取与所 述特定文章对应的簇标识对应的簇中的文章;簇文章发送单元,用于将 所述簇中的文章发送至所述客户端。

优选地,所述搜索处理装置还包括:认领候选簇标识获取单元,用 于根据所述特定文章对应的簇标识获取与所述特定文章对应的簇标识 对应的认领候选簇标识;认领候选簇文章获取单元,用于根据所述认领 候选簇标识获取与所述认领候选簇标识对应的认领候选簇中的文章;认 领候选簇文章发送单元,用于将所述认领候选簇中的文章发送至所述客 户端。

本发明提供的学术文章处理方法和学术文章的搜索处理方法及装 置,根据文章的作者所属机构特征对作者姓名特征相同的多篇文章进行 第一次聚类,根据文章的合作者特征和第一语义特征对第一次聚类得到 的多个第一簇进行第二次聚类,根据文章的作者所属机构特征和第二语 义特征对第二次聚类得到的多个第二簇进行聚类,得到多个第三簇。每 个第三簇中的文章即召回的某个作者实体的文章,将每篇文章与某个作 者实体对应,提高了对应一个作者实体的文章的准确率和召回率。

附图说明

图1是示出本发明示例性实施例通过计算机实现的学术文章处理方 法的流程示意图;

图2是示出本发明示例性实施例学术文章的搜索处理方法的流程示 意图;

图3是示出本发明示例性实施例学术文章的搜索处理方法的流程示 意图;

图4是示出本发明示例性实施例用于学术文章处理的装置的结构示 意图;

图5是示出本发明示例性实施例用于学术文章的搜索处理装置的结 构示意图;

图6是示出本发明示例性实施例用于学术文章的搜索处理装置的结 构示意图。

具体实施方式

本发明的基本构思是:对于作者姓名特征相同的多篇文章,根据文 章的作者所属机构特征、合作者特征和第一语义特征对多篇文章进行聚 类,聚类结果中的每个簇中的文章即召回的某个作者实体的文章,将每 篇文章与某个作者实体对应,以提高对应一个作者实体的文章的准确率 和召回率。

下面结合附图对本发明示例性实施例的学术文章处理方法和学术 文章的搜索处理方法及装置进行详细描述。

实施例一

图1是示出本发明示例性实施例通过计算机实现的学术文章处理方 法的流程示意图。

参照图1,本实施例的通过计算机实现的学术文章处理方法具体包 括:

在步骤S110,获取作者姓名特征相同的多篇文章。

具体地,本步骤的目的在于将同一作者姓名(可能重名)的多篇文 章提取出来聚到一起。

在步骤S120,根据文章的作者所属机构特征对所述多篇文章进行聚 类,得到多个第一簇。

具体地,本步骤的目的在于将作者所属机构相同或相似的文章聚到 一起。“作者姓名+作者所属机构”作为一个作者实体的标识方式,但 是因为存在机构变更、一个作者同时在多个机构挂职等情况,因此可能 导致同一个作者发表的文章对应多个机构名。第一次聚类的目标是将一 个作者在同一个机构下发表的文章都聚到一起,一方面为了防止遗漏, 另一方面将多篇文章聚集到一个簇中后,以簇为单位计算特征会更加准 确。本步骤具体可包括以下步骤S1201-S1202:

在步骤S1201,对于作者姓名特征相同的多篇文章当中的第一待聚 类文章和第二待聚类文章,执行如下聚类处理:分别计算所述第一待聚 类文章和所述第二待聚类文章之间作者所属机构特征的相似度,如果所 述作者所属机构特征的相似度的值大于聚类阈值,则将所述第一待聚类 文章和所述第二待聚类文章聚到一个簇中。

具体地,本步骤中相似度的计算基于两篇文章(即第一待聚类文章 和第二待聚类文章)的作者所属机构特征。相似度计算一般基于字符串 的相似度,但本步骤中作者所属机构特征的相似度并不适用这种基于字 符串的比较,例如“海南省国税局”和“湖南省国税局”,这两个字符串只 有一字之差,但却是完全不同的两个机构。因此我们将作者所属机构特 征进一步划分为地名词特征和非地名词特征,分别计算两篇文章之间地 名词特征的相似度和非地名词特征的相似度,并为所述地名词特征和所 述非地名词特征分别设定对应的权重,根据两篇文章之间地名词特征的 相似度和非地名词特征的相似度以及对应的权重计算两篇文章之间作 者所属机构特征的相似度,例如余弦相似度。如果两篇文章之间作者所 属机构特征的相似度的值大于聚类阈值,则将这两篇文章聚到一个簇中。 如果两篇文章分别与某一文章之间作者所属机构特征的相似度的值大 于聚类阈值,则无论这两篇文章之间作者所属机构特征的相似度的值是 否大于聚类阈值,都将这两篇文章与所述某一文章聚到一个簇中。

在步骤S1202,将对所述多篇文章经过前述聚类处理后得到的多个 簇或未聚到簇中的单个文章作为所述多个第一簇。

在步骤S130,根据文章的合作者特征和第一语义特征对所述多个第 一簇进行聚类,得到多个第二簇。

具体地,本步骤的目的在于将同一作者在不同机构下发表的文章聚 到一起,提高召回率。本步骤具体可包括以下步骤S1301-S1302:

在步骤S1301,对于所述多个第一簇当中的第一待聚类簇和第二待 聚类簇,其中,所述第一待聚类簇中文章的数量大于所述第二待聚类簇 中文章的数量,执行如下聚类处理:分别计算所述第一待聚类簇和所述 第二待聚类簇之间所述合作者特征的第一相似度和所述第一语义特征 的第二相似度,根据所述第一相似度的值和所述第二相似度的值计算所 述第一待聚类簇和所述第二待聚类簇之间的第三相似度,如果所述第三 相似度的值大于第一聚类阈值,则将所述第二待聚类簇聚类到所述第一 待聚类簇中。

在本步骤中,基于两个第一簇(即第一待聚类簇和第二待聚类簇) 中的文章的合作者特征和第一语义特征执行相似度的计算。其中,合作 者特征具体可包括至少一个以下特征:合作者姓名特征和合作者所属机 构特征,第一语义特征具体可包括至少一个以下特征:发表期刊名特征、 发表会议名特征、文章标题特征和文章关键词特征。

具体地,分别计算两个第一簇之间合作者特征的第一相似度和第一 语义特征的第二相似度,并为所述合作者特征和所述第一语义特征分别 设定对应的权重,根据两个第一簇之间合作者特征的第一相似度和第一 语义特征的第二相似度以及对应的权重计算两个第一簇之间的第三相 似度,例如余弦相似度。如果两个第一簇之间第三相似度的值大于第一 聚类阈值,则将这两个第一簇中包含文章数较少的第一簇(即第二待聚 类簇)聚到另一个包含文章数较多的第一簇(即第一待聚类簇)中。如 果两个第一簇分别与某一第一簇之间第三相似度的值大于第一聚类阈 值,则无论这两个第一簇之间第三相似度的值是否大于第一聚类阈值, 都将这两个第一簇与所述某一第一簇聚到一个簇中。

在步骤S1302,将对所述多个第一簇经过前述聚类处理后得到的多 个所述第一待聚类簇和所述第二待聚类簇作为所述多个第二簇。

在步骤S140,根据文章的所述作者所属机构特征和第二语义特征对 所述多个第二簇进行聚类,得到多个第三簇,所述第二语义特征的集合 为所述第一语义特征的集合的子集。

在前两次聚类完成后,准确率能达到95%以上,召回率等达到80% 左右,但仍然存在一些因为特征不全面或者特征不明显的文章或文章簇 未被召回,导致召回率偏低。本步骤的目的在于基于作者所属机构相似 和语义相似,将前两次聚类中明显未召回的文章或文章簇召回,提高召 回率。

因此,第三次聚类本质上是为第二簇之间寻找更多的作者所属机构 相似度交集,以及更宽泛的语义特征。本步骤中作者所属机构特征的相 似度的计算方式与步骤S120中作者所属机构特征的相似度的计算方式 不同,采用带权的最长公共子串相似度来计算本步骤中作者所属机构特 征的相似度。本步骤具体可包括以下步骤S1401-S1402:

在步骤S1401,对于所述多个第二簇当中的第三待聚类簇和第四待 聚类簇,其中,所述第三待聚类簇中文章的数量大于所述第四待聚类簇 中文章的数量,执行如下聚类处理:计算所述第三待聚类簇和所述第四 待聚类簇之间所述作者所属机构特征的第四相似度,当所述第四相似度 的值大于第二聚类阈值时,计算所述第三待聚类簇和所述第四待聚类簇 之间所述第二语义特征的第五相似度,如果所述第五相似度的值大于第 三聚类阈值,则将所述第四待聚类簇聚类到所述第三待聚类簇中。

在本步骤中基于两个第二簇(即第三待聚类簇和第四待聚类簇)中 的文章的作者所属机构特征和第二语义特征执行相似度的计算。其中, 第二语义特征具体可包括以下特征中的至少一种:文章标题特征和文章 关键词特征。

具体地,首先计算两个第二簇之间作者所属机构特征的第四相似度, 当这两个第二簇之间的第四相似度大于第二聚类阈值时,进一步计算这 两个第二簇之间第二语义特征的的第五相似度,如果第五相似度的值大 于第三聚类阈值,则将这两个第二簇中包含文章数较少的第二簇(即第 四待聚类簇)聚到另一个包含文章数较多的第二簇(即第三待聚类簇) 中。如果两个第二簇分别与某一第二簇之间第五相似度的值大于第三聚 类阈值,则无论这两个第二簇之间第五相似度的值是否大于第三聚类阈 值,都将这两个第二簇与所述某一第二簇聚到一个簇中。

在步骤S1402,将对所述多个第二簇经过前述聚类处理后得到的多 个所述第三待聚类簇和所述第四待聚类簇作为所述多个第三簇。

本发明实施例的通过计算机实现的学术文章处理方法,根据文章的 作者所属机构特征对作者姓名特征相同的多篇文章进行第一次聚类,根 据文章的合作者特征和第一语义特征对第一次聚类得到的多个第一簇 进行第二次聚类,根据文章的作者所属机构特征和第二语义特征对第二 次聚类得到的多个第二簇进行聚类,得到多个第三簇。每个第三簇中的 文章即召回的某个作者实体的文章,将每篇文章与某个作者实体对应, 提高了对应一个作者实体的文章的准确率和召回率。

优选地,本实施例的通过计算机实现的学术文章处理方法还可包括: 为所述第三簇分别设定唯一的簇标识,并且为所述第三簇中的文章标注 其所属的所述第三簇的簇标识。

具体地,为所述第三簇中的文章标注其所属的所述第三簇的簇标识, 一方面在用户搜索时,向用户展示特定文章及所属的第三簇的簇标识, 并在用户想要获取与特定文章对应的作者实体相同的其他文章时,根据 所述簇标识获取标注有所述簇标识的文章即获取特定文章所属的第三 簇中的文章,实现向用户展示与特定文章对应的作者实体相同的全部文 章。

优选地,本实施例的步骤S130还可包括:

在步骤S1303,如果所述第三相似度的值小于或者等于所述第一聚 类阈值,且大于第一候选阈值,则将所述第二待聚类簇作为所述第一待 聚类簇所属的所述第二簇的第一候选簇。

具体地,在第二次聚类过程中,对于两个第一簇(即第一待聚类簇 和第二待聚类簇)之间第三相似度小于或者等于所述第一聚类阈值,且 大于第一候选阈值的情况,将两个第一簇中包含文章较少的第一簇(即 第二待聚类簇)作为另一个包含文章较多的第一簇(即第一待聚类簇) 所属的第二簇的第一候选簇。

优选地,本实施例的步骤S140还可包括:

在步骤S1403,如果所述第五相似度的值小于或者等于所述第三聚 类阈值,且大于第二候选阈值,则将所述第四待聚类簇作为所述第三待 聚类簇所属的所述第三簇的第二候选簇。

在步骤S1404,将所述第四待聚类簇的所述第一候选簇作为所述第 四待聚类簇所属的所述第三簇的第二候选簇,并且将所述第三待聚类簇 的所述第一候选簇作为所述第三待聚类簇所属的所述第三簇的第二候 选簇。

具体地,在第三次聚类过程中,对于两个第二簇(即第三待聚类簇 和第四待聚类簇)之间第五相似度小于或者等于所述第三聚类阈值,且 大于第二候选阈值的情况,将两个第二簇中包含文章较少的第二簇(即 第四待聚类簇)作为另一个包含文章较多的第二簇(即第一待聚类簇) 所属的第三簇的第二候选簇。并将第二簇的第一候选簇作为第二簇所属 的第三簇的第二候选簇,即将第四待聚类簇的第一候选簇作为第四待聚 类簇所属的第三簇的第二候选簇,并且将第三待聚类簇的第一候选簇作 为第三待聚类簇所属的第三簇的第二候选簇。

步骤S1303、S1403和S1404的目的在于获取第三簇的第二候选簇, 即获取同一作者实体的第二候选簇,以供用户认领,进一步提高召回率 和准确率。

优选地,本实施例的通过计算机实现的学术文章处理方法还可包括: 根据文章的所述合作者特征和所述第二语义特征对所述第三簇的多个 所述第二候选簇进行聚类,得到多个所述第三簇的认领候选簇。

具体地,在第三次聚类完成后,部分第三簇可能具有多个第二候选 簇,但如果给用户提供多个第二候选簇,每个第二候选簇中文章数量较 少的话,会给用户带来较大的负担。本步骤的目的在于对每个第三簇的 多个第二候选簇进行合并,以为用户提供较少数量的认领候选簇,每个 认领候选簇中文章数量尽可能多并且保证准确。本步骤中相似度的计算 基于同一第三簇的两个第二候选簇中的文章的合作者特征(第二次聚类 中用到过)和第二语义特征(第三次聚类中用到过)。分别计算同一第 三簇的两个第二候选簇之间合作者特征的相似度和第二语义特征的相 似度,并为合作者特征和第二语义特征分别设定对应的权重,根据同一 第三簇的两个第二候选簇之间合作者特征的相似度和第二语义特征的 相似度以及对应的权重计算同一第三簇的两个第二候选簇之间的相似 度,例如余弦相似度。如果同一第三簇的两个第二候选簇之间相似度的 值大于聚类阈值,则将这两个第二候选簇中包含文章数较少的第二候选 簇聚到另一个包含文章数较多的第二候选簇中。如果两个第二候选簇分 别与某一第二候选簇之间相似度的值大于聚类阈值,则无论这两个第二 候选簇之间相似度的值是否大于聚类阈值,都将这两个第二候选簇与所 述某一第二候选簇聚到一个簇中。将对第三簇的多个第二候选簇经过前 述聚类处理后得到的多个第二候选簇作为所述第三簇的认领候选簇。

优选地,本实施例的通过计算机实现的学术文章处理方法还可包括: 如果所述第三簇具有认领候选簇,则为所述认领候选簇分别设定唯一的 认领候选簇标识,并且为所述认领候选簇中的文章标注其所属的认领候 选簇的认领候选簇标识,并且为所述第三簇存储其所述认领候选簇的认 领候选簇标识。

具体地,为所述第三簇的认领候选簇中的文章标注其所属的认领候 选簇的认领候选簇标识,并且为所述第三簇存储其所述认领候选簇的认 领候选簇标识,一方面在用户想要获取与特定文章对应的作者实体相同 的其他文章时,根据第三簇的簇标识获取其认领候选簇的认领候选簇标 识,并根据认领候选簇标识获取标注有所述认领候选簇标识的文章即获 取特定文章所属的第三簇的认领候选簇中的文章,实现向用户展示特定 文章对应的作者实体的全部认领候选文章。

实施例二

图2是示出本发明示例性实施例学术文章的搜索处理方法的流程示 意图。

参照图2,本实施例的学术文章的搜索处理方法具体包括:

在步骤S210,将用户用于学术文章的搜索词发送给服务器。

在步骤S220,从所述服务器接收多条学术文章搜索结果条目,所述 学术文章搜索结果条目包括文章标题、作者信息以及所述文章对应的簇 标识。

具体地,作者信息可包括作者姓名、作者所属机构等。所述簇标识 即实施例一中的第三簇的簇标识。

在步骤S230,在用户界面上显示所述学术文章搜索结果条目;

在步骤S240,响应于用户在所述用户界面上对所述作者信息的操作, 将特定文章对应的簇标识发送至服务器。

具体地,特定文章即用户所述操作对应的文章,也即用户感兴趣的 文章。

在步骤S250,从所述服务器接收与所述特定文章对应的簇标识对应 的簇中的文章。

具体地,与所述特定文章对应的簇标识对应的簇中的文章,即实施 例一中标注有所述特定文章对应的第三簇簇标识的文章,也即根据实施 例一的方法得到的与所述特定文章的作者实体相同的文章。

在步骤S260,在所述用户界面上显示所述簇中的文章。

本发明实施例的学术文章的搜索处理方法中,学术文章搜索结果条 目中的簇标识以及与特定文章对应的簇标识对应的簇中的文章基于上 述实施例一中为文章标注的第三簇的簇标识得到。

优选地,本实施例的学术文章的搜索处理方法还可包括:从所述服 务器接收与认领候选簇标识对应的认领候选簇中的文章,所述认领候选 簇标识为与所述特定文章对应的簇标识对应的认领候选簇标识。在所述 用户界面上显示所述认领候选簇中的文章。

具体地,参见实施例一中的相关描述,根据第三簇的簇标识获取对 应的认领候选簇标识,根据认领候选簇标识获取标注有认领候选簇标识 的文章。

实施例三

图3是示出本发明示例性实施例学术文章的搜索处理方法的流程示 意图。

参照图3,本实施例的学术文章的搜索处理方法具体包括:

在步骤S310,从客户端接收用户用于学术文章的搜索词。

在步骤S320,根据所述搜索词获取与所述搜索词对应的多条学术文 章搜索结果条目,所述学术文章搜索结果条目包括文章标题、作者信息 以及所述文章对应的簇标识。

具体地,作者信息可包括作者姓名、作者所属机构等。所述簇标识 即图1所示实施例中的第三簇的簇标识。

在步骤S330,向所述客户端发送所述多条学术文章搜索结果条目。

在步骤S340,从所述客户端接收特定文章对应的簇标识。

具体地,特定文章即用户在客户端的操作对应的文章,也即用户感 兴趣的文章。

在步骤S350,根据所述特定文章对应的簇标识获取与所述特定文章 对应的簇标识对应的簇中的文章。

具体地,与所述特定文章对应的簇标识对应的簇中的文章,即实施 例一中标注有所述特定文章对应的第三簇簇标识的文章,也即根据实施 例一的方法得到的与所述特定文章的作者实体相同的文章。

在步骤S360,将所述簇中的文章发送至所述客户端。

本发明实施例的学术文章的搜索处理方法中,学术文章搜索结果条 目中的簇标识以及与特定文章对应的簇标识对应的簇中的文章基于上 述实施例一中为文章标注的第三簇的簇标识得到。

优选地,本实施例的学术文章的搜索处理方法还可包括:根据所述 特定文章对应的簇标识获取与所述特定文章对应的簇标识对应的认领 候选簇标识。根据所述认领候选簇标识获取与所述认领候选簇标识对应 的认领候选簇中的文章。将所述认领候选簇中的文章发送至所述客户端。

具体地,参见实施例一中的相关描述,根据第三簇的簇标识获取对 应的认领候选簇标识,根据认领候选簇标识获取标注有认领候选簇标识 的文章。

实施例四

图4是示出本发明示例性实施例用于学术文章处理的装置的结构示 意图。

参照图4,本实施例的用于学术文章处理的装置可执行实施例一的 通过计算机实现的学术文章处理方法。本实施例的用于学术文章处理的 装置具体包括:文章获取单元410、第一聚类单元420、第二聚类单元 430和第三聚类单元440。

文章获取单元410用于获取作者姓名特征相同的多篇文章。

第一聚类单元420用于根据文章的作者所属机构特征对所述多篇文 章进行聚类,得到多个第一簇。

第二聚类单元430用于根据文章的合作者特征和第一语义特征对所 述多个第一簇进行聚类,得到多个第二簇。

第三聚类单元440用于根据文章的所述作者所属机构特征和第二语 义特征对所述多个第二簇进行聚类,得到多个第三簇,所述第二语义特 征的集合为所述第一语义特征的集合的子集。

进一步地,所述合作者特征包括至少一个以下特征:合作者姓名特 征和合作者所属机构特征,并且所述第一语义特征包括至少一个以下特 征:发表期刊名特征、发表会议名特征、文章标题特征和文章关键词特 征。

优选地,所述装置还包括:簇标识标注单元,用于为所述第三簇分 别设定唯一的簇标识,并且为所述第三簇中的文章标注其所属的所述第 三簇的簇标识。

优选地,第二聚类单元430具体用于:对于所述多个第一簇当中的 第一待聚类簇和第二待聚类簇,其中,所述第一待聚类簇中文章的数量 大于所述第二待聚类簇中文章的数量,执行如下聚类处理:分别计算所 述第一待聚类簇和所述第二待聚类簇之间所述合作者特征的第一相似 度和所述第一语义特征的第二相似度,根据所述第一相似度的值和所述 第二相似度的值计算所述第一待聚类簇和所述第二待聚类簇之间的第 三相似度,如果所述第三相似度的值大于第一聚类阈值,则将所述第二 待聚类簇聚类到所述第一待聚类簇中。将对所述多个第一簇经过前述聚 类处理后得到的多个所述第一待聚类簇和所述第二待聚类簇作为所述 多个第二簇。

优选地,第三聚类单元440具体用于:对于所述多个第二簇当中的 第三待聚类簇和第四待聚类簇,其中,所述第三待聚类簇中文章的数量 大于所述第四待聚类簇中文章的数量,执行如下聚类处理:计算所述第 三待聚类簇和所述第四待聚类簇之间所述作者所属机构特征的第四相 似度,当所述第四相似度的值大于第二聚类阈值时,计算所述第三待聚 类簇和所述第四待聚类簇之间所述第二语义特征的第五相似度,如果所 述第五相似度的值大于第三聚类阈值,则将所述第四待聚类簇聚类到所 述第三待聚类簇中。将对所述多个第二簇经过前述聚类处理后得到的多 个所述第三待聚类簇和所述第四待聚类簇作为所述多个第三簇。

优选地,第二聚类单元430还用于:如果所述第三相似度的值小于 或者等于所述第一聚类阈值,且大于第一候选阈值,则将所述第二待聚 类簇作为所述第一待聚类簇所属的所述第二簇的第一候选簇。

优选地,第三聚类单元440还用于:如果所述第五相似度的值小于 或者等于所述第三聚类阈值,且大于第二候选阈值,则将所述第四待聚 类簇作为所述第三待聚类簇所属的所述第三簇的第二候选簇。将所述第 四待聚类簇的所述第一候选簇作为所述第四待聚类簇所属的所述第三 簇的第二候选簇,并且将所述第三待聚类簇的所述第一候选簇作为所述 第三待聚类簇所属的所述第三簇的第二候选簇。

优选地,所述装置还包括:第四聚类单元,用于根据文章的所述合 作者特征和所述第二语义特征对所述第三簇的多个所述第二候选簇进 行聚类,得到多个所述第三簇的认领候选簇。

优选地,所述装置还包括:认领候选簇标识标注单元,用于如果所 述第三簇具有认领候选簇,则为所述认领候选簇分别设定唯一的认领候 选簇标识,并且为所述认领候选簇中的文章标注其所属的认领候选簇的 认领候选簇标识,并且为所述第三簇存储其所述认领候选簇的认领候选 簇标识。

进一步地,所述第二语义特征具体可包括至少一个以下特征:所述 文章标题特征和所述文章关键词特征。

本发明实施例的用于学术文章处理的装置,根据文章的作者所属机 构特征对作者姓名特征相同的多篇文章进行第一次聚类,根据文章的合 作者特征和第一语义特征对第一次聚类得到的多个第一簇进行第二次 聚类,根据文章的作者所属机构特征和第二语义特征对第二次聚类得到 的多个第二簇进行聚类,得到多个第三簇。每个第三簇中的文章即召回 的某个作者实体的文章,将每篇文章与某个作者实体对应,提高了对应 一个作者实体的文章的准确率和召回率。

实施例五

图5是示出本发明示例性实施例用于学术文章的搜索处理装置的结 构示意图。

参照图5,本实施例的用于学术文章的搜索处理装置可执行实施例 二的学术文章的搜索处理方法。本实施例的用于学术文章的搜索处理装 置具体包括:搜索词发送单元510、搜索结果条目接收单元520、搜索 结果条目显示单元530、簇标识发送单元540、簇文章接收单元550和 簇文章显示单元560。

搜索词发送单元510用于将用户用于学术文章的搜索词发送给服务器。

搜索结果条目接收单元520用于从所述服务器接收多条学术文章搜 索结果条目,所述学术文章搜索结果条目包括文章标题、作者信息以及 所述文章对应的簇标识。

搜索结果条目显示单元530用于在用户界面上显示所述学术文章搜 索结果条目。

簇标识发送单元540用于响应于用户在所述用户界面上对所述作者 信息的操作,将特定文章对应的簇标识发送至服务器。

簇文章接收单元550用于从所述服务器接收与所述特定文章对应的 簇标识对应的簇中的文章。

簇文章显示单元560用于在所述用户界面上显示所述簇中的文章。

优选地,本实施例的搜索处理装置还包括:认领候选簇文章接收单 元,用于从所述服务器接收与认领候选簇标识对应的认领候选簇中的文 章,所述认领候选簇标识为与所述特定文章对应的簇标识对应的认领候 选簇标识。认领候选簇文章显示单元,用于在所述用户界面上显示所述 认领候选簇中的文章。

本发明实施例的用于学术文章的搜索处理装置中,学术文章搜索结 果条目中的簇标识以及与特定文章对应的簇标识对应的簇中的文章基 于上述实施例四中为文章标注的第三簇的簇标识得到。

实施例六

图6是示出本发明示例性实施例用于学术文章的搜索处理装置的结 构示意图。

参照图6,本实施例的用于学术文章的搜索处理装置可执行实施例 三的学术文章的搜索处理方法。本实施例的用于学术文章的搜索处理装 置具体包括:搜索词接收单元610、搜索结果条目获取单元620、搜索 结果条目发送单元630、簇标识接收单元640、簇文章获取单元650和 簇文章发送单元660。

搜索词接收单元610用于从客户端接收用户用于学术文章的搜索词。

搜索结果条目获取单元620用于根据所述搜索词获取与所述搜索词 对应的多条学术文章搜索结果条目,所述学术文章搜索结果条目包括文 章标题、作者信息以及所述文章对应的簇标识。

搜索结果条目发送单元630用于向所述客户端发送所述多条学术文 章搜索结果条目。

簇标识接收单元640用于从所述客户端接收特定文章对应的簇标识。

簇文章获取单元650用于根据所述特定文章对应的簇标识获取与所 述特定文章对应的簇标识对应的簇中的文章。

簇文章发送单元660用于将所述簇中的文章发送至所述客户端。

优选地,本实施例的搜索处理装置还包括:认领候选簇标识获取单 元,用于根据所述特定文章对应的簇标识获取与所述特定文章对应的簇 标识对应的认领候选簇标识。认领候选簇文章获取单元,用于根据所述 认领候选簇标识获取与所述认领候选簇标识对应的认领候选簇中的文 章。认领候选簇文章发送单元,用于将所述认领候选簇中的文章发送至 所述客户端。

本发明实施例的用于学术文章的搜索处理装置中,学术文章搜索结 果条目中的簇标识以及与特定文章对应的簇标识对应的簇中的文章基 于上述实施例四中为文章标注的第三簇的簇标识得到。

需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为 更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤, 以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存 储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软 件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质 或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码, 从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编 程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。 可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储 或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等), 当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现 在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处 理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理 的专用计算机。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本 发明的保护范围应以所述权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号