首页> 中国专利> 作者的兴趣主题的分析方法、装置、电子设备及存储介质

作者的兴趣主题的分析方法、装置、电子设备及存储介质

摘要

本申请实施例提供了一种作者的兴趣主题的分析方法、装置、电子设备及存储介质,涉及信息分析技术领域。该方法包括:获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重,每个单词在文献中表达的主题以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题,根据作者在相关文献负责的内容所表达的主题,确定作者的兴趣主题。本申请实施例能够考虑每一位共同作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,合理反映科研人员的兴趣主题,有助于发掘学科领域的研究热点及趋势,并推进个性化学术研究。

著录项

  • 公开/公告号CN112765305A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202011625275.6

  • 发明设计人 徐硕;李玲;翟东升;

    申请日2020-12-31

  • 分类号G06F16/31(20190101);G06F40/284(20200101);

  • 代理机构11330 北京市立方律师事务所;

  • 代理人张筱宁

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本申请涉及信息分析技术领域,具体而言,本申请涉及一种作者的兴趣主题的分析方法、装置、电子设备及存储介质。

背景技术

如今科技文献作为学术成果的主要载体,凝聚了人类的大量智慧,是传播知识、进行学术交流的窗口,其中,科研文献资源包含大量的特征信息,例如单词与单词之间的潜在语义关系、科研文献主题与作者的关系(作者的研究兴趣)、研究热点的兴起、成熟到衰退的过程等。

现在技术在科技工作者研究兴趣挖掘方面,Rosen-Zvi等人在LDA(LatentDirichlet Allocation,潜在狄利克雷分布)模型中引入作者隐变量,用作者-主题分布取代LDA模型中文档-主题分布,提出了AT(Author-Topic,作者-主题)模型。该模型可以挖掘作者与主题之间的联系,即科研人员的研究兴趣。

然而,AT模型及其他类似模型在建模作者兴趣时,假设文献中每个作者的贡献相同,这与实际情况不符,不能准确分析各个作者的兴趣主题。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的作者的兴趣主题的分析方法、装置、电子设备及存储介质。

第一方面,提供了一种作者的兴趣主题的分析方法,该方法包括:

获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重;贡献权重为作者的贡献值的归一化结果;

对于每一篇文献,确定文献中每个单词在文献中表达的主题,以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题;

对于每个作者,从至少一篇文献中确定作者负责的相关文献,获取作者在相关文献负责的内容所表达的主题,以确定作者的兴趣主题。

进一步地,确定文献中每个作者的贡献权重,包括:

获取文献中作者和每个作者的贡献值;

根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重;

将文献中每个作者的初始权重进行归一化,得到文献中每个作者的最终权重。

进一步地,根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重,包括:

若文献中作者的数量没有超过预设数量值,则根据文献中每个作者的贡献值对文献中作者进行降序排列,获得文献中每个作者的排序结果;

根据每个作者排序结果,按照预设的权重算法计算得到每个作者的初始权重。

进一步地,根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重,还包括:

若文献中作者的数量超过预设数量值,则根据文献中每个作者的贡献值对文献中作者进行降序排列,获得文献中每个作者的排序结果;

当作者的排序结果小于或等于预设数量值时,则根据作者的排序结果中小于或等于预设数量值的作者的排序结果,按照预设的权重算法计算得到排序结果小于或等于预设数量的作者的初始权重;

当作者的排序结果大于预设数量值时,则将第一作者的初始权重的预设倍数作为所有排序结果大于预设数量值的作者的初始权重;

第一作者为文献中排序结果为第一的作者。

进一步地,确定文献中每个单词在文献中表达的主题,包括:

对文献中的所有单词分配预设数量的主题,在每次对文献中的所有单词分配主题完成后,对于文献中的任意一个单词,根据单词在文档中出现的个数、单词在本次分配主题后、在文档中被分配至目标主题的个数以及文档中被分配为目标主题的单词的个数,计算单词在下一次分配主题时被分配至目标主题以及除目标主题之外的其他主题的概率;

根据单词在下一次分配主题时被分配至目标主题以及除目标主题之外的其他主题的概率,对该单词进行下一次分配主题,直至分配次数达到预设阈值;

获取单词在分配次数达到预设阈值时被分配的主题;

其中,目标主题为单词在本次分配中第一次出现时所分配的主题。

进一步地,确定文献中每个作者负责的单词,包括:

对文献中的所有单词分配预设次数的作者,在每次对文献中的所有单词分配作者完成后,对于文献中的任意一个单词,根据单词在文档中出现的个数、单词在本次分配作者后、在文档中被分配至目标作者的个数以及文档中被分配为目标作者的单词的个数,计算单词在下一次分配作者时被分配至目标作者以及除目标作者之外的其他作者的概率;

根据单词在下一次分配作者时被分配至目标作者以及除目标作者之外的其他作者的概率,对该单词进行下一次分配作者,直至分配次数达到预设阈值;

获取单词在分配次数达到预设阈值时被分配的作者;

其中,目标作者为单词在本次分配中第一次出现时所分配的作者。

进一步地,根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者负责的内容所表达的主题,包括:

对于文献中任意一个作者,根据作者的最终权重,选取单词在文献中表达的主题和文献中作者负责的单词;

将作者负责的单词作为目标单词,根据目标单词在文献中表达的主题,确定作者在文献中表达的主题。

进一步地,从至少一篇文献中确定作者负责的相关文献,获取作者在相关文献负责的内容所表达的主题,以确定作者的兴趣主题,包括:

获取作者负责的相关文献,确定作者在相关文献负责的内容所表达的主题;

根据作者所表达的主题,确定作者所表达的主题中作者的兴趣主题;

根据作者的兴趣主题在作者负责的相关文献中出现次数,计算作者的兴趣主题出现的概率,将概率超过预设概率值的主题作为作者的兴趣主题。

第二方面,提供了一种作者的兴趣主题的分析装置,包括:

第一获取模块,用于获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重;贡献权重为作者的贡献值的归一化结果;

确定模块,用于对于每一篇文献,确定文献中每个单词在文献中表达的主题,以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题;

第二获取模块,用于对于每个作者,从至少一篇文献中确定作者负责的相关文献,获取作者在相关文献负责的内容所表达的主题,以确定作者的兴趣主题。

第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面所提供的方法的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的作者的兴趣主题的分析方法、装置、电子设备及存储介质,通过获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重,每个单词在文献中表达的主题以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题,根据作者在相关文献负责的内容所表达的主题,确定作者的兴趣主题。本申请实施例能够考虑每一位共同作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,合理反映科研人员的兴趣主题,有助于发掘学科领域的研究热点及趋势,并推进个性化学术研究。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的不同作者数目的文献分布示意图;

图2为本申请实施例提供的一种作者的兴趣主题的分析方法的流程示意图;

图3为本申请实施例提供的文献中单词分布示意图;

图4为本申请实施例提供的一次单词的主题分配的示意图;

图5为本申请实施例提供的迭代处理完成后的单词的主题分配示意图;

图6为本申请实施例提供的一次单词的作者分配示意图;

图7为本申请实施例提供的迭代处理完成后单词的作者分配示意图;

图8为本申请实施例提供的作者兴趣揭示模型示意图;

图9为本申请实施例提供的一种作者的兴趣主题的分析装置的结构示意图;

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请提供的一种作者的兴趣主题的分析方法、装置、电子设备及存储介质,旨在解决现有技术的如上技术问题。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

首先,本申请可应用在各种科研文献探索场景中,例如:数据挖掘、机器学习、情报分析、相关政策制定、个性化学术推荐、作者科学评价等,如今科技文献作为学术成果的主要载体,凝聚了人类的大量智慧,是传播知识、进行学术交流的窗口。普赖斯科技文献指数增长定律和逻辑曲线增长模型表明科技文献量正呈指数级增长,这更给科学知识/主题的探测与跟踪带来了巨大的挑战。科技文献资源包含大量的隐含信息,如词与词之间的潜在语义关系和文献主题与作者的关系(作者的研究兴趣)等,可以在一定程度上反映当前学科领域的研究热点及趋势。有研究表明,自动揭示文献的主题以及挖掘作者研究兴趣,将会对科研工作者、学术交流平台乃至科研管理机构起到良好的支撑作用。

在科技工作者研究兴趣挖掘方面,Rosen-Zvi等人在LDA(Latent DirichletAllocation,潜在狄利克雷分布)模型中引入作者隐变量,用作者-主题分布取代LDA模型中文档-主题分布,提出了AT(Author-Topic,作者-主题)模型。该模型可以挖掘作者与主题之间的联系,即科研人员的研究兴趣。信息时代科学技术快速发展,科学研究的形式从个人式研究逐渐转变为多方协作的群体式研究,具体表现在阐述科研成果的科技论文作者数目不断攀升。众所周知,对于绝大多数科研成果,每个作者的贡献是不同的。然而,AT及其他类似模型在建模作者兴趣时,隐式地嵌入了等同贡献的假设。

图1为本申请实施例提供的不同作者数目的文献分布示意图,如图1所示,可知一篇文献中普遍由2-5个作者共同负责完成,可见多作者署名学术文献的普遍性,多作者共同负责一篇文献,需要确定每个作者在该文献中的贡献权重,才能更清楚分析每个作者的兴趣主题。

本申请在作者兴趣揭示的过程中,引入了贡献权重分配机制,在考虑每一位作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,对个性化学术推荐系统,学者的招募晋升及科研奖励和资金分配提供更加科学的决策支持。具体来说,本发明在AT模型的基础上,提出了一种引入贡献权重分配机制的作者兴趣揭示模型,命名为AT

应当理解,本申请提供的作者的兴趣主题的分析方法可以应用于任何具有分析作者的兴趣主题的功能的计算机或是系统中,例如:分析生物科学领域作者的兴趣主题,在科技工作者研究兴趣挖掘方面,Rosen-Zvi等人在LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)模型中引入作者隐变量,用作者-主题分布取代LDA模型中文档-主题分布,提出了AT(Author-Topic,作者-主题)模型。该模型可以挖掘作者与主题之间的联系,即科研人员的研究兴趣。信息时代科学技术快速发展,科学研究的形式从个人式研究逐渐转变为多方协作的群体式研究,具体表现在阐述科研成果的科技论文作者数目不断攀升。众所周知,对于绝大多数科研成果,每个作者的贡献是不同的。然而,AT及其他类似模型在建模作者兴趣时,隐式地嵌入了等同贡献的假设。

本申请在作者兴趣揭示的过程中,引入了贡献权重分配机制,在考虑每一位作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,对个性化学术推荐系统,学者的招募晋升及科研奖励和资金分配提供更加科学的决策支持。具体来说,本发明在AT模型的基础上,提出了一种引入贡献权重分配机制的作者兴趣揭示模型,命名为AT

为了解决上述问题,本申请实施例提供了一种作者的兴趣主题的分析方法。下面结合附图,通过具体的实施例及其他应用场景对本申请实施例提供的作者的兴趣主题的分析方法进行详细地说明,图2为本实施例提供的一种作者的兴趣主题的分析方法的流程示意图,如图2所示,该方法包括:

S201、获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重。

本实施例中获取目标文献以及目标文献的相关信息,可以通过计算机来采集,或是通过互联网搜索官方统计的文献,选取目标领域的文献和目标文献涉及的作者署名以及目标文献中各个作者的贡献值,例如:可以采用2018-2019年新兴技术预测竞赛组织方提供的SynBio数据集,经统计,该数据集中包括2580篇学术论文,都是涉及生物领域的科研文献,然后收集各个文献的作者署名,以及每篇文献中各个作者的贡献权重。

S202、对于每一篇文献,确定文献中每个单词在文献中表达的主题,以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题。

本申请实施例在获取目标领域的文献后,需要对文献进行预处理,过滤停用词,保留剩下的单词,并确定文献的作者,根据作者的信息,分析计算得到每个作者在这篇文献中的贡献权重,利用预设的作者主题模型分析文献中每个单词在文献中表达的主题,以及文献中每个作者负责的单词,并根据每个作者的权重,对作者分配的单词和单词的主题进行采样分析,确定每个作者在文献中表达的主题。例如:一篇文献由两个作者共同负责,其中主要由张三负责,张三的权重占80%,李四的权重占20%,在分析单词的主题和单词的作者时,需要通过权重的比例进行采样,则与张三关联的单词和该单词关联的主题被采样的机率更高,通过高概率的采样分析,从而确定张三在该篇文献中表达的主题。与李四关联的单词和该单词关联的主题被采样的机率相对不高,但是也能够确定在该篇文献中表达的主题。

具体的,对目标文献进行分词处理并过滤预设词汇,得到处理后的文本信息;对目标文献的相关信息进行处理,得到目标文献中作者姓名列表和各个作者权重;

本实施例中在收集目标文献后,需要对目标文献进行预处理,即去除目标文献中冗余信息及停用词、句子切分等,预处理完成后得到清洗后的文本信息,例如:在收集目标文献后,首先需要将目标文献中的句子进行切分,切分成一个个单词,然后过滤掉这些字符中的停用字符、数字和低于预设频率的字符,其中滤除方法包括根据预先构建的停用词词表进行比对,判定哪些词是停用词,例如:英文中的“first、and、but”这些词就是停用词,然后剔除,但是有时候“and”并不是停用词,需要通过一些复杂的分析进行判定,比如根据上下语境进行判断,预处理完文献后,形成文本信息,这个文本信息中包含了未被处理的单词,也可以形成词典。

根据目标文献的相关信息进行处理,即对目标领域每篇文献中的作者署名进行消歧,区分不同文献相同名字的作者是否是同一人,并重新确定目标文献中署名的作者人数,根据目标文献中作者的数量和各个作者的贡献权重进行计算,确定目标文献中每个作者的权重,例如两篇文献,一名男性作者名为张三在第一篇文献中署名,另一名女性作者也名为张三在第二篇文献中署名,须确定这两个名为张三的作者是否为同一人,若为同一人则进行消歧。

S203、对于每个作者,从至少一篇文献中确定作者负责的相关文献,获取作者在相关文献负责的内容所表达的主题,以确定作者的兴趣主题。

本申请实施例需要确定作者的兴趣主题,需要收集作者相关的其它文献,根据作者在其他文献中表达的主题,进行分析,选取作者表达的主题出现概率最大的,作为该作者感兴趣的主题;例如:作者A在第一篇文献里表达了主题1,在第二篇文献里表达了主题2,主题1和主题2是两个不同的主题,为了确定作者A感兴趣的主题,还需要收集更多与该作者相关的文献,通过作者在文献中表达的主题,统计主题出现的概率,将概率超过预设阈值的主题作为作者的兴趣主题。本申请实施例提供的作者的兴趣主题的分析方法、装置、电子设备及存储介质,通过获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重,每个单词在文献中表达的主题以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题,根据作者在相关文献负责的内容所表达的主题,确定作者的兴趣主题。本申请实施例能够考虑每一位作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,合理反映科研人员的兴趣主题,有助于发掘学科领域的研究热点及趋势,并推进个性化学术研究。

在上述实施例的基础上,作为一种可选实施例,确定文献中每个作者的贡献权重,包括:

获取文献中作者和每个作者的贡献值;

根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重;

将文献中每个作者的初始权重进行归一化,得到文献中每个作者的最终权重。

本申请实施例在获取目标文献的相关信息后,需要对相关信息进行处理,其中需要对负责目标文献中的作者进行消歧处理,因为目标文献中存在相同姓名的作者,需要区分该相同姓名的作者是否是同一个人,本申请实施例采用的方法包括但不限于基于规则的打分聚类法,还可以用人工消歧法,自动消歧法等。

例如基于规则的打分聚类法是用于判断不同的目标文献中相同名字的作者是不是同一个人,比如:A作者和B作者名字相同,他们在不同的文献中作为作者签署了自己的名字,这时需要分辨这些相同的名字指的是同一个人还是不同的人。基于规则的打分聚类法主要根据几种判断规则进行判断识别,这几种判断规则包括,规则1:根据文献中记载的作者的邮箱,若作者的邮箱是一样的,则可以确定为同一个人,若邮箱不一样,则判定不是同一个人,若作者名字相同但是邮箱不一样,则再根据文献记载的作者的工作地址进行判断,若记载的工作地址相同,则是同一个人的可能性就比较大,规则2:还可以根据这两个人经常合作的合作者进行判别,可能有几个作者经常一起合作,如果这两个人的合作者出现重叠,那么这两人就有可能是同一个人,还存在的可能情况,有些作者喜欢引用自己的参考文献,如果两个名字一样的人引用的参考文献一致都引用了自己的文献,则这两个人可能就是同一个人,基于这些规则,给每个规则的相似度进行打分,例如根据邮箱判定,若邮箱相同,则相似度较高,给打100分,如果两人的邮箱不一样,工作单位是一样,确定相似的可能不高,给打80分,根据这些判别规则的相似度进行评分,两两作者之间基于规则累积分数,根据累积分数的数值确定是不是同一个人,如果分数较高,则这两个人是同一个人,比如:所有叫张XX的人(将相同名字的人)形成一个表格,对每个人的信息进行具体分析,根据上述规则进行聚类分析,将聚在一起的相同姓名确定为是同一人,另外聚在一起的相同姓名的人也是另一个人,消歧处理后得到由作者组成的作者集合,并重新确定目标文献中署名负责的作者数量,便于后续确定各个作者的权重。

本申请实施例在获取目标文献的相关信息后,需要对相关信息进行处理,即消除具有歧义的作者,并确定目标文献中署名负责的作者数量,有利于确定各个作者的贡献权重,便于分析各个作者的负责内容,避免因同名作者造成不必要的困扰。

本申请实施例在确定目标文献中作者的数量后,需要根据目标文献中各个作者贡献大小,将目标文献中所有作者进行排序,然后利用预设的贡献权重算法,估计文献中各个作者的贡献权重,贡献权重算法包括但不限于算术计数法、几何计数法、调和计数法、基于网络的计数法、公理计数法、黄金数计数法,随机选择其中一种贡献权重算法进行计算。

算术计数法:该方法即作者署名列表中合著者按降序线性分配贡献分数。相邻两位合著者间的贡献差值为

几何计数法:该方法即作者署名列表中合著者的贡献分数形成一个几何级数。相邻两位合著者间的贡献比值为λ(λ≥1)。

调和计数法:作者署名列表中各合著者的贡献权重为

基于网络的计数法:该方法由两步组成,第一步为分数计数方法,即

公理计数法:该方法将作者划分为G

黄金数计数法:该方法借助黄金数

进一步,该方法带有参数λ(λ∈[0,1])的计算方式为:

此外,对于一篇论文存在多个贡献相同的第一作者或通讯作者的情况,在应用上述贡献计算方法之前(除公理计数法),我们将这些合著者均视为第一作者,进行合著者重新排序并计算贡献权重,其贡献权重取平均值。

在上述实施例的基础上,作为一种可选实施例,根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重,包括:

若文献中作者的数量没有超过预设数量值,则根据文献中每个作者的贡献值对文献中作者进行降序排列,获得文献中每个作者的排序结果;

根据每个作者排序结果,按照预设的权重算法计算得到每个作者的初始权重。

本申请实施例在进行计算权重之前,根据目标文献中的作者贡献大小进行排序,目标文献中贡献最多的作者排在第一位,其中目标文献存在贡献大小相同的作者,则需要将这些贡献相同的作者排在一起,随机设置先后顺序,目标文献作者排序好后,再根据目标文献中各个作者的排序位置利用贡献权重算法计算作者的初始权重,其中原记载贡献大小相同的作者,需要将这些作者的初始权重相加求和,再平均分配给参与求和的作者,在计算出各个作者的初始权重后,还需要再进行归一化处理,因为通过贡献权重算法计算得到的作者的初始权重相加之和大于1,因此需要计算出各个作者的最终权重,归一化处理就是将目标文献中所有作者的初始权重相加求和,该和值作为分母,目标文献任意作者的初始权重作为分子,最终求得的数值为目标文献中该作者的最终贡献权重。

预设的权重算法本申请实施例中以调和计数法为例进行分析,其中i是根据贡献大小排序过后的作者序号,即排序结果,λ为自由参数,一般情况下取无穷大,便于计算,假设本文献署名作者有五个人,排序后的第一作者的初始权重为1,第二作者的权重为二分之一,第三作者的权重为三分之一,以此计算,计算完所有作者的初始权重后,需要进行归一化,计算作者最终权重,将所有权重进行求和并作为分母得到

本申请实施例在确定目标文献中作者数量后,根据目标文献中作者贡献大小的利用贡献权重算法计算目标文献中各个作者的权重,实现了获知目标文献中每个作者的贡献权重,提高了目标文献中各个作者贡献权重分配的准确性,有助于后续作者的兴趣主题的分析。

在上述实施例的基础上,作为一种可选实施例,根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重,还包括:

若文献中作者的数量超过预设数量值,则根据文献中每个作者的贡献值对文献中作者进行降序排列,获得文献中每个作者的排序结果;

当作者的排序结果小于或等于预设数量值时,则根据作者的排序结果中小于或等于预设数量值的作者的排序结果,按照预设的权重算法计算得到排序结果小于或等于预设数量的作者的初始权重;

当作者的排序结果大于预设数量值时,则将第一作者的初始权重的预设倍数作为所有排序结果大于预设数量值的作者的初始权重;

第一作者为文献中排序结果为第一的作者。

本申请实施例在确定目标文献中作者的数量后,需要判断目标文献中作者的数量是否超过预设数量值,若超过预设数量值,则称为超级合著者,对于拥有超级合著者的论文(即合著者大于预设数值),该论文合著者贡献权重需要进行重新分配,相应方式如下:

c

本申请实施例需要根据文献中作者的数量分析作者的贡献权重,当作者的数量较多超出了预设数量值,如果还根据作者贡献值进行排序,计算贡献权重,则排位靠后的作者的权重可能比较小,为了使每个作者都能凸显出来,将第一作者的贡献权重的预设倍数作为超出部分作者的贡献权重,使每位作者都能够参与主题分析,凸显自己想表达的主题。

本申请实施例采用吉布斯采样算法公式计算目标文献m中第n个单词的主题z

吉布斯采样算法如下所示:

其中,Pr表示计算条件概率,

图3为本申请实施例提供的文献中单词分布示意图,如图3所示,文献1中有4个bank单词、6个money单词、6个loan单词以及其他单词,文献2中有5个bank单词、7个money单词、4个loan单词以及其他单词,这只是样本示意图,文献中的单词还有很多,由此可知在进行主题分配之前,需要先确定单词的个数,也可以将相同的单词分在一起,便于统计。

在上述实施例的基础上,作为一种可选实施例,确定文献中每个单词在文献中表达的主题,包括:

对文献中的所有单词分配预设次数的主题,在每次对文献中的所有单词分配主题完成后,对于文献中的任意一个单词,根据单词在文档中出现的个数、单词在本次分配主题后、在文档中被分配至目标主题的个数以及文档中被分配为目标主题的单词的个数,计算单词在下一次分配主题时被分配至目标主题以及除目标主题之外的其他主题的概率;

根据单词在下一次分配主题时被分配至目标主题以及除目标主题之外的其他主题的概率,对该单词进行下一次分配主题,直至分配次数达到预设阈值;

获取单词在分配次数达到预设阈值时被分配的主题;

其中,目标主题为单词在本次分配中第一次出现时所分配的主题。

图4为本申请实施例提供的一次单词的主题分配的示意图,如图4所示,假设主题有主题1和主题2,给单词bank分配的都是主题1,给单词money分配的主题有主题1和主题2。具体的,本申请实施例需要确定单词所要表达的主题,就要对单词分配主题,进行迭代处理,使计算概率处于收敛,则可以确定该单词的主题是什么。在一般情况下,文献被预处理进行单词切分后,并不知道每个单词想要表达的主题,则需要进一步分析,首先,需要确定单词的数量和主题的种类和数量,然后将随机分配给这些单词一个主题,第一次分配为初始化,使每个单词都分配了主题,进行第二次主题的分配,第二次分配单词的主题是根据计算主题的概率进行分配,以图4为例,第一个单词bank第一次被分配主题1,统计所有bank单词被分配主题1的个数,是4个,统计所有单词被分配主题1的个数,是11个,则第一个bank单词被分配主题1的概率是4/11,则根据主题1是4/11,主题2是7/11的概率进行分配主题,若主题有很多,则主题1是按4/11的概率进行分配,其余主题根据分配的次数计算概率,根据计算的概率进行分配。再计算第二个bank单词的概率,根据概率再分配主题,依次计算所有单词,完成第二次主题分配,即记为一次迭代处理,以此完成预设迭代次数,可以估算到文本信息中每个单词的主题。

该概率计算公式对应吉布斯采样算法中的这一部分

计算可得目标文献m中第n个单词分配z

图5为本申请实施例提供的迭代处理完成后的单词的主题分配示意图,如图5所示,文献1中,经过预设次数的迭代处理后,分配给单词bank的主题是主题1,分配给单词money的主题是主题1,由此可以确定单词bank的主题是主题1,单词money的主题是主题1。

本申请实施例通过分配单词主题,计算分配主题的概率,根据概率再分配主题,依次进行迭代处理,使结果收敛,趋于定值,从而确定单词的主题,为后续确定作者的兴趣主题奠定基础。

在上述实施例的基础上,作为一种可选实施例,确定文献中每个作者负责的单词,包括:

对文献中的所有单词分配预设次数的作者,在每次对文献中的所有单词分配作者完成后,对于文献中的任意一个单词,根据单词在文档中出现的个数、单词在本次分配作者后、在文档中被分配至目标作者的个数以及文档中被分配为目标作者的单词的个数,计算单词在下一次分配作者时被分配至目标作者以及除目标作者之外的其他作者的概率;

根据单词在下一次分配作者时被分配至目标作者以及除目标作者之外的其他作者的概率,对该单词进行下一次分配作者,直至分配次数达到预设阈值;

获取单词在分配次数达到预设阈值时被分配的作者;

其中,目标作者为单词在本次分配中第一次出现时所分配的作者。

图6为本申请实施例提供的一次单词的作者分配示意图,如图6所示,假设作者有作者1和作者2,给单词bank分配的作者是作者1和作者2,给单词money分配的作者有作者1和作者2。本申请实施例在确定单词的主题后,还需要确定单词对应的作者,就要对单词分配作者,进行迭代处理,使计算概率处于收敛,则可以确定该单词的作者是谁。具体的,一般情况下,在获取相关文献后,只知道文献的内容和每个作者的贡献值,并不知道每个作者具体所负责的内容,则只能一步步分析,首先,需要确定单词的数量和作者的数量,然后将随机分配给这些单词一个作者,第一次分配为初始化,使每个单词都分配了作者,进行第二次作者的分配,第二次分配单词的作者是根据计算作者的概率进行分配,类似于单词的主题分配。

该概率计算公式对应吉布斯采样算法中的这一同理

计算可得目标文献m中第n个单词同时分配z

图7为本申请实施例提供的迭代处理完成后单词的作者分配示意图,如图7所示,文献1中经过预设次数的迭代处理后,分配给单词bank的作者是作者2,分配给单词money的作者大部分是作者2,小部分是作者1,由此可以确定单词bank的作者是作者2,单词money的作者是作者2。

本申请实施例通过分配单词作者,计算分配作者的概率,根据概率再分配作者,依次进行迭代处理,使结果收敛,趋于定值,从而确定单词的作者,确定了作者在文献中负责部分,为后续确定作者感兴趣的主题奠定基础。

在上述实施例的基础上,作为一种可选实施例,根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者负责的内容所表达的主题,包括:

对于文献中任意一个作者,根据作者的最终权重,选取每个单词在文献中表达的主题和文献中每个作者负责的单词;

将作者负责的单词作为目标单词,根据目标单词在文献中表达的主题,确定作者在文献中表达的主题。

本申请实施例在确定单词的主题和单词的作者后,需要根据作者的最终权重进行采样,最终权重比例多的作者,被采样的几率比较多,与该作者相关联的单词也就被采样的较多,根据单词的主题,从而确定作者在文献中负责内容的主题,因为作者贡献权重较多,则该作者负责内容的主题可能具备多样化,根据作者权重为采样概率,能够凸显作者在文献中的贡献,同时也能更能够表明作者负责内容的主题,具体的,假如一篇文献由两个作者共同负责,其中主要由张三负责,张三的权重占80%,李四的权重占20%,在分析单词的主题和单词的作者时,需要通过权重的比例进行采样,则与张三关联的单词和该单词关联的主题被采样的机率更高,通过高概率的采样分析,从而确定张三在该篇文献中表达的主题,可能张三负责内容较多,涉及的主题也较多,从而可以分析出张三感兴趣的主题可能比较多样化,同时与李四关联的单词和该单词关联的主题被采样的机率相对不高,但是也能够确定在该篇文献中表达的主题,可能李四感兴趣的主题也比较多,但是在这篇文献中,李四涉及负责的内容较少,能够凸显的兴趣主题可能也相对较低。

本申请实施例在确定单词的主题和单词的作者后,需要根据作者的最终权重进行采样分析,使权重大的作者的采样几率更大,更能够凸显作者在文献中的贡献,同时也能更能够表明作者负责内容的主题。

图8为本申请实施例提供的作者兴趣揭示模型示意图,如图8所示,该作者兴趣揭示模型采用吉布斯采样算法公式计算目标文献m中第n个单词的主题z

表1、作者1揭示模型中各个参数的描述表

在上述实施例的基础上,作为一种可选实施例,从至少一篇文献中确定作者负责的相关文献,获取作者在相关文献负责的内容所表达的主题,以确定作者感兴趣的主题,包括:

获取作者负责的相关文献,确定作者在相关文献负责的内容所表达的主题;

根据作者所表达的主题,确定作者所表达的主题中作者的兴趣主题;

根据作者的兴趣主题在作者负责的相关文献中出现次数,计算作者的兴趣主题出现的概率,将概率超过预设阈值的主题作为作者的兴趣主题。

本申请实施例在确定作者在文献中的主题后,需要收集与该作者相关的文献中该作者表达的主题,将该作者表达的主题汇总,选出其中出现概率较高的主题作为该作者的兴趣主题,例如:作者A在第一篇文献里表达了主题1以及主题2,在第二篇文献里表达了主题3以及主题4,为了确定作者A的兴趣主题,还需要收集更多与该作者相关的文献,通过作者在不同文献中兴趣主题,统计兴趣主题出现的次数,根据主题出现的次数通过一些计数算法计算得到主题出现的概率,将概率超过预设阈值的主题作为作者的兴趣主题。

采用本发明提出的纳入贡献权重分配机制的作者兴趣揭示模型(AT

表2、各种算法计算的兴趣主题和主题的概率表

表3、AT

根据表3可以发现学者Boone,Charles的研究兴趣主要集中在“基因相互作用(genetic interaction)”方面,而学者Andrews,Brenda J.的兴趣较为多样化。

图9为本申请实施例提供了一种作者的兴趣主题的分析装置的结构示意图,如图9所示,该装置可以包括:第一获取模块301、确定模块302以及第二获取模块303,具体地:

第一获取模块301,用于获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重;贡献权重为作者的贡献值的归一化结果;

确定模块302,用于对于每一篇文献,确定文献中每个单词在文献中表达的主题,以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题;

第二获取模块303,用于对于每个作者,从至少一篇文献中确定作者负责的相关文献,获取作者在相关文献负责的内容所表达的主题,以确定作者的兴趣主题。

本发明实施例提供的作者的兴趣主题的分析装置,具体执行上述方法实施例流程,具体请详见上述作者的兴趣主题的分析方法实施例的内容,在此不再赘述。本发明实施例提供的作者的兴趣主题的分析装置,通过获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重,每个单词在文献中表达的主题以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题,根据作者在相关文献负责的内容所表达的主题,确定作者的兴趣主题。本申请实施例能够考虑每一位作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,合理反映科研人员的兴趣主题,有助于发掘学科领域的研究热点及趋势,并推进个性化学术研究。

进一步地,第一获取模块301,包括:

预处理模块,用于获取文献中作者和每个作者的贡献值;

根据文献中作者的数目和每个作者的贡献值,确定每个作者的初始权重;

将文献中每个作者的初始权重进行归一化,得到文献中每个作者的最终权重。

进一步地,预处理模块,包括:

第一权重计算模块,用于若文献中作者的数量没有超过预设数量值,则根据文献中每个作者的贡献值对文献中作者进行降序排列,获得文献中每个作者的排序结果;

根据每个作者排序结果,按照预设的权重算法计算得到每个作者的初始权重。

进一步地,预处理模块还包括:

第二权重计算模块,用于若文献中作者的数量超过预设数量值,则根据文献中每个作者的贡献值对文献中作者进行降序排列,获得文献中每个作者的排序结果;

当作者的排序结果小于或等于预设数量值时,则根据作者的排序结果中小于或等于预设数量值的作者的排序结果,按照预设的权重算法计算得到排序结果小于或等于预设数量的作者的初始权重;

当作者的排序结果大于预设数量值时,则将第一作者的初始权重的预设倍数作为所有排序结果大于预设数量值的作者的初始权重;

第一作者为文献中排序结果为第一的作者。

进一步地,确定模块302,包括:

主题确定模块,用于对文献中的所有单词分配预设次数的主题,在每次对文献中的所有单词分配主题完成后,对于文献中的任意一个单词,根据单词在文档中出现的个数、单词在本次分配主题后、在文档中被分配至目标主题的个数以及文档中被分配为目标主题的单词的个数,计算单词在下一次分配主题时被分配至目标主题以及除目标主题之外的其他主题的概率;

根据单词在下一次分配主题时被分配至目标主题以及除目标主题之外的其他主题的概率,对该单词进行下一次分配主题,直至分配次数达到预设阈值;

获取单词在分配次数达到预设阈值时被分配的主题;

其中,目标主题为单词在本次分配中第一次出现时所分配的主题。

进一步地,确定模块302,还包括:

作者确认模块,用于对文献中的所有单词分配预设次数的作者,在每次对文献中的所有单词分配作者完成后,对于文献中的任意一个单词,根据单词在文档中出现的个数、单词在本次分配作者后、在文档中被分配至目标作者的个数以及文档中被分配为目标作者的单词的个数,计算单词在下一次分配作者时被分配至目标作者以及除目标作者之外的其他作者的概率;

根据单词在下一次分配作者时被分配至目标作者以及除目标作者之外的其他作者的概率,对该单词进行下一次分配作者,直至分配次数达到预设阈值;

获取单词在分配次数达到预设阈值时被分配的作者;

其中,目标作者为单词在本次分配中第一次出现时所分配的作者。

进一步地,预处理模块还包括:

兴趣主题模块,用于对于文献中任意一个作者,根据作者的最终权重,选取单词在文献中表达的主题和文献中作者负责的单词;

将作者负责的单词作为目标单词,根据目标单词在文献中表达的主题,确定作者在文献中表达的主题。

进一步地,第二获取模块303,包括:

文献获取模块,用于获取作者负责的相关文献,确定作者在相关文献负责的内容所表达的主题;

根据作者所表达的主题,确定作者所表达的主题中作者的兴趣主题;

根据作者的兴趣主题在作者负责的相关文献中出现次数,计算作者的兴趣主题出现的概率,将概率超过预设阈值的主题作为作者的兴趣主题。

本申请实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:通过获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重,每个单词在文献中表达的主题以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题,根据作者在相关文献负责的内容所表达的主题,确定作者的兴趣主题。本申请实施例能够考虑每一位作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,合理反映科研人员的兴趣主题,有助于发掘学科领域的研究热点及趋势,并推进个性化学术研究。

在一个可选实施例中提供了一种电子设备,如图10所示,图10所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,通过获取目标领域的至少一篇文献,确定文献中每个作者的贡献权重,每个单词在文献中表达的主题以及文献中每个作者负责的单词;根据每个单词在文献中表达的主题、文献中每个作者负责的单词以及文献中每个作者的贡献权重,得到文献中每个作者表达的主题,根据作者在相关文献负责的内容所表达的主题,确定作者的兴趣主题。本申请实施例能够考虑每一位作者对一篇多作者文章贡献不等的前提下,发现各作者的兴趣主题,合理反映科研人员的兴趣主题,有助于发掘学科领域的研究热点及趋势,并推进个性化学术研究。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号