首页> 中国专利> 基于KL距离相似性度量的研究热点演变行为检测方法

基于KL距离相似性度量的研究热点演变行为检测方法

摘要

本发明公开了一种基于KL距离相似性度量的研究热点演变行为检测方法,其将刊物主题性和刊物的时序性相结合,提出了时序刊物主题模型TS‑JTM,以实现学术刊物的时态热点抽取,在此基础上建立基于时间序列的主题快照刊物研究热点演变模型,同时,利用概率分布KL距离相似性度量方法,提出了度量相邻时刻主题快照中主题演变行为的检测方法,以实现对刊物中研究热点演变的细粒度分析。

著录项

  • 公开/公告号CN109408782A

    专利类型发明专利

  • 公开/公告日2019-03-01

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN201811216206.2

  • 申请日2018-10-18

  • 分类号

  • 代理机构长沙市融智专利事务所;

  • 代理人龚燕妮

  • 地址 410083 湖南省长沙市岳麓区麓山南路932号

  • 入库时间 2024-02-19 08:07:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-03

    授权

    授权

  • 2019-03-26

    实质审查的生效 IPC(主分类):G06F17/22 申请日:20181018

    实质审查的生效

  • 2019-03-01

    公开

    公开

说明书

技术领域

本发明属于文献主题分析检测技术领域,具体涉及一种基于KL距离相似性度量的研究热点演变行为检测方法。

背景技术

随着科学研究与探索的不断发展,学术领域的研究热点随之发生变化,由于学科之间的相互渗透和新技术的应用促进了学术研究热点随时间的变化而演变,在这个过程中有一些老的研究问题会消失,同时也会不断有新的研究问题产生,而有些研究问题会随时间产生裂变或与其他研究问题融合,这些行为导致了学科研究热点的演变。因此,分析学术领域的研究热点演变,把握研究热点演变轨迹,对于预测研究热点发展趋势是很有必要的。它不仅可以帮助学者了解到当前的热点研究问题,而且还可以辅助科研人员与管理者把握科学研究的发展规律。科研人员的研究成果与进展集中反映在其发表学术论文学术刊物中,这些学术刊物分门别类地收集了大量学术研究成果,由于刊物周期性出版,它本质上记录了本刊物所在的研究领域的发展历程,所以,通过对刊物主题抽取去发现其研究热点随时间的演变是十分有意义的。

在文献主题分析分析中,作者主题模型(Author-Topic-Model)是常用的主题聚类分析方法,ATM对文献的作者兴趣建模,可以分析作者的学术偏好[1]。作者主题模型是一个三层贝叶斯概率模型,包含词、主题、作者兴趣三层结构。该模型可以直接映射到在刊物主题模型中,即刊物以一定的概率选择某个主题,主题以一定的概率生成主题词。然而,主题随时间的演变是影响主题抽取的重要因素,作者主题模型没有考虑时间因素,将作者主题模型直接用于各个时间片的语料数据库进行主题抽取时,在每个时间片内都是独立模型参数,不具备时间依赖性,没有考虑到主题随时间变化的影响,增大了主题词在分配主题时的不确定性。Blei在LDA(Latent>[2],实现对时序主题的抽取,然而DTM模型是通过针对数据集的内容建模,并非针对刊物建模来得到文献数据集中各个刊物所包含的主题及其随时间的演变,是无法满足刊物主题研究的需求。

因此,现有技术中缺少一种有效的手段来解决基于刊物时序主题演变行为检测。

发明内容

本发明的目的是针对现有技术的缺陷提供一种基于KL距离相似性度量的研究热点演变行为检测方法,通过结合刊物的主题性和时序性提出了时序刊物主题模型TS-JTM(Time Sequence Journal Topic Model),并以此来对刊物进行时态主题抽取,再结合KL距离的主题相似性度量主题演变,实现主题延续、新生、分裂、融合、消亡演变行为的检测。

一种基于KL距离相似性度量的研究热点演变行为检测方法,包括如下步骤:

步骤1:获取刊物文献,并基于刊物文献的发表时间构建具有时间属性的主题词语料库;

其中,以刊物文献的发表时间划分时间片,所述主题词语料库由各个时间片上的数据集构成,每个时间片上的数据集由相匹配时间发表的刊物文献的文献特征向量构成;

式中,Ct为时间片t上的数据集,(wi,ji)为刊物文献i的文献特征向量,wi为刊物文献i的特征词集合,ji为刊物文献i所属的刊物,ci为特征词集合中的第i个特征词,n1为时间片t上刊物文献的数量,n2为刊物文献i上特征词的数量;

其中,刊物文献的特征词是刊物文献的内容进行分词处理后得到的;

步骤2:基于刊物主题性与时序性构建时序刊物主题模型;

其中,所述时序刊物主题模型中每个时间片对应一个刊物主题模型,两个相邻时间片中下一时间片的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β与上一时间片的两个狄利克雷先验参数α、β相关联;

步骤3:基于时序刊物主题模型中各个时间片上的刊物主题模型依次对相匹配时间片上的数据集进行主题提取得到每个时间片上的刊物-主题分布以及主题-词分布;

步骤4:获取待测刊物在各个时间片上主题以及主题-词分布,并基于主题-词分布计算同一待测刊物在相邻时间片上每任意两个主题之间的KL距离,再基于主题快照刊物研究热点演变模型得出待测刊物中各个主题的演变行为;

其中,所述主题快照刊物研究热点演变模型包括主题延续、新生、消亡、分裂和融合五类演变行为检测规律,每类演变行为检测规律均基于相邻时间片上主题的相似性以及演变行为特性鉴别,所述演变行为特性与相似性相关,两个主题的相似性采用KL距离度量。

一方面,本发明提出了主题快照刊物研究热点演变模型,其结合KL距离来度量同一待测刊物在两个相邻时间片上两个主题之间的相似性,并涵盖了主题演变中延续、新生、分裂、融合、消亡行为的检测规律,实现了待测刊物上时序主题演变行为的检测。其中,各类演变行为特征如下:①延续行为:当前时间片的主题在下一个时间片保持延续,因此当前时间片的主题仅和下一时间片的一个主题的很相似,和其他主题不相似;②新生行为:当前时间片中的主题与上一时间片中的主题没有连接,因此当前时间片的主题和上一时间片中所有的主题都不相似;③分裂行为:当前时间片的主题产生了分裂,生成了多个主题,因此当前时间片的主题和下一时间片中两个及以上的主题都相似;④融合行为:多个主题融合成一个主题,因此当前时间片的主题和上一时间片中两个及以上的主题都相似;⑤消亡行为:当前时间片中的主题与下一时间片中的主题没有连接,因此当前时间片的主题和下一时间片中所有的主题都不相似。本发明基于各类演变行为的特征以及用于度量相似性的KL值可以推导出待测刊物上主题的演变行为。

另一方面,本发明通过构建了基于刊物主题性与时序性的时序刊物主题模型,其考虑到主题随时间变化的影响,并采用参数传递的方式来构建相邻时间片上刊物主题模型的关联关系,降低了主题词在分配主题时的不确定性,使得模型的困惑度较小;同时时序刊物主题模型是针对文献数据集中的刊物建模,由于刊物所代表的学科领域的主题性比作者所代表的学科领域主题性更强,因此本发明的时序刊物主题模型相较于常规的作者主题模型ATM和DTM模型更符合本发明研究刊物主题演变的需求。

进一步优选,所述主题快照刊物研究热点演变模型包括如下检测规律:

a:时间片t上的主题i仅与相邻下一时间片t+1上一个主题的KL距离小于相似性阈值,且与相邻下一时间片t+1上剩余主题的KL距离均大于或等于相似性阈值时,主题i在下一时间片t+1中保持延续:

b:时间片t上的主题i与相邻上一时间片t-1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i为新生主题:

c:时间片t上的主题i与相邻下一时间片t+1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i在下一时间片t+1中没有延续,主题i消亡:

d:时间片t上的主题i与相邻下一时间片t+1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i在下一时间片t+1中分裂为多主题:

e:时间片t上的主题i与相邻上一时间片t-1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i由上一时间片t-1中多主题融合而来。

进一步优选,所述主题快照刊物研究热点演变模型中各个检测规律的检测公式如下:

a规律中延续演变行为的检测公式为:

式中,分别为t时间片上主题i与t+1时间片上主题j、t时间片上主题i与t+1时间片上主题k之间的KL距离,分别为t时间片上主题i、t+1时间片上主题j、t+1时间片上主题k的主题-词分布,Tt+1为t+1时间片上主题集合,threshold_A为相似性阈值;

b规律中新生主题演变行为的检测公式为:

式中,为t-1时间片上主题j与t时间片上主题i之间的KL距离,Tt-1为t-1时间片上主题集合;

c规律中消亡演变行为的检测公式为:

d规律中分裂演变行为的检测公式为:

e规律中融合演变行为的检测公式为:

进一步优选,两个主题的KL距离计算公式如下:

式中,为t-1时间片上主题j与t时间片上主题i的KL距离,分别表示t-1时间片上主题j、t时间片上主题i的主题-词分布,分别为主题-词分布下主题词x的词概率,X表示t-1时间片上主题j的主题词集合,x表示X中的任意一个主题词。

应当理解,当计算其他相邻两个时间片上的KL距离时,也是采用上述公式,此公式为通用公式。且需要说明的是,公式中主题词x不存在于在t时间片上主题i的主题词集合,则φit(x)取为预设小值,例如0.001。

进一步优选,所述相似性阈值为0.4。

进一步优选,步骤2中相邻时间片上的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β相互关联如下:

βtt-1~N(βt-12I)

αtt-1~N(αt-12I)

式中,βt、βt-1分别为时间片t、时间片t-1上的刊物主题模型中主题-词分布的狄利克雷先验参数,αt、αt-1分别为时间片t、时间片t-1上的刊物主题模型中刊物-主题分布的狄利克雷先验参数,N(βt-12I)和N(αt-12I)均为正态分布,σ2I与δ2I表示对应随机变量的方差;

βtt-1~N(βt-12I)表示时间片t下的主题-词分布的先验参数βt受上一时间片t-1下的主题-词分布的先验参数βt-1的影响并满足N(βt-12I)分布,αtt-1~N(αt-12I)表示时间片t下的刊物-主题分布的狄利克雷先验参数αt受上一时间片t-1下的刊物-主题分布的狄利克雷先验参数αt-1的影响并满足N(αt-12I)分布。

本发明考虑到学术刊物是随时间周期性出版的,其主题的演变具有渐进性,通过参数传递的方式连接相邻时间片,即相邻时间片通过狄利克雷先验参数α和β这两个参数连接。由于狄利克雷先验参数α和β的值会影响主题的形成,改变主题中词的分布,因此,本发明通过α和β这两个参数将前序时间片中的刊物-主题分布θ和主题-词分布φ的影响传递到相邻的下一时间片主题模型参数中,降低了主题词在分配主题时的不确定性,使得模型的困惑度较小。

进一步优选,步骤2中所述时序刊物主题模型的主题数目以及第一个时间片上的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β为预设值。

进一步优选,所述时序刊物主题模型的主题数目为50。

进一步优选,第一个时间片上的刊物主题模型中刊物-主题分布θ的狄利克雷先验参数α为1、主题-词分布φ的狄利克雷先验参数β为0.01。

有益效果

1、本发明提出了一种全新主题快照刊物研究热点演变模型,其结合KL距离来度量同一待测刊物在两个相邻时间片上的两个主题之间的相似性,对相邻时刻主题快照中主题演变的延续、新生、分裂、融合、消亡行为进行检测,实现了对刊物中研究热点演变的细粒度分析,填补了现有技术中解决基于刊物时序主题演变行为有效检测手段的空白。其中,本发明提供的主题快照刊物研究热点演变模型中延续、新生、分裂、融合、消亡演变行为的检测规律是基于同一刊物在相邻时间片上主题之间的相似性推导的,准确地反应了主题演变过程。

2、基于刊物主题性与时序性构建了时序刊物主题模型,其结合了刊物主题模型JTM与DTM模型的特性,即一方面考虑到主题随时间变化的影响,并采用参数传递的方式来构建相邻时间片上刊物主题模型的关联关系,降低了主题词在分配主题时的不确定性,使得模型的困惑度较小,克服了单独刊物主题模型未考虑主题随时间变化的影响,增大了主题词在分配主题时的不确定性的缺陷。本发明的时序刊物主题模型是通过狄利克雷先验参数α和β这两个参数连接相邻时间片,由于狄利克雷先验参数α和β的值会影响主题的形成,改变主题中词的分布,因此,本发明通过α和β这两个参数将前序时间片中的刊物-主题分布θ和主题-词分布φ的影响传递到相邻的下一时间片主题模型参数中。另一方面,本发明的时序刊物主题模型是针对文献数据集中的刊物建模,由于刊物所代表的学科领域的主题性比作者所代表的学科领域主题性更强,DTM模型虽然考虑到主题随时间变化中受先前话题的影响,但是其仅是针对数据集内容建模,而未考虑到刊物,是无法满足刊物主题模型演变需求的。因此本发明的时序刊物主题模型相较于独立的刊物主题模型JTM和现有的DTM模型更符合本发明研究刊物主题演变的需求,利用其得到每个时间片上的刊物-主题分布以及主题-词分布,为后续刊物主题演变检测奠定基础。

3、通过实验验证,本发明提供的时序刊物主题模型在困惑度以及运行时间上具有较好的表现,时序刊物主题模型的困惑度低于作者主题模型ATM以及DTM模型,时序刊物主题模型的运行时间与DTM模型接近,并比ATM的运行时间短。

附图说明

图1是本发明提供的一种基于KL距离相似性度量的研究热点演变行为检测方法的流程示意图;

图2是本发明提供的刊物主题模型的示意图;

图3是本发明提供的时序刊物主题模型的示意图;

图4是本发明提供的主题快照刊物研究热点演变模型中主题演变行为示意图;

图5是本发明提供的刊物ID:003下的主题在2010~2016年间的演变示意图;

图6是本发明提供的ATM模型、DTM模型以及TS-JTM模型的困惑度对比示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。

由于学术领域的研究热点主要反映在学术刊物中,如何对学术刊物的数据集中主题的演变行为进行分析,对于科研人员了解学科研究热点发展轨迹,把握研究热点发展规律具有重要意义。如图1所示,本发明基于该需要提供了一种基于KL距离相似性度量的研究热点演变行为检测方法,包括如下步骤:

步骤1:文献信息预处理。首先从公共文献信息库获取刊物文献并进行预处理,再基于刊物文献的发表时间构建具有时间属性的主题词语料库。

预处理过程为:提取刊物文献的文献题名、摘要、关键词、刊物名和发表时间等,然后进行格式化处理,对摘要和文献题名使用分词工具分成词组并删除停用词,将剩余词组与关键词组成该文献的特征词。其他可行的实施例中,文献的特征词也可以仅来源于摘要,或者来源于摘要、关键词;或者来源于摘要、文献题名等,本发明对此不进行具体的限定。

得到各个文献的特征词集合后,将按照文献的发表时间划分时间片,再将属于同一时间片的文献的特征词及文献所述的刊物信息构成该时间片的数据集。各个时间片的数据集构成主题词语料库。

例如:从中国知网公共文献资源库上获取科技文文献信息来构建主题词语料库。从2010~2016年计算机领域的刊物中选取了6487篇文章摘要及其对应的刊物名、发表时间作为实验数据。并将所有文献信息按年份分成7个时间片的数据集,然后使用中科院汉语分词系统NLPIR对每篇论文摘要进行分词和去除停用词,形成各个文献的主题词集合其中,用(wi,ji)来表示文献i的文献特征向量。其中wi表示文献i中特征词集合,ji代表文献i发表的刊物。在时间片t中的n1篇文献组成的数据集Ct可以表示为

步骤2:基于刊物主题性与时序性构建时序刊物主题模型(TS-JTM)。

时序刊物主题模型(TS-JTM)在每个时间片中的模型均是刊物主题模型,刊物主题模型如图2所示。模型中的α和β分别表示刊物-主题分布θ和主题-词分布φ的狄利克雷(Dirichlet)先验参数,K表示刊物的总数量,T表示主题的数量。刊物主题模型的核心思想是:一篇文章所属的刊物J从其对应的主题分布θ中选择一个主题z,根据这个主题在单词上的概率分布φ随机地产生一个词w。重复此过程,直到生成这篇文章中的每一个词。

本发明的时序刊物主题模型(TS-JTM)中相邻时间片上刊物主题模型存在关联关系。如同与DTM模型,如图3所示,相邻时间片通过狄利克雷先验参数α和β连接,其中狄利克雷先验参数α和β的值会影响主题的形成,改变主题中词的分布。相邻时间片之间参数的计算公式如下:

βtt-1~N(βt-12I)(1)

αtt-1~N(αt-12I)(2)

φt~Dir(βt)(3)

θt~Dir(αt)(4)

其中,公式1表示时间片t下的主题-词分布的先验参数βt受上一时间片t-1下的主题-词分布的先验参数βt-1的影响并满足N(βt-12I)分布,βt与βt-1满足一阶马尔科夫过程;同理,公式2表示时间片t下的刊物-主题分布的狄利克雷先验参数αt受上一时间片t-1下的刊物-主题分布的狄利克雷先验参数αt-1的影响并满足N(αt-12I)分布。公式(3)和公式(4)表示参数βt和αt分别是模型中主题-词分布φt和刊物-主题θt的狄利克雷先验参数。狄利克雷先验参数αt和βt的值会影响刊物-主题分布和主题-词分布。

基于上述时序刊物主题模型的模型架构,设定模型中主题的数目以及第一个时间片上狄利克雷先验参数β1和α1的值,再对第一时间片上的数据集进行主题抽取即可得到第一个时间片上的刊物-主题分布θ1以及主题-词φ1分布;再利用公式(1)和公式(2)由第一个时间片的狄利克雷先验参数β1和α1计算出新的β1'和α1',并将新的参数β1'和α1'传递给第二个时间片,作为第二个时间片中模型超参数的初始值,再对第二个时间片上的数据集进行主题抽取,不断地重复此过程得到各个时间片上的刊物-主题分布以及主题-词分布。即其他时间片上的狄利克雷先验参数αt和βt分别依据前一个时间片上的αt-1、βt-1计算。其中,利用时间片上刊物主题模型对相匹配时间片上的数据集进行主题抽取得到刊物-主题分布以及主题-词分布的过程为现有技术实现过程,本发明对此不进行详细说明,仅简述说明。

时序刊物主题模型中刊物主题分布θ以及主题词分布φ参数推断采用吉布斯采样(Gibbs Sampling)方法。对于每个词,根据公式5对刊物和主题进行采样,公式5中右边是p(topic|journal)·p(word|topic),即刊物选择主题并且主题选择词的概率。由于主题(topic)有T个,刊物(journal)有K个,公式的物理意义就是在这K×T条路径中采样。

式中,zi=j,xi=k这里代表一篇文献中第i个词分配给第j个主题(Topic)和第k个刊物。Wi=m代表第i个单词是词典中第m个词汇。Z-i,X-i代表除第i个单词之外其余词的主题和刊物分配。表示词m在此次分配之前已经分配给主题j的总个数,表示到目前为止,刊物k分配给主题j的总个数。N是词典中词的总个数,词典由数据集中所有不同特征词组成。公式(1)在模型的参数估计中只需要记录两个矩阵,一个是主题-词(word by topic)计数矩阵N×T、一个是刊物-主题(Journal by topic)计数矩阵K×T,然后根据这两个计数矩阵估算主题-词分布φ、刊物-主题分布θ计算公式分别为公式(6)和公式(7)。

式中,φmj表示主题j使用单词m的概率,θkj表示刊物k选择主题j的概率,m'表示任意一个已分配到主题j下的单词,j'表示任意一个已分配到刊物k下的主题。

步骤3:基于时序刊物主题模型中各个时间片上的刊物主题模型依次对相匹配时间片上的数据集进行主题提取得到每个时间片上的刊物-主题分布以及主题-词分布。

基于步骤2构建时序刊物主题模型的架构,本实施例中设置时序刊物主题模型的主题数目以及刊物-主题分布θ的狄利克雷先验参数α、主题-词分布φ的狄利克雷先验参数β的初始值,然后按照依次对各个时间片上的数据集进行主题抽取得到各个时间片上的刊物-主题分布以及主题-词分布。流程为使用TS-JTM模型进行主题抽取,即对每个时间片t,循环执行1.1、1.2、1.3;

1.1在时间片t中使用TS-JTM模型,对数据集进行主题抽取,得到主题集合Tt以及主题-词分布;

1.2将主题集合Tt添加到时间序列主题的集合TC中;

1.3使用当前时间片模型的参数αtt更新模型TS-JTM。

应当理解,更新TS-JTM模型为更新时序刊物主题模型中下一个时间片上模型参数α、β。

步骤4:获取待测刊物在各个时间片上主题以及主题-词分布,并基于主题-词分布计算同一待测刊物在相邻时间片上每任意两个主题之间的KL距离,再基于主题快照刊物研究热点演变模型得出待测刊物中各个主题的演变行为。

如图4所示,其表示某刊物发行的三个相邻的时间片的主题快照,时间片之间的虚线表示主题之间的关系。本发明提出的主题快照刊物研究热点演变模型包含了主题之间的行为特性,分别如下:①一对一关系表示当前时间片的主题是由上一时间片的主题延续而来;②当下一时间片中的主题与上一时间片中的主题没有连接,则表明有新生主题;③一对多关系表示上一时间片的主题产生了分裂,生成了多个主题;④多对一关系表示多个主题融合成一个主题;⑤当上一时间片中的主题与下一时间片中的主题没有连接,则表明主题发生了消亡。

为了度量两个主题之间的相似性,本发明采用KL距离。KL(Kullback-LeiblerDivergence)距离由Solomon Kullback和Richard Leibler提出[3],也叫相对熵(RelativeEntropy),常被用于度量两个概率分布间的相似性,使用KL距离可以用于衡量相邻时间片中任意两个主题之间的相似度。如下公式8为KL距离的计算公式,其中,分别表示两个概率分布,当两个概率分布完全相同时,KL距离的值为0。

本发明采用KL距离来度量分布于相邻两个时间片上的两个主题之间的相似性,建立相邻时间片主题之间的对应关系,公式中的概率分布对应于主题的主题-词分布。

基于前述1-5中演变行为,本发明的主题快照刊物研究热点演变模型包括如下检测规律:

a:时间片t上的主题i仅与相邻下一时间片t+1上一个主题的KL距离小于相似性阈值,且与相邻下一时间片t+1上剩余主题的KL距离均大于或等于相似性阈值时,主题i在下一时间片t+1中保持延续。

b:时间片t上的主题i与相邻上一时间片t-1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i为新生主题。

c:时间片t上的主题i与相邻下一时间片t+1上每个主题的KL距离均大于相似值阈值时,时间片t上的主题i在下一时间片t+1中没有延续,主题i消亡。

d:时间片t上的主题i与相邻下一时间片t+1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i在下一时间片t+1中分裂为多主题。

e:时间片t上的主题i与相邻上一时间片t-1上至少两个主题的KL距离均小于相似值阈值时,时间片t上的主题i由上一时间片t-1中多主题融合而来。

综上a-e个检测规律对应的检测公式如下:

其中,表示第t个时间片的第i个主题的演变行为状态标识,Threshold_A为相似性阈值。经过反复实验,threshold_A设置为0.4时,能合理地反映主题的演变行为,其他可行的实施例中,可以取其他值。

针对待测刊物在每个时间片上的处理,分别执行如下流程2.2.1和2.2.2:

2.2.1从集合TC中提取当前时间片的主题集合Tt以及与当前时间片相邻的两个时间片的主题集合Tt-1、Tt+1,并获取待测刊物在集合Tt-1,Tt,Tt+1中的主题;

2.2.2按照公式9检测当前时间片上待测刊物的各个主题的演变行为。

为了更加清楚的描述本发明所述方案,下文将提供多个实例。

1、主题词随时间的变化

如下表1所示,数据集中编号为ID:003的刊物,在2010年的主题分布中,主题编号2是与人脸识别领域相关的主题。主题编号2从2010年到2016年的主题-词分布如表2所示,表中展示的是每年中这个主题下概率最高的10个主题词。从表中可以看出随着时间的推移,“人脸识别”主题中的核心词汇没有发生较大变化,如“图像”、“特征”、“人脸识别”等与人脸识别相关的热门词汇一直都在主题中。但2013年出现的“遗传算法”,2015年出现的“深度学习”,这是一些新的方法在“人脸识别”领域的应用。从2010到2016年,彼此相邻的两个时间片主题的KL值分别为0.20、0.26、0.23、0.17、0.21、0.19,这些KL距离均小于相似性阈值threshold_A,在此期间,“人脸识别”主题和下一时间片中其它主题的KL距离均大于相似性阈值threshold_A,因此“人脸识别”主题在2010年到2016年期间是一直延续的。

表1“人脸识别”的主题-词分布表

2、刊物主题随时间的演变

为了方便描述,我们在后续的文章中将主题用其英文缩写表示。表2中展示了“神经网络(NN)”、“深度学习(DL)”、“语音识别(SR)”三个主题在2010-2016各年份中概率最大的前10个主题词。从表2中可以看出,主题NN中“神经网络”、“神经元”、“特征”等核心词汇基本保持不变,边缘词汇如“样本”、“粒子群”在不同时间片中的分布变化较大。2013年的主题NN和2014年的主题DL在前10个主题词中相同的词有“训练”、“分类”、“性能”、“特征”,“神经元”,由于词分布的相似性使得这两个主题之间的KL值较小,为0.27,小于相似性阈值threshold_A,2013年的主题NN和下一时间片所有主题的KL值分别为0.55,0.27,0.21,0.69,1.84,1.16,0.92,1.53,其中最小值对应的主题分别为DL、NN,其余都大于相似性阈值,所以主题DL由主题NN分裂产生。

表2 2010-2016年“语音识别”等三个主题的词分布表

3、刊物主题演变分析

刊物ID:003下的主题在2010~2016年间的演变情况如图5所示。由于同一主题在不同时间片通过聚类形成了不同的编号,所以图中同一主题用英文缩写表示。从图5中可以看出,2015年所有的主题分布和2016年中主题SR的KL值分别为0.74、0.46、0.23、0.16、0.81、0.95、1.37,小于相似性阈值的两个主题分别为NN和SR,其余KL值均大于相似性阈值,表示主题NN融合到主题SR中,2014年“飞行器”主题与2015年所有主题的KL距离分别为1.72,1.46,1.25,1.07,1.20,0.83,1.59,KL的最小值为0.83,大于相似性阈值,所以“飞行器”主题在2015年发生了消亡;2010年所有的主题与2011年“云计算”主题的KL值分别1.16,0.75,1.37,2.32,1.51,KL的最小值为0.75,大于相似性阈值,该主题为新生;同理,“目标跟踪”主题一直处于延续状态,2013年的新生主题是“实体识别”。

模型性能验证

为了验证本发明提出的时序刊物主题模型(TS-JTM)的模型性能,本发明采用困惑度指标。如下公式10为困惑度Perplexity的计算公式,其中,Dtest代表测试集,是M篇文档的集合,p(Wd)表示文档中词被选中的概率,Nd代表文档d中词的数量,Wd=(w1d,w2d,...,wid,...,wnd)表示文档d中的词向量形式。Perplexity值越小则说明模型的性能越好。

为了度量时序刊物主题模型(TS-JTM)的性能,在实验前需要对模型的3个参数进行设置,主题数量|T|的值从10开始逐渐增加,ATM的两个狄利克雷超参数值分别设置为:α=50/|T|,β=0.01,DTM和时序刊物主题模型在第一个时间片中的两个狄利克雷超参数值分别设置为α=50/|T|,β=0.01,其余时间片中的α和β由模型自动获取。对比实验结果如图6所示,横轴表示主题数量,纵轴表示困惑度(perplexity),我们可以看到,随着主题数量的变化,TS-JTM的困惑度始终最小,这表明TS-JTM性能最好,另外,Perplexity只随主题数目的增加而下降,当主题数目大于50后,Perplexity保持不变,这表明TS-JTM模型的主题数目设置为50是合理的。本实施例中,时序刊物主题模型的主题数量优选为50,且对应两个狄利克雷超参数设置为:α=50/|T|,β=0.01。

另一方面,本发明测试了时序刊物主题模型(TS-JTM)在数据集上的运行时间,我们将TS-JTM和作者主题模型(ATM)、动态主题模型(DTM)在模型的运行时间进行对比。使用这三个模型分别处理相同的数据,三个模型的运行时间分别为23.8分钟、25.6分钟、24.2分钟。这表明TS-JTM和DTM的运行时间很接近,ATM的运行时间最长。结合图4的模型困惑度表现,表明时序刊物主题模型(TS-JTM)不仅困惑度低,而且在运行时间上也有不错的表现。

综上所述,学术刊物的主题演变反映了学术领域的研究热点的发展趋势。由于刊物的主题性和时序性会影响刊物主题分布和演变过程,主题的演变过程中存在着演变行为,使得刊物研究热点的演变轨迹识别变得复杂。本文结合刊物主题性和刊物的时序性,提出了时序刊物主题模型TS-JTM,使用TS-JTM实现对学术刊物的时态热点抽取,通过困惑度对比实验验证了模型TS-JTM的性能。在此基础上建立基于时间序列的主题快照刊物研究热点演变模型,并使用KL距离度量相似性,对相邻时刻主题快照中主题演变的延续、新生、分裂、融合、消亡行为进行检测,实现了对刊物中研究热点演变的细粒度分析。

需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

参考文献如下:

[1]Rosen-Zvi M,GriffithsT,Steyvers M.The Author-Topic Model forAuthors and Documents[C].Proceedings of the 20th Conference on Uncertainty inArtificial Intelligence.2004:487-494.

[2]Blei D M,Lafferty J D.Dynamic Topic Models[C].Proceedings of the23rd International Conference on Machine Learning,2006:113-120.

[3]David J.C.MacKay.Information Theory,Inference,and LearningAlgorithms[M].Cambridge University Press,2003:22-48.

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号