首页> 中国专利> 基于社区的作者及其学术论文推荐系统和推荐方法

基于社区的作者及其学术论文推荐系统和推荐方法

摘要

一种基于社区的作者及其学术论文的推荐系统和推荐方法,该系统先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向用户推荐作者及其论文。系统设有:论文抓取、预处理、双层引用网络构建、用户兴趣模型构建和个性化学术推荐五个模块和数据库。本发明系统既能利用作者间研究内容的相关性,通过主题模型构建作者社区;还能在社区内部计算待推荐的作者和论文的多种属性值,改善现有推荐算法计算量大的缺陷;同时计算作者和论文的多种属性值,使得推荐结果更多样化,更符合用户需求。

著录项

  • 公开/公告号CN103559262A

    专利类型发明专利

  • 公开/公告日2014-02-05

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN201310537842.6

  • 申请日2013-11-04

  • 分类号G06F17/30(20060101);

  • 代理机构11018 北京德琦知识产权代理有限公司;

  • 代理人夏宪富

  • 地址 100876 北京市海淀区西土城路10号

  • 入库时间 2024-02-19 22:18:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-10-05

    授权

    授权

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131104

    实质审查的生效

  • 2014-02-05

    公开

    公开

说明书

技术领域

本发明涉及一种推荐作者及其学术论文的系统和方法,确切的说,涉及一 种基于社区的作者及其学术论文的个性化推荐系统和推荐方法,属于数据挖掘 和机器学习的技术领域。

背景技术

2003年,Blei等提出了潜在狄利克雷分布LDA(Latent Dirichlet Allocation) 主题模型。随后,研究者对LDA进行了许多改进。基于主题模型的学术论文挖 掘是主题模型的一个重要应用,通过对论文主题的挖掘,可以更深入地理解学 术论文的发展与进化。2004年,Michal Rosen-Zvi等人在LDA的基础上提出了 作者-主题AT(Author-Topic)模型。AT模型是从作者的角度建立学术论文的 文本主题模型。对于学术论文语料集合,LDA模型没有考虑论文的作者信息, 实际上,它是把所有的作者都看作完全等同的,即所有作者都对应着一个特定 的语言模型。在AT模型中,所有的作者共享一个主题的集合。也就是,每个 作者不再限定其只能对应一个主题,而是对应于一个主题上的分布;同时文本- 主题的分布也随之消失,即被作者-主题的分布取代。

在AT模型中,语料库中的每个作者与T个主题的一个多项分布相对应, 将该多项分布记为θ。每个主题又与词汇表中的V个单词的一个多项分布相对 应,将这个多项分布记为。这两个参数θ和分别有一个带有超参数α和β的 Dirichlet先验分布。对于一篇文本d,首先从该文本d的作者中抽取一个作者, 再从该作者所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的 多项分布中抽取一个单词w。然后,重复执行该过程N次,就生成了一个文 本,这里的N是文本的单词总数。这个生成过程参见图1所示。图1中的阴影 圆圈表示可观测变量,非阴影圆圈表示潜在变量,箭头表示两变量间的条件依 赖性,方框表示重复抽样,重复次数在方框的右下角。该模型有两个参数需要 推断:一个是作者-主题分布θ,另外是主题-单词分布。通过学习这两个参数, 就能够获知作者感兴趣的主题。

2006年,Wang等人在LDA的基础上提出了非马尔科夫连续时间模型,即 时间主题TOT(Topic-Over-Time)模型。TOT模型认为:对于一个文本,除了 文本信息可见以外,时间标签也是可见信息,主题的发现不仅仅受到单词的出 现频率的影响,还受到时间变化的影响。TOT模型通过主题分布信息同时与单 词和时间标签相关联。对于语料库中的每篇文本,TOT定义了如下生成过程(参 见图2所示):对任意一篇文本d,从对应的文本-主题分布θ中抽取一个主题, 根据抽取的主题对应的主题-单词分布中,再抽取一个单词;还根据抽取的 主题对应的主题-时间分布ψ中,抽取一个时间戳。重复上述过程,直至遍历文 本中的每一个单词。该模型有三个参数需要推断:文本-主题分布θ、主题-单词 分布和主题-时间分布ψ。通过学习这三个参数,可以知道主题随时间的发展 变化。

将主题模型与社区发现算法进行结合是近几年学术挖掘领域的研究热点, 利用主题模型提取论文间和作者间的关系,然后利用这些关系结合社区发现算 法来提取社区信息。Daifeng Li等人在AT模型的基础上添加了社区的信息,提 出作者社区主题模型ACTM(Author-Community-Topic Model),从而可以直接 获得作者的社区分布信息,同时还提出了加入了时间信息的动态社区主题模型 DCTM(Dynamic Community Topic Model)。DCTM模型在给定的时间段内分别 进行ACTM训练,以伯努利分布来判断:当前时间段的社区分布是否与前一时 间段有关。但是,该模型是以给定时间范围为基础,不能准确地反映社区、主 题随着时间进展而发生的变化,同时该模型仅仅构建了社区,没有提供对社区 节点属性的计算方法,尚不能用于作者和论文推荐。

目前的现有技术中,常用的作者和论文推荐推荐方法包括:基于内容的推 荐、协同过滤推荐、基于引用网络的推荐等。

基于内容的推荐算法是利用用户以往对作者或论文的操作建立用户兴趣模 型,对作者或论文的研究内容进行分析,计算作者或论文与用户兴趣之间的相 似性,然后向用户推荐作者或论文。但是,该方法有以下缺点:用户仅仅能够 得到与其过去喜好类似的论文或作者,而无法得到能够为其拓展研究思路的作 者或论文。再者,以论文为例,基于内容的推荐方法对研究内容进行分析,无 法有效分辨论文的质量。

协同过滤方法是利用具有共同研究兴趣的群体的喜好来向用户推荐其感兴 趣的作者或论文。协同过滤系统能够发现用户未曾接触过的新研究方向中的作 者或论文,这是基于内容推荐无法做到的。但其也存在着一些缺陷,最突出的 问题是冷启动和稀疏性的问题。

(1)冷启动:当某些论文或作者没有任何用户阅读或评价,或者某些用户 未阅读过任何论文(对于推荐系统来说,该类用户没有任何信息,也就无法构 建兴趣模型)时,系统无法向用户推荐或无法推荐能符合其需求的论文或作者。

(2)稀疏性:当系统中论文、作者或用户数量十分庞大时,用户对论文的 操作相对地就非常稀少,从而导致难以找到相似用户集,大大影响了推荐系统 的效率。

在学术领域中,作者间或论文间都存在着一种特有的社会关系,即引用关 系,由此就形成了引用网络。引用网络中的节点是论文或作者,边表示了论文 间或作者间的引用关系。在引用网络中,论文间的引用关系体现了论文内容的 相关性及知识的传递。作者间的引用关系隐含了论文作者组成的研究群体,该 群体具有相似的研究内容,并表示某个领域的研究现状与未来发展趋势。

基于引用网络的推荐通常是将社会网络分析方法、网络链接PageRank算法 等运用到引用网络中来,分析网络结构和网络中的节点属性,从而提取出符合 推荐要求的作者节点或论文节点。Pera提出在引用网络中引入作者权威值,利 用引用关系进行权威值的传播,最终将具有较高权威值的作者推荐给用户。S. Phineas Upham,Henry Small通过分析引用网络,从中提取有可能引领研究前沿 的论文及其作者。由此可以看出,基于引用网络的推荐方法既可以向用户推荐 相关研究领域的权威作者,也可以向用户推荐能够拓宽其研究思路的作者。

但是,由于引用网络的构造、聚类等技术的使用问题,使得引用网络的研 究至今还很不成熟,存在很多问题。例如:

(1)计算效率低:引用网络中的数据量非常大,在分析论文间或作者间的 引用关系时,需要抽取的信息量很多,因此计算工作量的开销很大。

(2)信息缺失:在论文的引文信息不全时,通常会导致引用网络的结构过 于分散,降低了引用网络的质量,直接影响到后续的网络分析和处理,最终会 导致推荐效果的降低。

(3)引用类型区分:论文中存在着不符合规范的引用情况,例如存在一些 “装饰性”的引文。这就需要对引文进行过滤,并且鉴别出各种不同的引用类型。

综上所述,现有的作者和论文推荐技术存在着如下三个主要问题:

(1)作者、论文或用户的某些信息缺失,会对推荐效果产生很大影响。如 协同过滤算法中的稀疏性问题;基于引用网络的推荐算法中,由于论文引用信 息过少,导致的引用网络质量较低的问题。

(2)现有的各种推荐算法都需要利用作者或论文的各种特征值和用户的兴 趣特征进行计算,以提取待推荐的作者或论文;当作者或论文数量很大时,计 算工作的开销非常大。

(3)现有推荐算法在推荐过程中,仅针对作者或论文某一方面的特性进行 待推荐作者或论文的选取,使得最终推荐结果过于单一。

发明内容

有鉴于此,本发明的目的是提供一种基于社区的作者及其学术论文的推荐 系统和方法,本发明利用双层引用网络和社区,选取能够满足用户需求的作者 和论文向用户进行推荐。该系统既能够利用作者间研究内容的相关性,通过主 题模型构建作者社区,解决因信息缺失导致社区构建结果较差的问题;还能在 社区内部计算待推荐的作者和论文的相关值,改善了现有推荐算法计算量较大 的缺陷;同时,通过计算作者和论文的多种属性值,使得推荐结果更加多样化, 更加符合用户的需求。

为了达到上述目的,本发明提供了一种基于社区的作者及其学术论文的推 荐系统,其特征在于,该系统是先利用作者与论文的引用关系和社区信息构建 由作者层和论文层组成的双层引用网络,然后,根据用户的历史行为记录和用 户阅读过的论文集构建用户兴趣模型,最后根据得到的双层引用网络和用户兴 趣模型,分析用户需求,向用户推荐作者及其论文;该系统设有:论文抓取模 块、预处理模块、双层引用网络构建模块、用户兴趣模型构建模块、个性化学 术推荐模块和数据库;其中:

论文抓取模块,负责采用网络爬虫抓取相关学科领域中每篇论文中包括标 题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息,将每篇论文 使用该论文的链接地址用作唯一标识加以区分后,将抓取的论文全部信息都存 储于数据库;

预处理模块,负责从数据库中读取每篇论文的摘要,并由其分词、词性标 注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后,得到论 文摘要的分词序列;其中分词单元依据空格、标点符号对论文摘要进行分词, 词性标注单元对分词后的论文摘要标注词性,词性过滤单元依据标注的词性提 取名词,停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的停用词, 以节省存储空间和提高搜索效率;

双层引用网络构建模块,负责从数据库读取论文的作者ID、参考文献和发 表时间的信息,从预处理模块读取论文摘要的分词序列,并由其四个组成构件: 基础网络构建单元、作者社区时间主题模型ACTTM (Author-Community-Time-Topic-Model)模型训练单元、社区信息构建单元和 节点属性值计算单元分别进行处理后,得到由作者层、论文层和两者之间的连 接边组成的双层引用网络;其中ACTTM模型是在作者-主题AT(Author-Topic) 模型、时间主题TOT(Topic-Over-Time)模型与社区主题模型CTM(Community  Topic Model)相互结合基础上提出的一个新主题模型;

用户兴趣模型构建模块,负责读取数据库中的用户操作记录和论文的作者 集合和发表时间信息,以及从预处理模块得到的论文摘要的分词序列,由其两 个组成部件:用户兴趣社区集合构建单元和用户属性值计算单元分别进行相应 处理后,生成用户兴趣模型;

个性化学术推荐模块,负责读取用户兴趣模型构建模块构建用户的兴趣模 型,得到每个用户的兴趣社区集合、用户权威值和用户多样值,再读取双层引 用网络构建模块得到社区的作者列表、作者和论文间的著作关系、作者的属性 值和论文的属性值,并经由其两个组成部件:作者推荐列表生成单元和论文推 荐列表生成单元的处理,生成作者推荐列表和论文推荐列表;

数据库,用于存储论文抓取模块抓取的所有论文的全部信息,包括:作为 论文ID的链接地址、题目、摘要、发表时间和作者ID,所有用户对存储的该 论文执行操作的全部行为记录,以及向用户最终推荐的作者推荐列表和论文推 荐列表;每项操作的行为记录OR=(user_id,paper_id,event_id,time),其中,user_id 为用户标识、paper_id为论文标识、event_id为操作内容,time为操作时间。

为了达到上述目的,本发明还提供了一种基于社区的作者及其学术论文的 推荐系统的推荐方法,其特征在于:所述方法包括下列操作步骤:

(1)抓取论文:论文抓取模块利用网络爬虫在网络上抓取论文信息,包括 该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间,再使用该论 文的链接地址作为该论文的唯一标识ID区分后,将抓取的该论文全部信息存储 于数据库;

(2)预处理模块对论文摘要进行预处理:使用斯坦福词性标注器Stanford  POS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分 词和标注词性的预处理操作,并保存词性标记为单数形式名词或物质名词NN (Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有 名词NP(Proper noun,singular)、复数形式名词NPS(Proper noun,plural)的 各种名词词语,再过滤并删除没有实际意义的停用词后,还要删除剩余词语数 少于5的论文摘要;

(3)双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和存 储于数据库的包括论文作者ID、发表时间与参考文献的论文信息,利用ACTTM 模型训练生成作者-社区特征向量,利用LDA主题模型训练生成论文-主题特征 向量,再计算作者和论文的各种属性值,成功构建双层引用网络;

(4)用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录以 及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取论 文摘要的分词序列,利用ACTTM模型预测得到用户-社区特征向量,通过计算 得到用户的兴趣社区集合,并根据用户-社区特征向量计算用户各种属性值,最 终成功构建用户兴趣模型;步骤(4)和步骤(3)为并行实施的;

(5)个性化学术推荐模块读取步骤(3)的双层引用网络和步骤(4)的用 户兴趣模型,生成用户的作者推荐列表和论文推荐列表;再以该用户ID为唯一 标识,将该作者推荐列表和论文推荐列表存入数据库。

本发明推荐系统与现有技术相比较所具有的优势在于:

本发明结合了AT模型和TOT模型的优点,并在该基础上再添加表示社区 的变量,提出一个新的作者社区时间主题模型:ACTTM模型,用于对作者归 属的社区信息进行建模,也就是通过作者的研究内容对作者划分其归属的社区。 与基于引用关系的推荐方法相比,本发明能够在引用关系较少的情况下,使得 社区划分的结果更加适合进行学术推荐,同时,在社区内部提取作者,与在整 个作者集中推荐作者相比,显著降低了计算量。

本发明系统构建了一个双层引用网络,利用ACTTM模型对网络中的节点 进行社区的划分,同时计算节点属性值时,考虑了作者研究内容之间的联系和 引用关系。本发明系统在进行作者和论文推荐时,先计算用户的属性值,判断 用户对作者或论文的不同需求,调整作者和论文各属性值之间的权重比例,使 得根据该偏好值得出的推荐作者/论文列表更能符合用户的个性化需求。

与基于内容的推荐方法相比,本发明能够通过用户的历史操作记录判断其 需求,向用户推荐能够拓宽其研究思路的作者和论文。

与协同过滤的推荐方法相比,本发明也可以向用户推荐与其研究方向极其 吻合的作者和论文。而且,通过对用户的历史操作记录建模,只要用户有操作 就可以为用户进行推荐,可以有效解决数据稀疏的问题。

附图说明

图1是AT模型结构的示意图。

图2是TOT模型结构的示意图。

图3是本发明基于社区的作者及其学术论文的推荐系统结构组成示意图。

图4是本发明推荐系统中双层引用网络的结构示意图。

图5是本发明推荐系统中ACTTM模型的结构示意图。

图6是本发明基于社区的作者及其学术论文的推荐系统推荐方法流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作 进一步的详细描述。

参见图3,介绍本发明基于社区的作者及其学术论文的推荐系统的结构组 成:先利用作者与论文的引用关系和社区信息构建由作者层和论文层组成的双 层引用网络,然后,根据用户的历史行为记录和用户阅读过的论文集构建用户 兴趣模型,最后根据得到的双层引用网络和用户兴趣模型,分析用户需求,向 用户推荐作者及其论文;该系统设有六个部件:论文抓取模块、预处理模块、 双层引用网络构建模块、用户兴趣模型构建模块、个性化学术推荐模块和数据 库。其中:

(一)论文抓取模块,负责采用网络爬虫抓取相关学科领域中每篇论文中 包括标题、摘要、链接地址、作者标识ID、参考文献和发表时间的信息,将每 篇论文使用该论文的链接地址用作唯一标识加以区分后,将抓取的论文全部信 息都存储于数据库。

(二)预处理模块,负责从数据库中读取每篇论文的摘要,并由其分词、 词性标注、词性过滤与停用词剔除四个单元依序分别对论文摘要进行处理后, 得到论文摘要的分词序列;其中分词单元依据空格、标点符号对论文摘要进行 分词,词性标注单元对分词后的论文摘要标注词性,词性过滤单元依据标注的 词性提取名词,停用词剔除单元过滤和删除其中对该论文摘要没有实际意义的 停用词,以节省存储空间和提高搜索效率。

(三)双层引用网络构建模块,负责从数据库读取论文的作者ID、参考文 献和发表时间的信息,从预处理模块读取论文摘要的分词序列,并由其四个组 成构件:基础网络构建单元、作者社区时间主题模型ACTTM (Author-Community-Time-Topic-Model)模型训练单元、社区信息构建单元和 节点属性值计算单元分别进行处理后,得到由作者层、论文层和两者之间的连 接边组成的双层引用网络;其中ACTTM模型是在作者-主题AT(Author-Topic) 模型、时间主题TOT(Topic-Over-Time)模型与社区主题模型CTM(Community  Topic Model)相互结合基础上提出的一个新主题模型。

先对该双层引用网络构建模块中的四个组成单元的功能分别说明如下:

基础网络构建单元,负责读取存储于数据库的论文的参考文献和作者信息, 提取论文间和作者间的引用关系,以及论文和作者间的著作关系,用于构建双 层引用网络的基础网络,即由不具有属性值的作者节点集合V1和论文节点集合 V2,以及表示两类节点之间关系的各种边E1、E2和E所构成,以供ACTTM模 型训练单元、社区信息构建单元和节点属性计算单元在基础网络上添加社区信 息和属性值信息,构建得到双层引用网络。

ACTTM模型训练单元,负责读取预处理模块的论文摘要的分词序列、存 储于数据库的论文作者集合和论文发表时间信息,分别进行ACTTM模型训练 和潜在狄利克雷分布LDA(Latent Dirichlet Allocation)主题模型训练,通过Gibbs 采样按照ACTTM的生成模型进行ACCTM模型训练,按照LDA的生成模型 进行LDA模型训练,最终生成:每位作者对应每个社区的作者-社区特征向量、 即表示每位作者归属于每个社区的分布权值矩阵(wi1,wi2,...,wij,…,wiC),每篇论文 对应每个主题的论文-主题特征向量、即每篇论文隶属于每个主题的分布权值矩 阵(vd1,vd2,…,vdt,...,vdT),每个社区对应每个主题的社区-主题特征向量、即每个社 区归属于每个主题的分布权值矩阵,每个主题对应每个时间戳的主题-时间特征 向量、即每个主题归属于每个时间戳的分布权值矩阵;以及每个主题对应每个 单词的主题-单词特征向量,即每个主题归属于每个单词的分布权值矩阵;式中, 自然数t为主题序号。

社区信息构建单元,负责从ACCTM模型训练单元读取作者-社区特征向 量,并将作者在每个社区的分布权值wij与设定阈值进行比较,将大于设定阈值 的社区作为作者的隶属社区,以获得双层引用网络中该作者隶属的社区列表 其中,自然数下标ji为社区序号,下标的下标Si为作者 隶属的社区总数;完成所有作者的隶属社区列表的生成后,就得到每个社区所 归属的作者列表。

节点属性值计算单元,负责从ACTTM模型训练单元得到作者-社区特征向 量、论文-主题特征向量和从基础网络构建单元获得基础网络后,逐个计算每个 节点的属性值:包括论文节点的权威值多样值和流行值以及作者 节点的权威值多样值和流行值

先介绍本发明系统中的创新架构:双层引用网络,其数学表达式为: G={G1,G2,E},其中:

由下标1表示的第一层子网络为作者层G1={V1,E1},其设有两个集合:作者 集合V1={a1,a2,...,ai,...,aI}和边集合E1={(i,q,numiq)};V1中的元素ai为作者,自然数 i为作者序号,共有I名作者;每位作者由下述五个参数描述之: 式中,IDi为该作者标识ID;作者权威值向量 中自然数下标j为社区序号,常数C为j的最大值,即该 双层引用网络中的社区总数;和分别为第i位作者在第j个社区的权 威值、第i位作者的多样值和流行值,其中,权威值表示第i位作者在第j个 社区、即设定研究领域内的权威程度,多样值表示第i位作者研究内容的多 样性,流行值表示第i位作者受读者喜爱的程度,该三个字符中的上标字母a 表示该权威值、多样值和流行值是分别利用作者权威值、作者多样值和作者流 行值三种计算方法得到的;作者隶属的社区列表表明:第i 位作者共隶属于Si个社区,Si不大于双层引用网络中的社区总数C,其中,自 然数下标ji为第i位作者隶属的社区序号,ji的最大值为Si;边集合E1中的元素 (i,q,numiq)表示从ai指向aq的有向边,表示在两个序号分别为自然数i和q的作 者之间,作者ai引用了作者aq的论文,权值numiq为引用次数。

由下标2表示的第二层子网络为论文层G2={V2,E2},其设有两个集合:论 文集合V2={p1,p2,...,pd,...,pD}和边集合E2={(d,n)},pd中的自然数下标d为论文序 号,共有D篇论文;每篇论文pd由四个参数描述之,即IDd为该第d篇论文标识ID;和分别为第d篇论文的权威值、多样值和 流行值,其中,论文的权威值表示该论文的权威程度,多样值表示第d 篇论文研究内容的多样性,论文的流行值表示第d篇论文受读者的喜爱程度, 该三个字符中的上标字母p表示该权威值、多样值和流行值是分别采用论文权 威值、多样值和流行值计算方法得到的;边集合E2中的元素(d,n)表明两位序号 分别为不同自然数d,n的两篇论文之间存在从pd指向pn的有向边(d,n),表示论 文pd引用了论文pn,该边的权值为1。

作者层和论文层之间的连接边E={(ai,pd)}表示作者ai发表了论文pd,则在ai和pd之间存在有向边(i,d)。

参见图4,介绍一个双层引用网络的具体示例:在作者层有作者节点a1、 a2、a3,在论文层有论文节点p1、p2、p3、p4、p5、p6。作者a2撰写了论文p1、 p2、p3和p5,则在作者节点a2和论文节点p1、p2、p3和p5间分别存在一条有向 边;作者a1撰写了论文p1、p4,则在作者节点a1和论文节点p1、p4间分别存在 一条有向边;作者a3撰写了论文p6,则在作者节点a3和论文节点p6间存在一 条有向边;论文p2引用了论文p1、p3和p4,则存在由论文节点p2分别指向论文 节点p1、p3、p4的有向边,边的权重为1。作者a2的论文引用了作者a1的两篇 论文,则存在由作者节点a2指向作者节点a1的有向边;对于作者节点a1,其隶 属社区有c1。对于作者节点a2,其隶属社区有c1和c2;对于作者节点a3,其隶属 社区有c3.c2社区中包括了3名作者,分别是a2、a3。c1和c3社区中分别包括了 a1和a3

参见图5,介绍ACTTM模型训练单元生成ACCTM模型的操作步骤:

(1)设置论文层中的某篇论文pd以及其位于作者层中的作者集合sd

(2)选取作者集合sd中某个作者x,先计算获得该作者x的作者-社区特征 向量χ,该作者-社区特征向量χ是以参数为给定正数λ的狄利克雷分布函数,再 从参数为χ的多项分布函数中随机采样得到一个社区l;

(3)计算获得社区l的社区-主题特征向量Θ,该社区-主题特征向量Θ是参 数为给定正数α的狄利克雷分布函数,再从参数为Θ的多项分布函数中随机采样 得到一个序号为t的主题,自然数序号t的最大值为T;

(4)计算获得主题t的主题-单词特征向量Φ,该主题-单词特征向量Φ是 参数为给定正数β的狄利克雷分布函数,再从参数为Φ的多项分布函数中随机 采样得到一个单词h,且h归属于第d篇论文摘要中的单词集合Hd

(5)计算获得主题t的主题-时间特征向量ψ,该主题-时间特征向量ψ为二 项分布函数,再从参数为ψ的Beta分布函数中随机采样得到一个时间戳、即论 文发表时间z。

(四)用户兴趣模型构建模块,负责读取数据库中的用户操作记录和论文 的作者集合和发表时间信息,以及从预处理模块得到的论文摘要的分词序列, 由其两个组成部件:用户兴趣社区集合构建单元和用户属性值计算单元分别进 行相应处理后,生成用户兴趣模型。其中的两个组成单元的功能介绍如下:

用户兴趣社区集合构建单元,负责根据从数据库读取用户操作记录和论文 的发表时间及其作者信息、以及从预处理模块得到的论文摘要的分词序列,通 过ACTTM模型预测,得到用户对应每个社区的用户-社区特征向量,即每位用 户喜好每个社区的分布权值矩阵和该用户在每个社区的分布权值;再将该用户 在每个社区的分布权值与设定阈值进行比较,将大于阈值的社区作为用户的兴 趣社区,从而得到用户的兴趣社区集合。

用户属性值计算单元,负责从用户兴趣社区集合构建单元获取用户-社区特 征向量后,分别计算每个用户的权威值和多样值以便与其兴趣社区集 合中的兴趣社区一起组成该用户的兴趣模型,其数学表达式为 其中,自然数m为用户序号,IDm为用户ID,用户在C 个社区的权威值向量表示该用户在社区、即某个研究领域 内的权威性程度:若用户阅读某个领域的大量论文,则该用户在该领域的权威 值较大;权威值向量中的元素为第m位用户在第j个社区的权威值;用户 的多样值表示该第m位用户阅读的文献多样性程度,即用户涉猎的研究领域 多样性,上述字符中的上标u表示该权威值和多样值是分别采用用户权威值和 用户多样值的计算方法得到的;用户的兴趣社区集合为该 用户隶属的社区列表,下标的下标Nm表示该列表中的社区总个数。

(五)个性化学术推荐模块,负责读取用户兴趣模型构建模块构建用户的 兴趣模型,得到每个用户的兴趣社区集合、用户权威值和用户多样值,再读取 双层引用网络构建模块得到社区的作者列表、作者和论文间的著作关系、作者 的属性值和论文的属性值,并经由其两个组成部件:作者推荐列表生成单元和 论文推荐列表生成单元的处理,生成作者推荐列表和论文推荐列表。其中两个 组成单元的功能介绍如下:

作者推荐列表生成单元,用于从用户兴趣模型构建模块读取每个用户的兴 趣社区集合、用户权威值和用户多样值,再从双层引用网络构建模块读取社区 作者列表、作者的属性值,通过计算生成作者推荐列表;

论文推荐列表生成单元,用于分别从作者推荐列表生成单元和双层引用 网络构建模块读取生成的作者推荐列表、作者和论文间的著作关系和论文的 属性值,通过计算生成论文推荐列表;再以用户ID为唯一标识将作者推荐 列表和论文推荐列表存入数据库中。

(六)数据库,用于存储论文抓取模块抓取的所有论文的全部信息,包括: 作为论文ID的链接地址、题目、摘要、发表时间和作者ID,所有用户对存储的 该论文执行操作的全部行为记录,以及向用户最终推荐的作者推荐列表和论文推 荐列表;每项操作的行为记录OR=(user_id,paper_id,event_id,time),其中,user_id 为用户标识、paper_id为论文标识、event_id为操作内容,time为操作时间。

参见图6,介绍本发明基于社区的作者及其学术论文的推荐系统的推荐方 法的下述各个操作步骤:

步骤1,抓取论文:论文抓取模块利用网络爬虫在网络上抓取论文信息,包 括该论文的标题、摘要、链接地址、作者ID、参考文献和发表时间,再使用该 论文的链接地址作为该论文的唯一标识ID区分后,将抓取的该论文全部信息存 储于数据库。

步骤2,预处理模块对论文摘要进行预处理:使用斯坦福词性标注器Stanford  POS Tagger(Stanford Log-Linear Part-Of-Speech Tagger)对论文摘要分别进行分 词和标注词性的预处理操作,并保存词性标记为单数形式名词或物质名词NN (Noun,singular or mass)、复数形式名词NNS(Noun,plural)、单数形式专有 名词NP(Proper noun,singular)、复数形式名词NPS(Proper noun,plural)的 各种名词词语,再过滤并删除没有实际意义的停用词后,还要删除剩余词语数 少于5的论文摘要。

步骤3,双层引用网络构建模块读取预处理模块中的论文摘要的分词序列和 存储于数据库的包括论文作者ID、发表时间与参考文献的论文信息,利用 ACTTM模型训练生成作者-社区特征向量,利用LDA主题模型训练生成论文-主 题特征向量,再计算作者和论文的各种属性值,成功构建双层引用网络。

该步骤中,双层引用网络构建模块执行下述各项操作内容:

(31)从数据库读取论文的参考文献和作者信息,根据该论文参考文献提 取作者间与论文间的引用关系,再结合作者和论文间的著作关系构建基础网络;

(32)从预处理模块读取论文摘要的分词序列、从数据库读取论文的作者 集合及其发表时间,按照设定的社区个数和主题个数,使用ACTTM主题模型对 论文摘要的分词序列进行主题模型训练,得到作者-社区特征向量 (wi1,wi2,...,wij,...,wiC),再使用LDA主题模型对论文摘要的分词序列进行主题模型训练, 得到论文-主题特征向量(vd1,vd2,...,vdt,...,vdT),且和式中,wij是第i位 作者在第j个社区的分布权值,vdk是第d篇论文在第t个主题的分布权值,自然数 下标j和t分别是社区序号和主题序号,两者最大值分别为C和T;

(33)根据作者-社区特征向量,将大于设定阈值的社区作为该作者的隶属 社区,从而得到作者的隶属社区列表和每个社区内的作者列表;

(34)根据论文间引用关系、论文的主题特征向量和用户历史操作记录, 分别执行下述操作,计算得到论文的权威值、多样值和流行值;

计算论文权威值先从基础网络构建单元读取基础网络,根据公式 计算第d篇论文在网络拓扑中的点度入度中心度,所述点度入度 中心度是复杂网络分析技术领域中,表示网络中指向该节点的边的数量,在双 层引用网络表示该论文被引用的情况;其中,自然数d为论文序号,其最大值为 D;为论文节点pd的点度入度中心度,degree(d)为指向论文节点pd的边的总 数,再根据公式计算该论文的权威值;

计算论文多样值从ACTTM模型训练单元读取论文-主题特征向量,先 利用公式计算第d篇论文的研究内容覆盖的主题总数,即 第d篇论文的论文-主题特征向量中分布权值大于设定阈值的权值总数;再计 算第d篇论文对应的论文-主题特征向量中各个分布权值的方差和最后根据公式计算该论文的多样值,式 中,为各个分布权值的平均值,δ,ε分别为协调和的权重系数;

计算论文流行值从数据库读取用户的历史操作行为记录,通过下述公 式计算论文的流行值:其中sum{}计算符合条件的 操作记录条数,od为用户对第d篇论文的操作记录;

(35)根据作者间的引用关系、作者-社区特征向量和步骤(34)得到的论 文的权威值、多样值和流行值,分别执行下述操作计算作者的权威值、多样值 和流行值,最终得到双层引用网络;

计算作者权威值分别从基础网络构建单元和ACTTM模型训练单元读 取基础网络和作者-社区特征向量后,先从作者-社区特征向量中提取第i个作者 在第j个社区下的分布权值wij,再根据公式计算第i位作者在网 络中表示该作者论文被引用情况的点度入度中心度,其中,下标q为第q位作者, 为作者节点ai的点度入度中心度,numqi为作者节点aq指向作者节点ai的边的 权重,degree(i)为指向作者节点ai的边的集合;最后根据公式计算第 i位作者在第j个社区的权威值;顺序执行上述步骤计算即对社区序号j从1 到C都执行上述操作步骤,最终得到第i位作者的权威值

计算作者多样值从ACTTM模型训练单元读取作者-社区特征向量,先 得到第i位作者隶属社区列表中社区总个数再计算第i位作者对应的作 者-社区特征向量中各个分布权值的方差各个分布权值的平均 值最后根据公式计算得到第i位作者的多 样值,其中,δ,ε为协调和的权重系数;

计算作者流行值从数据库读取用户历史行为操作记录,根据公式 计算作者的流行值,其中,PSi为第i位作者所著的论文集合,d为第i 位作者著作的一篇论文,为步骤(3)得到的第d篇论文的流行值。

步骤4,用户兴趣模型构建模块分别读取存储于数据库的用户历史操作记录 以及包括论文作者ID、发表时间与参考文献的论文信息、还从预处理模块读取 论文摘要的分词序列,利用ACTTM模型预测得到用户-社区特征向量,通过计 算得到用户的兴趣社区集合,并根据用户-社区特征向量计算用户各种属性值, 最终成功构建用户兴趣模型;步骤4和步骤3为并行实施的;

该步骤中,用户兴趣模型构建模块执行的操作包括下列内容:

(41)从数据库中读取用户的历史操作记录,将其操作过的论文作为该用 户的论文集,再对该论文集中的论文摘要序列、论文作者集合和论文发表时间 进行ACTTM模型的预测,得到用户-社区特征向量(ym1,ym2,...,ymj,…,ymC),且式中,ymj是第m位用户在第j个社区的分布权值,自然数下标j是社区序号,其 最大值为C;

(42)将分布权值大于设定阈值的社区作为该用户的兴趣社区,得到该用 户的兴趣社区列表;

(43)根据用户的用户-社区特征向量,执行下述操作计算该用户的权威值 和多样值,以便最终得到用户的兴趣社区模型;

计算用户权威值利用ymj和通过公式分别计 算每个用户在每个社区的权威值,最终得到该用户的权威值

计算用户多样值先计算每个用户的兴趣社区列表中的社区个数再计算每个用户对应的用户-社区特征向量中各个分布权值的方差 cVmu=Σv=1C(ymv-ym)2,各个分布权值的平均值ym=ym1+ym2+...+ymCC;最后通过公式 计算得到每个用户的多样值;其中,上标u代表用户,δ,ε分别 为协调和的权重系数。

步骤5,个性化学术推荐模块读取步骤3的双层引用网络和步骤4的用户 兴趣模型,生成用户的作者推荐列表和论文推荐列表;再以该用户ID为唯一标 识,将该作者推荐列表和论文推荐列表存入数据库。

该步骤中,个性化学术推荐模块执行的操作包括下列内容:

(51)执行下列操作内容,生成初始作者推荐列表:

(511)读取步骤(4)生成的用户兴趣模型,得到用户的兴趣社区列表 用户的权威值和多样值;再对兴趣社区列表中的每个社 区分别按照步骤(512)~(515)顺序执行相应处理,以便完成全部用户的 每个兴趣社区处理后,执行步骤(516);

(512)从双层引用网络构建模块中读取第jm个社区的作者列表;

(513)通过用户的权威值分别计算第m位用户对第jm个社区中作者和论文 的三个属性值的权重系数和αjm1Ajmu,βjm=1-αjm-γjm,γjmMmu;其 中,为第m位用户在第jm个社区上的权威值,为第m位用户的多样值;

(514)通过公式计算第m位用户对社区内作者 的偏好值,i为社区内的第i位作者,和为步骤(513)得到的权重 参数;为第i位作者在社区上的权威值,和分别为第i位作者的多 样值和流行值;

(515)按照的数值大小对社区内作者进行降序排列,根据目标用户的 权威值取名作者,存入初始作者推荐列表,其中topN为设定数值;

(516)完成全部兴趣社区的计算后,删除初始作者推荐列表中重复的作者, 形成最终的作者推荐列表;

(52)读取步骤(51)中的作者推荐列表,执行下述步骤操作,生成论文 推荐列表:

(521)读取步骤(516)生成的作者推荐列表,对作者推荐列表中的每位 作者依次进行步骤(522)~(524)的操作,完成计算后,再执行步骤(525);

(522)从双层引用网络构建模块中读取第i位作者所著的论文ID、论文的 权威值、多样值和流行值;

(523)根据第m位用户对第jm个社区的作者和论文的三个属性值的权重系 数和公式Fimd=αjmAdp+βjmMdp+γjmPdp,依次计算用户对作者所著论文 的偏好值;其中,和分别为第d篇论文的权威值、多样值和流行值;

(524)按照的数值大小对作者所著论文进行降序排列,再根据目标用 户的权威值选取篇文章,存入初始论文推荐列表;

(525)完成全部推荐作者的论文的计算操作后,删除初始论文推荐列表中 重复的论文,形成最终的论文推荐列表;

(53)以用户ID为唯一标标识将作者推荐列表和论文推荐列表存于数据库。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号