首页> 中文学位 >异构信息网络上的主题建模研究
【6h】

异构信息网络上的主题建模研究

代理获取

摘要

随着Web应用的蓬勃发展,现实世界中存在大量的对象,它们相互之间存在各种各样的交互关系,形成一个庞大的、相互联系的复杂网络,我们称这个网络为信息网络。现实中,信息网络无处不在,并且成为现代信息基础设施的一个重要部分。为了更好地理解信息网络及其特性,信息网络分析技术已经引起了人们的关注,而且广泛地应用于数据挖掘、数据分析等领域。
  当信息网络中的对象和链接都是单类型时,称为同构信息网络。比如DBLP作者合作网络中对象仅代表作者,链接仅代表作者之间的合作关系。当信息网络中的对象或链接是多种类型时,称为异构信息网络。比如在DBLP文献网络中有三种类型的对象,即论文、作者和会议,两种类型的链接,即论文和作者之间“写”与“被写”的关系,论文和会议之间“发表”与“被发表”的关系。到目前为止,在同构信息网络分析的研究中已经有了很多有影响的算法和应用,如PageRank算法,HITS算法,社区发现等。但是,现实世界中的网络大都是异构信息网络,其中不同类型对象间的复杂联系揭示了更重要的结构语义信息,所以异构信息网络研究成为数据挖掘中一个新的研究热点。
  主题建模是文档分析的一种重要的方法,它能够发现隐藏在文档集中的潜在主题,并且广泛地应用于机器学习和自然语言处理等领域。近些年来,文本文档,如网页、论文、博客等,越来越丰富,而且相互之间或与其他对象之间(如用户)通过各种各样的方式进行联系,形成各种各样的异构信息网络。在异构信息网络中,对象间的链接关系隐含着大量的网络结构语义,对象本身也含有丰富的文本内容。所以研究异构信息网络上的主题建模技术是很有必要的。目前大多数的研究只关注同构信息网络上的主题建模,对异构信息网络上的主题建模研究尚不多见。
  本文针对异构信息网络上的主题建模问题展开研究,首先提出了一种使用潜在语义分析基于主题传播的主题模型LSA-PTM,将文本内容和网络结构结合在一起进行主题建模,在LSA-PTM基础上,进一步考虑异构信息网络和文本文档两者之间的主题内在一致性,本文又提出了一种更加优化的统一主题模型cluTM。本文的主要工作和贡献总结如下:
  1.提出一种使用潜在语义分析基于主题传播的主题模型LSA-PTM,该模型提出一种主题传播的方法将异构信息网络融合到主题建模中,从而改进了主题建模的效果。对于建模出的主题,LSA-PTM为每个主题计算出一个主题描述以提高主题的可读性。DBLP数据集上的实验结果表明,较于其他几种主流的主题模型,LSA-PTM取得了更好的效果.
  2.提出一种融合内容和链接的统一的主题模型cluTM,该模型使用潜在语义分析对文档-短语矩阵以及异构信息网络中的链接矩阵进行联合矩阵分解,将文本文档和异构信息网络融合在一个统一的框架中,使得文本内容和异构网络结构能够在主题建模的过程中能够直接地相互促进,从而提高主题建模和对象聚类的效果。DBLP数据集上的实验结果表明,cluTM的效果优于LSA-PTM。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号