首页> 中文学位 >基于非监督语义编码的图核模型研究
【6h】

基于非监督语义编码的图核模型研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 研究内容与创新点

1.4 论文结构

第2章 相关技术概述

2.1 文档表示模型

2.1.1 向量空间模型

2.1.2 结构化模型

2.2 主题模型

2.2.1 概率隐性语义索引

2.2.2 LDA模型

2.3 语言模型

2.4 图核

2.4.1 基于随机游走的图核

2.4.2 基于最短路径的图核

2.4.3 Weisfeiler-Lehman同构检测

2.5 本章小结

第3章 基于Word2vec和Weisfeiler-Lehman同构检测的图核及其应用

3.1 文本的词向量

3.2 结点标签映射

3.3 基于Weisfeiler-Lehman的图核

3.2.1 Weisfeiler-Lehman子树核

3.2.2 Weisfeiler-Lehman最短路径核

3.4 实验结果与评估

3.4.1 实验过程及参数设置

3.4.2 实验结果及评估

3.5 本章小结

第4章 基于LDA主题模型和邻居哈希的图核及其应用

4.1 任务概述

4.2 文本的图结构

4.3 图结点的语义化

4.4 基于邻居哈希的图核

4.4.1 邻居哈希运算

4.4.2 基于邻居哈希的图核

4.5 实验结果分析

4.5.1 数据描述

4.5.2 参数设置

4.5.3 实验结果及评估

4.6 本章小结

第5章 总结与展望

5.1 论文总结

5.2 工作展望

参考文献

致谢

硕士期间发表的论文

展开▼

摘要

一般地,在进行对象建模时通常有两种模式:基于统计的方法和基于结构的方法。在统计模式识别中,研究对象常表示为特征向量。特征向量的表示形式具有数学运算上的优势,但另一方面它缺乏对关系的表现力,且定长的特性限制了该表示方法的灵活性。在结构模式识别中,研究对象通常用图模型表示。图结构不仅能表示对象的特性,还可以刻画对象的不同部分之间的关系,从拓扑结构方面表示规模大小各不相同的研究对象。但类似向量和、积、距离等运算在图结构上并没有统一规范的定义,原本线性时间复杂度的运算通常需要指数级的时间。
  基于图在表示复杂结构化数据时的优越性,图数据在各类应用领域中大量出现。作为图挖掘的中心研究问题,图的相似性衡量受到了格外关注。传统图比较方法存在计算时间随着图规模增加而大大增加或为了简化图表示而忽略部分拓扑信息等问题。近年来,图核成为图比较的一种有效方式。核方法通过映射将基本线性算法扩展到复杂非线性算法,从而解决数据中非线性运算规范问题,使得原本适用于向量的标准算法也适用于图。
  本文首先研究了国内外现有的定义于不同子结构的图核模型,它们能够有效地进行图之间的比较。然而大多数图核存在以下局限性:(a)图核定义时所涉及的图结点大多为单标签的,而很多时候结点会有多个属性或同时属于多个类别;(b)图结构中边通常描述了蛋白质的结构信息或化合物原子间化学键的存在与否,其语义信息通常被忽略;(c)大部分图核的计算仍然需要多项式的时间复杂度;(d)现有图核多作用于蛋白质和分子数据,相比于文本或图像中的高维特征,其标签数量较少。而当结点类型空间较大时,其计算所得的相似度将趋近于零。
  根据现有技术的不足,本文进行了图核的相关研究和扩展,提出了两类基于语义的图核:基于LDA主题模型和邻居哈希的图核以及基于Word2vec语言模型和Weisfeiler-Lehman同构检测的图核,并将算法应用于文本分类任务以证明方法的有效性和高效性。前者利用主题模型从潜在语义层面即主题维度来描述文档,通过图结构刻画特征词项之间的空间关系,利用邻居哈希运算的定义使得该图核能高效计算图的相似性,从而体现原文档的相似性。后者从语言模型出发,根据相似的上下文将字面上无关的词项连接起来,获取词项的语义词向量。通过图结构表示特征词项之间的空间关系,以图数据之间的相似程度体现原始文本的相似性。本文以两个开放的语料库为实验数据,分别应用上述两种方法进行文本分类任务。实验结果表明,两类图核模型在体现出较好的分类准确率的同时,在计算效率上有较大提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号