基于非监督语义编码的图核模型研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

一般地，在进行对象建模时通常有两种模式:基于统计的方法和基于结构的方法。在统计模式识别中，研究对象常表示为特征向量。特征向量的表示形式具有数学运算上的优势，但另一方面它缺乏对关系的表现力，且定长的特性限制了该表示方法的灵活性。在结构模式识别中，研究对象通常用图模型表示。图结构不仅能表示对象的特性，还可以刻画对象的不同部分之间的关系，从拓扑结构方面表示规模大小各不相同的研究对象。但类似向量和、积、距离等运算在图结构上并没有统一规范的定义，原本线性时间复杂度的运算通常需要指数级的时间。
　　基于图在表示复杂结构化数据时的优越性，图数据在各类应用领域中大量出现。作为图挖掘的中心研究问题，图的相似性衡量受到了格外关注。传统图比较方法存在计算时间随着图规模增加而大大增加或为了简化图表示而忽略部分拓扑信息等问题。近年来，图核成为图比较的一种有效方式。核方法通过映射将基本线性算法扩展到复杂非线性算法，从而解决数据中非线性运算规范问题，使得原本适用于向量的标准算法也适用于图。
　　本文首先研究了国内外现有的定义于不同子结构的图核模型，它们能够有效地进行图之间的比较。然而大多数图核存在以下局限性:(a)图核定义时所涉及的图结点大多为单标签的，而很多时候结点会有多个属性或同时属于多个类别;(b)图结构中边通常描述了蛋白质的结构信息或化合物原子间化学键的存在与否，其语义信息通常被忽略;(c)大部分图核的计算仍然需要多项式的时间复杂度;(d)现有图核多作用于蛋白质和分子数据，相比于文本或图像中的高维特征，其标签数量较少。而当结点类型空间较大时，其计算所得的相似度将趋近于零。
　　根据现有技术的不足，本文进行了图核的相关研究和扩展，提出了两类基于语义的图核:基于LDA主题模型和邻居哈希的图核以及基于Word2vec语言模型和Weisfeiler-Lehman同构检测的图核，并将算法应用于文本分类任务以证明方法的有效性和高效性。前者利用主题模型从潜在语义层面即主题维度来描述文档，通过图结构刻画特征词项之间的空间关系，利用邻居哈希运算的定义使得该图核能高效计算图的相似性，从而体现原文档的相似性。后者从语言模型出发，根据相似的上下文将字面上无关的词项连接起来，获取词项的语义词向量。通过图结构表示特征词项之间的空间关系，以图数据之间的相似程度体现原始文本的相似性。本文以两个开放的语料库为实验数据，分别应用上述两种方法进行文本分类任务。实验结果表明，两类图核模型在体现出较好的分类准确率的同时，在计算效率上有较大提升。

著录项

作者
彭莉;
展开▼
作者单位

西南大学;

展开▼
授予单位西南大学;
学科计算机应用技术
授予学位硕士
导师姓名黄智兴;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类图像信号处理;
关键词
知识表示; 非监督语义编码; 图核模型; 图挖掘;

相似文献

中文文献
外文文献
专利

1. 基于可变核的月径流改进非参数解集模型研究 [J] . 吴昊昊 ,宋松柏 . 水力发电学报 . 2021,第2期
2. 基于高斯混合模型的海冰图像非监督聚类分割研究 [J] . 兰志刚 ,靳卫卫 ,朱明亮 . 海洋科学 . 2011,第011期
3. 中央非税收入监督机制研究——基于黑龙江省中央政府非税收入监督管理情况的调查分析 [J] . . 财政监督 . 2010,第017期
4. 一种基于非负低秩稀疏图的半监督学习改进算法 [J] . 张涛 ,唐振民 . 电子与信息学报 . 2017,第004期
5. 基于动态独立成分分析和动态主成分分析的测地线流式核无监督回归模型 [J] . 来颜博 ,阎高伟 ,程兰 . 上海交通大学学报 . 2020,第12期
6. 一种基于空间句法的图核类非精确图匹配方法 [C] . 李智杰 ,李昌华 ,姚鹏 . 第二届全国图象图形联合学术会议 . 2013
7. 基于主题模型和图核模型的图像分类算法的研究与应用 [A] . 康南南 . 2014

基于非监督语义编码的图核模型研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅