首页> 外文OA文献 >Unsupervised Graph-Based Similarity Learning Using Heterogeneous Features.
【2h】

Unsupervised Graph-Based Similarity Learning Using Heterogeneous Features.

机译:基于异构特征的无监督图的相似性学习。

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

Relational data refers to data that contains explicit relations among objects. Nowadays, relationaldata are universal and have a broad appeal in many different application domains. Theproblem of estimating similarity between objects is a core requirement for many standardMachine Learning (ML), Natural Language Processing (NLP) and Information Retrieval(IR) problems such as clustering, classiffication, word sense disambiguation, etc. Traditionalmachine learning approaches represent the data using simple, concise representations suchas feature vectors. While this works very well for homogeneous data, i.e, data with a singlefeature type such as text, it does not exploit the availability of dfferent feature types fully.For example, scientic publications have text, citations, authorship information, venue information.Each of the features can be used for estimating similarity. Representing suchobjects has been a key issue in efficient mining (Getoor and Taskar, 2007). In this thesis,we propose natural representations for relational data using multiple, connected layers ofgraphs; one for each feature type. Also, we propose novel algorithms for estimating similarityusing multiple heterogeneous features. Also, we present novel algorithms for tasks like topic detection and music recommendation using the estimated similarity measure. Wedemonstrate superior performance of the proposed algorithms (root mean squared error of24.81 on the Yahoo! KDD Music recommendation data set and classiffication accuracy of88% on the ACL Anthology Network data set) over many of the state of the art algorithms,such as Latent Semantic Analysis (LSA), Multiple Kernel Learning (MKL) and spectralclustering and baselines on large, standard data sets.
机译:关系数据是指包含对象之间显式关系的数据。如今,关系数据是通用的,并且在许多不同的应用领域中具有广泛的吸引力。估计对象之间相似性的问题是许多标准机器学习(ML),自然语言处理(NLP)和信息检索(IR)问题(例如聚类,分类,词义消歧等)的核心要求。传统的机器学习方法使用简单,简洁的表示形式,例如特征向量。虽然这对于同类数据(即具有文本等单一功能类型的数据)非常有效,但它并未充分利用不同特征类型的可用性。例如,科学出版物具有文本,引文,作者信息,会场信息。这些特征可用于估计相似性。代表这样的对象一直是有效挖掘中的关键问题(Getoor和Taskar,2007)。在本文中,我们提出了使用多层连接的图来自然表示关系数据的方法。每个功能类型一个。另外,我们提出了使用多个异构特征来估计相似性的新颖算法。此外,我们使用估计的相似性度量为任务提供了新颖的算法,例如主题检测和音乐推荐。证明了所提出算法在许多最新算法(例如潜伏算法)上的优越性能(Yahoo! KDD Music推荐数据集的均方根误差为24.81,ACL Anthology Network数据集的分类精度为88%)大型标准数据集的语义分析(LSA),多核学习(MKL)以及频谱聚类和基线。

著录项

  • 作者

    Muthukrishnan Pradeep;

  • 作者单位
  • 年度 2011
  • 总页数
  • 原文格式 PDF
  • 正文语种 en_US
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号