Similarity Measures for Categorical Data: A Comparative Evaluation

机译：分类数据的相似性措施：比较评估

获取原文

获取外文期刊封面目录资料

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Measuring similarity or distance between two entities is a key step for several data mining and knowledge discovery tasks. The notion of similarity for continuous data is relatively well-understood, but for categorical data, the similarity computation is not straightforward. Several data-driven similarity measures have been proposed in the literature to compute the similarity between two categorical data instances but their relative performance has not been evaluated. In this paper we study the performance of a variety of similarity measures in the context of a specific data mining task: outlier detection. Results on a variety of data sets show that while no one measure dominates others for all types of problems, some measures are able to have consistently high performance.

机译：两个实体之间的测量相似度或距离是几个数据挖掘和知识发现任务的关键步骤。对于连续数据的相似性的概念相对良好地理解，但对于分类数据，相似性计算并不简单。在文献中提出了几种数据驱动的相似度测量，以计算两个分类数据实例之间的相似性，但尚未评估其相对性能。在本文中，我们在特定数据挖掘任务的上下文中研究了各种相似性测量的性能：异常检测。结果各种数据集显示，虽然没有一种措施占据所有类型的问题，但有些措施能够始终如一的高性能。

著录项

来源
《SIAM International Conference on Data Mining》|2008年|869 p.|共12页
会议地点
作者
Shyam Boriah; Varun Chandola; Vipin Kumar;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP274.2-53;
关键词

相似文献

外文文献
中文文献
专利

1. Comparison of Similarity Measures for Categorical Data in Hierarchical Clustering [J] . Sulc Zdenek, Rezankova Hana Journal of classification . 2019,第1期

机译：分层聚类中分类数据相似度量的比较
2. Categorical data clustering: What similarity measure to recommend? [J] . Tiago R.L. dos Santos, Luis E. Zarate Expert Systems with Application . 2015,第3期

机译：分类数据聚类：推荐什么样的相似性度量？
3. How to measure similarity for multiple categorical data sets? [J] . Park Simon Soon-Hyoung, Song Justin JongSu, Lee James Jung-Hoon, Multimedia Tools and Applications . 2015,第10期

机译：如何衡量多个分类数据集的相似性？
4. Similarity Measures for Categorical Data: A Comparative Evaluation [C] . Shyam Boriah, Varun Chandola, Vipin Kumar SIAM International Conference on Data Mining . 2008

机译：分类数据的相似性措施：比较评估
5. Statistical Methods for Topics Involving Repeated Measures for Categorical Data [D] . Yu, Jing. 2019

机译：涉及分类数据的重复措施的主题统计方法
6. Evaluation of GO-based functional similarity measures using S. cerevisiae protein interaction and expression profile data [O] . Tao Xu, LinFang Du, Yan Zhou 2008

机译：使用酿酒酵母蛋白相互作用和表达谱数据评估基于GO的功能相似性
7. Similarity Measures for Categorical Data: A Comparative Evaluation [O] . Shyam Boriah, Varun Chandola, Vipin Kumar 2008

机译：分类数据的相似性度量：比较评估

Similarity Measures for Categorical Data: A Comparative Evaluation

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅