Evaluating Similarity Measures for Dataset Search

机译：评估数据集搜索的相似度措施

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Dataset search engines help scientists to find research datasets for scientific experiments. Current dataset search engines are query-driven, making them limited by the appropriate specification of search queries. An alternative would be to adopt a recommendation paradigm ("if you like this dataset, you'll also like..."). Such a recommendation service requires an appropriate similarity metric between datasets. Various similarity measures have been proposed in computational linguistics and informational retrieval. The goal of this paper is to determine which similarity measure is suitable for a dataset search engine. We will report our experiments on different similarity measures over datasets. We will evaluate these similarity measures against the gold standards which are developed for Elsevier DataSearch, a commercial dataset search engine. With the help of F-measure evaluation measure and nDCG evaluation measure, we find that Wu-Palmer Similarity, a similarity measure which is based on hierarchical terminologies, can score quite good in our benchmarks.

机译：数据集搜索引擎帮助科学家查找科学实验的研究数据集。当前数据集搜索引擎是查询驱动的，使它们受到适当的搜索查询规范的限制。另一种选择是采用推荐范例（“如果您喜欢这个数据集，您也会喜欢......”）。这样的推荐服务需要数据集之间的适当相似度量。在计算语言学和信息检索中提出了各种相似措施。本文的目标是确定哪种相似度措施适用于数据集搜索引擎。我们将在数据集上报告我们的实验。我们将评估这些相似措施，以防止为为ElseVier DataSearch，商业数据集搜索引擎开发的金标准。在F措施评估措施和NDCG评估措施的帮助下，我们发现吴腭相似性，一种基于分层术语的相似性度量，可以在我们的基准中得分非常好。

著录项

来源
《International Conference on Web Information Systems Engineering》|2020年|38-51|共14页
会议地点
作者
Xu Wang; Zhisheng Huang; Frank van Harmelen;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Semantic similarity; Ontology-based similarity; Dataset search; Data science; Google Distance;

机译：语义相似;基于本体论的相似性;数据集搜索;数据科学;谷歌距离;

相似文献

外文文献
中文文献
专利

1. A fast and scalable similarity search in high-dimensional image datasets [J] . Youssef Hanyf, Hassan Silkan International Journal of Computer Applications in Technology . 2019,第1期

机译：在高维图像数据集中快速且可扩展的相似性搜索
2. Indexing schemes for similarity search in datasets of short protein fragments [J] . Aleksandar Stojmirovic, Vladimir Pestov Information Systems . 2007,第8期

机译：短蛋白质片段数据集中相似性检索的索引方案
3. Improving relevant subjective testing for validation: Comparing machine learning algorithms for finding similarities in VQA datasets using objective measures [J] . Aldahdooh Ahmed, Masala Enrico, Van Wallendael Glenn, Signal Processing. Image Communication: A Publication of the the European Association for Signal Processing . 2019,第期

机译：提高验证相关主观测试：使用客观措施将机器学习算法与VQA数据集中的相似性进行比较
4. Efficient Search with Changing Similarity Measures on Large Multimedia Datasets [C] . International Multimedia Modeling Conference . 2008

机译：高效搜索大型多媒体数据集的变化相似度测量
5. Hashing Based Similarity Search over Massive Datasets [D] . Li, Jinfeng. 2018

机译：基于哈希的大规模数据集相似度搜索
6. Datasets on statistical analysis and performance evaluation of backtracking search optimisation algorithm compared with its counterpart algorithms [O] . Bryar A. Hassan, Tarik A. Rashid 2020

机译：回溯搜索优化算法与其对应算法相比的统计分析和性能评估数据集
7. Ranked Similarity Search of Scientific Datasets: An Information Retrieval Approach [O] . Megler Veronika Margaret 2014

机译：科学数据集的相似性搜索：信息检索方法
8. Quantifying Similarity and Distance Measures for Vector-Based Datasets: Histograms, Signals, and Probability Distribution Functions. [R] . Tschopp, M. A., Hernandez-Rivera, E. 2017

机译：量化基于矢量的数据集的相似性和距离度量：直方图，信号和概率分布函数。

Evaluating Similarity Measures for Dataset Search

摘要

著录项

相似文献

相关主题

期刊订阅