A Framework to Generate Synthetic Multi-label Datasets

Jimena Torres Tomás; Newton Spola?r; Everton Alvares Cherman; Maria Carolina Monard

首页> 外文期刊>Electronic Notes in Theoretical Computer Science >A Framework to Generate Synthetic Multi-label Datasets

【24h】

A Framework to Generate Synthetic Multi-label Datasets

机译：生成合成多标签数据集的框架

获取原文

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

A controlled environment based on known properties of the dataset used by a learning algorithm is useful to empirically evaluate machine learning algorithms. Synthetic (artificial) datasets are used for this purpose. Although there are publicly available frameworks to generate synthetic single-label datasets, this is not the case for multi-label datasets, in which each instance is associated with a set of labels usually correlated. This work presentsMldatagen, a multi-label dataset generator framework we have implemented, which is publicly available to the community. Currently, two strategies have been implemented inMldatagen: hypersphere and hypercube. For each label in the multi-label dataset, these strategies randomly generate a geometric shape (hypersphere or hypercube), which is populated with points (instances) randomly generated. Afterwards, each instance is labeled according to the shapes it belongs to, which defines its multi-label. Experiments with a multi-label classification algorithm in six synthetic datasets illustrate the use ofMldatagen.

机译：基于学习算法使用的数据集的已知属性的受控环境可用于根据经验评估机器学习算法。合成（人工）数据集用于此目的。尽管存在公开生成合成单标签数据集的框架，但对于多标签数据集却不是这种情况，在多标签数据集中，每个实例都与通常相关的一组标签相关联。这项工作介绍了Mldatagen，这是我们已实现的多标签数据集生成器框架，可向社区公开使用。当前，Mldatagen中已实现两种策略：超球面和超立方体。对于多标签数据集中的每个标签，这些策略会随机生成一个几何形状（超球面或超立方体），并填充有随机生成的点（实例）。之后，根据每个实例所属的形状对其进行标记，从而定义其多标签。在六个合成数据集中使用多标签分类算法进行的实验说明了Mldatagen的使用。

著录项

来源
《Electronic Notes in Theoretical Computer Science》 |2014年第2期|共22页
作者
Jimena Torres Tomás; Newton Spola?r; Everton Alvares Cherman; Maria Carolina Monard;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种
中图分类计算技术、计算机技术;
关键词
data generatorartificial datasetsmulti-label learningpublicly available frameworkJavaPHP;

机译：数据生成器人工数据集多标签学习公开可用框架JavaPHP;

相似文献

外文文献
中文文献
专利

1. Tips, guidelines and tools for managing multi-label datasets: The mldr.datasets R package and the Cometa data repository [J] . Charte Francisco, Rivera Antonio J., Charte David, Neurocomputing . 2018,第MAY10期

机译：管理多标签数据集的提示，准则和工具：mldr.datasets R软件包和Cometa数据存储库
2. G-Tric: generating three-way synthetic datasets with triclustering solutions [J] . Jo?o Lobo, Rui Henriques, Sara C. Madeira BMC Bioinformatics . 2021,第1期

机译：G-TRIC：使用TriClustering解决方案生成三通合成数据集
3. On Generating Network Traffic Datasets with Synthetic Attacks for Intrusion Detection [J] . Cordero Carlos Garcia, Vasilomanolakis Emmanouil, Wainakh Aidmar, ACM transactions on privacy and security . 2021,第2期

机译：在具有合成攻击的网络流量数据集进行入侵检测
4. On the use of automatically generated synthetic image datasets for benchmarking face recognition [C] . Laurent Colbois, Tiago de Freitas Pereira, Sébastien Marcel IEEE International Joint Conference on Biometrics . 2021

机译：关于使用自动生成的合成图像数据集进行基准识别
5. Noise reduction in user generated datasets. [D] . Gutierrez, Louis Alberto. 2014

机译：用户生成的数据集中的降噪。
6. G-Tric: generating three-way synthetic datasets with triclustering solutions [O] . João Lobo, Rui Henriques, Sara C. Madeira 2021

机译：G-TRIC：使用TriClustering解决方案生成三通合成数据集
7. A framework to generate synthetic multi-label datasets [O] . Tomas, Jimena Torres, Spolaôr, Newton, Cherman, Everton Alvares, 2014

机译：生成合成多标签数据集的框架

A Framework to Generate Synthetic Multi-label Datasets

摘要

著录项

相似文献

相关主题

期刊订阅