Parameterized generation of labeled datasets for text categorization based on a hierarchical directory

机译：基于分层目录的文本分类的标记数据集的参数化生成

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Although text categorization is a burgeoning area of IR research, readily available test collections in this field are surprisingly scarce. We describe a methodology and system (named ACCIO) for automatically acquiring labeled datasets for text categorization from the World Wide Web, by capitalizing on the body of knowledge encoded in the structure of existing hierarchical directories such as the Open Directory. We define parameters of categories that make it possible to acquire numerous datasets with desired properties, which in turn allow better control over categorization experiments. In particular, we develop metrics that estimate the difficulty of a dataset by examining the host directory structure. These metrics are shown to be good predictors of categorization accuracy that can be achieved on a dataset, and serve as efficient heuristics for generating datasets subject to user's requirements. A large collection of automatically generated datasets are made available for other researchers to use.

机译：尽管文本分类是IR研究的新兴领域，但令人惊讶的是，该领域中现成的测试集合非常稀缺。我们描述了一种方法和系统（称为ACCIO），该方法和系统用于通过自动利用现有分层目录（例如Open）的结构中编码的知识，从Internet自动获取标记文本的标签数据集，以便从万维网进行分类。目录。我们定义类别的参数，从而可以获取具有所需属性的众多数据集，从而可以更好地控制分类实验。特别是，我们开发了可通过检查主机目录结构来估算数据集难度的指标。这些度量标准可以很好地预测可以在数据集上实现的分类准确性，并且可以作为根据用户要求生成数据集的有效启发法。大量自动生成的数据集可供其他研究人员使用。 展开▼

著录项

来源
《Annual international ACM SIGIR conference on Research and development in information retrieval;International ACM SIGIR conference on Research and development in information retrieval》|2004年|P.250-257|共8页

会议地点

作者
Dmitry Davidov; Evgeniy Gabrilovich; Shaul Markovitch;
展开▼

作者单位

展开▼

会议组织

原文格式 PDF

正文语种

中图分类各种专用数据库;

关键词

相似文献

外文文献

中文文献

专利

1. SANAD: Single-label Arabic News Articles Dataset for automatic text categorization [J] . Omar Einea, Ashraf Elnagar, Ridhwan Al Debsi Data in Brief . 2019,第1期

机译：SANAD：用于自动文本分类的单标签阿拉伯新闻文章数据集

2. An evaluation study on text categorization using automatically generated labeled dataset [J] . Zhu Dengya, Wong Kok Wai Neurocomputing . 2017,第AUGa2期

机译：使用自动生成的标记数据集进行文本分类的评估研究

3. Boosting multi-label hierarchical text categorization [J] . Andrea Esuli, Tiziano Fagni, Fabrizio Sebastiani Information retrieval . 2008,第4期

机译：促进多标签分层文本分类

4. Parameterized generation of labeled datasets for text categorization based on a hierarchical directory [C] . Dmitry Davidov, Evgeniy Gabrilovich, Shaul Markovitch Annual international ACM SIGIR conference on Research and development in information retrieval . 2004

机译：基于分层目录的文本分类的标记数据集的参数化生成

5. Induction in hierarchical multi-label domains with focus on text categorization. [D] . Dendamrongvit, Sareewan. 2011

机译：归纳多层标签域，重点关注文本分类。

6. SANAD: Single-label Arabic News Articles Dataset for automatic text categorization [O] . Omar Einea, Ashraf Elnagar, Ridhwan Al Debsi 2019

机译：SANAD：用于自动文本分类的单标签阿拉伯新闻文章数据集

7. Parameterized Generation of Labeled Datasets for Text Categorization Based on a Hierarchical Directory [O] . Dmitry Davidov, Evgeniy Gabrilovich, Shaul Markovitch 2004

机译：基于分层目录的文本分类标签数据集的参数化生成

1. 不均衡数据集文本分类中少数类样本生成方法研究 [J] . 杜娟 ,姜丽丽 ,陈红丽 . 计算机应用研究 . 2009,第010期

2. 目录与关系数据库的分层映射数据集成模型 [J] . 逯文晖 ,郑晓薇 ,顾慧 . 计算机工程与设计 . 2010,第021期

3. 基于偏斜数据集的文本分类特征选择方法研究 [J] . 刘振岩 ,孟丹 ,王伟平 . 中文信息学报 . 2014,第002期

4. 基于不平衡数据集的文本分类技术研究 [J] . 白凤凤 . 电脑编程技巧与维护 . 2010,第006期

5. 基于不平衡数据集的文本分类技术 [J] . 王成强 . 电脑知识与技术 . 2009,第036期

6. 不均衡数据集上文本分类的特征选择研究 [C] . 徐燕 ,华北电力大学 ,李锦涛 . 第二届中国分类技术及应用学术会议 . 2007

7. 基于不均衡数据集的文本分类算法研究 [A] . 谢娜娜 . 2013

1. 基于生成式对抗网络实现文本分类数据集扩展方法 [P] . 中国专利： CN108897769A . 2018-11-27

2. 一种目录生成方法、系统及基于该目录生成方法的管理方法 [P] . 中国专利： CN108255907A . 2018-07-06

3. Automatic generation of composite datasets based on hierarchical fields [P] . 外国专利： US10678860B1 . 2020-06-09

机译：基于分层字段自动生成复合数据集

4. Automatic generation of composite datasets based on hierarchical fields [P] . 外国专利： US9542446B1 . 2017-01-10

机译：基于分层字段自动生成复合数据集

5. AUTOMATIC GENERATION OF COMPOSITE DATASETS BASED ON HIERARCHICAL FIELDS [P] . 外国专利： EP3182305A1 . 2017-06-21

机译：基于分层字段的复合数据集自动生成

相关主题

Parameterized generation of labeled datasets for text categorization based on a hierarchical directory

摘要

著录项

相似文献

相关主题

期刊订阅