首页> 外文期刊>電子情報通信学会技術研究報告 >大規模データに対する識別子独立型の特徴選択
【24h】

大規模データに対する識別子独立型の特徴選択

机译:标识符无关的特征选择,可用于大规模数据

获取原文
获取原文并翻译 | 示例
       

摘要

In this study, we attempt to perform classifier-independent feature selection (CIFS) for large-scale data such as text classification. Under the restriction of two-class and binary features, we propose an efficient method that selects a few valid features by using confidence bounds. In comparative experiments for dataset with over 100,000 features and over 100,000 samples, the proposal method obtained a near optimal feature subset.%本研究では,文書分類などの大規模データに対して,実用的な時間で行える識別子独立型の特徴選択を検討する.ニクラス,二億特徴に限定して,有効な少数の特徴の組み合わせを信頼区間を考慮して求めることで比較的効率の良い方法を提案する.特徴数およびサンプル数がともに十万を越える規模の文書分類問題に対して行った比較実験では,提案手法により最適な特徴集合に近い特徴集合が得られることが示された.
机译:在这项研究中,我们尝试对诸如文本分类之类的大规模数据执行与分类器无关的特征选择(CIFS)。在两类和二进制特征的限制下,我们提出了一种有效的方法,该方法通过使用选择一些有效特征置信范围:在具有100,000个以上特征和100,000个以上样本的数据集的比较实验中,该提议方法获得了接近最佳的特征子集。%在本研究中,可以在实际时间内识别出大规模数据,例如文档分类考虑独立的特征选择。通过考虑Niclas和2亿个特征(考虑置信区间),找到少量特征的有效组合,我们提出了一种相对有效的方法。在对特征数量和样本数量超过100,000的文档分类问题进行的比较实验中,表明所提出的技术产生的特征集接近最佳特征集。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号