In this study, we attempt to perform classifier-independent feature selection (CIFS) for large-scale data such as text classification. Under the restriction of two-class and binary features, we propose an efficient method that selects a few valid features by using confidence bounds. In comparative experiments for dataset with over 100,000 features and over 100,000 samples, the proposal method obtained a near optimal feature subset.%本研究では,文書分類などの大規模データに対して,実用的な時間で行える識別子独立型の特徴選択を検討する.ニクラス,二億特徴に限定して,有効な少数の特徴の組み合わせを信頼区間を考慮して求めることで比較的効率の良い方法を提案する.特徴数およびサンプル数がともに十万を越える規模の文書分類問題に対して行った比較実験では,提案手法により最適な特徴集合に近い特徴集合が得られることが示された.
展开▼