首页> 中文会议>第二届中国分类技术及应用学术会议 >不均衡数据集上文本分类的特征选择研究

不均衡数据集上文本分类的特征选择研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进。

著录项

来源
《第二届中国分类技术及应用学术会议》|2007年|58-62|共5页
会议地点郑州
作者
徐燕; 华北电力大学; 李锦涛; 王斌; 孙春明; 张森;
展开▼
作者单位

中国计算机学会;

郑州大学;

计算机研究与发展编辑部;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类模式识别与装置;
关键词
不均衡数据集; 特征选择; 文本自动分类; 信息检索; 数据挖掘;
入库时间 2022-08-17 10:14:40

相似文献

中文文献
外文文献
专利

1. 不均衡数据集上文本分类的特征选择研究 [J] . 徐燕 ,李锦涛 ,王斌 . 计算机研究与发展 . 2007,第0z2期
2. 不平衡数据集上的文本分类特征选择新方法 [J] . 张玉芳 ,王勇 ,熊忠阳 . 计算机应用研究 . 2011,第012期
3. 不均衡数据集上文本分类方法研究 [J] . 谢娜娜 ,房斌 ,吴磊 . 计算机工程与应用 . 2013,第020期
4. 不均衡数据集文本分类中少数类样本生成方法研究 [J] . 杜娟 ,姜丽丽 ,陈红丽 . 计算机应用研究 . 2009,第010期
5. 基于偏斜数据集的文本分类特征选择方法研究 [J] . 刘振岩 ,孟丹 ,王伟平 . 中文信息学报 . 2014,第002期
6. 非均衡文本分类中基于特征分布的抽样技术研究 [C] . 张爱华 ,王斌 ,徐燕 . 第六届全国信息检索学术会议 . 2010
7. 非均衡文本分类的特征选择研究 [A] . 王强 . 2013

不均衡数据集上文本分类的特征选择研究

摘要

著录项

相似文献

相关主题

期刊订阅