首页> 中文学位 >层次文本分类中阻塞减少策略的研究
【6h】

层次文本分类中阻塞减少策略的研究

代理获取

目录

文摘

英文文摘

东南大学学位论文独创性声明及使用授权声明

第一章引言

1.1 研究背景

1.2研究现状

1.3本文的研究目标

1.4本文章节安排

第二章文本分类和层次文本分类基础

2.1文本分类的定义

2.2文本表示

2.3文本分类技术

2.3.1文本分类的两个阶段

2.3.2文本分类算法

2.4文本分类器的评价标准

2.5层次型文本分类

2.5.1类别层次结构的类型

2.5.2层次型文本分类的类型

2.5.3层次型分类的优点

第三章阻塞减少策略的分析与阈值降低类策略的研究

3.1阻塞与阻塞因子

3.2阻塞减少策略的研究现状

3.2.1阈值降低类

3.2.2累乘类

3.2.3分类器组织类

3.3阈值降低法与平面型分类的阈值策略

3.3.1 RCut、PCut和SCut

3.3.2阈值降低法和SCut的比较与分析

3.4基于柱状搜索的阻塞减少策略

3.5基于预测的阻塞减少策略

3.6基于概率密度估计的阻塞减少策略

第四章相关实验及分析与比较

4.1实验文本集和类别层次结构

4.2文本预处理

4.3训练文本的选取

4.4实验中使用的分类算法与实验结果

4.5对实验数据的进一步分析

4.5.1下层分类器对上层错分文本的过滤力度

4.5.2正态性检查

4.6显著性测试

第五章总结与展望

5.1本文的主要工作

5.2展望

参考文献

致谢

展开▼

摘要

电子信息的增长使得人们无法快速地找到自己真正感兴趣的内容。为了更好的组织和管理信息,研究者们引入了文本分类、特别是层次型文本分类技术。相对于层次型文本分类中的爆发式,自顶而下式层次分类能够更好的利用层次结构所提供的信息,然而此种层次分类法也存在“阻塞”这一缺点:如果一个文本在某个正确的祖先类别上被拒绝,则其永远不可能被分到正确的叶类别上。 由于阻塞会导致层次分类系统分类精度的降低,故阻塞减少策略在近年来得到了广泛的关注和研究。本文在前人工作的基础上,着重对阈值降低类的阻塞减少策略进行了研究。 本文首先对文本分类和层次文本分类的基本概念和知识进行了归纳;分析了阻塞对层次分类精度的影响;依据现有阻塞减少策略特点将其分为阈值降低类、累乘类和分类器组织类三种类型,并分析比较了三类方法各自的优缺点;讨论了阈值降低法的同平面型分类中SCut策略的区别与联系。 在此基础上,本文从改变阈值降低法中使用的阈值策略,改用其它可调参数备选值较少的阈值策略出发,提出了基于柱状搜索的阻塞减少策略,实验表明本方法在减少阻塞、增大叶类别查全率的同时,仍然能够保持较高的查准率,而且整个系统的F<'M><,1>测度也比较高;考虑到其它分类器阈值确定后分类器C<,1>的阈值变化只影响其工作域类别分类效果的性质,提出了基于预测的阻塞减少策略,实验表明本方法能够减少阻塞、增大叶类别查全率,提高整个系统的F<'M><,1>测度,但同时查准率有少许下降;最后在借鉴平面型分类PCut策略的基础上,通过利用线性分类器输出得分分布的特点,提出了基于概率密度估计的阻塞减少策略,实验表明本方法虽能够很好的减少阻塞、增大叶类别查全率,但由于查准率过低导致整个系统F<'M><,1>测度的下降。 在对三种策略进行详细说明的基础上,我们使用Reuters21578文本集对标准层次分类法和阈值降低类方法进行了对比实验,并结合实验数据对基于概率密度估计的阻塞减少策略的效果进行了探讨和分析。最后我们使用s-test标准衡量了各种方法对标准层次分类法的改良程度,结果表明基于预测的阻塞减少策略在同阈值降低法近似的计算耗费下,为层次结构中各个内部分类器设置了最为合理的阈值,在减少阻塞的同时,能够提高较多叶类别的分类效果,因此我们认为该策略减少阻塞提高分类效果的作用最显着。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号