首页> 中文学位 >一种提取类核的快速文本分类方法
【6h】

一种提取类核的快速文本分类方法

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1论文研究的背景及意义

1.2国内外的研究现状

1.3本文的研究内容

1.4本文的组织结构

第2章文本分类概述

2.1基于机器学习的文本分类方法

2.1.1文本表示

2.1.2降维技术

2.1.3分类方法

2.2基于概念的文本分类方法简介

2.3分类性能评估

2.4本章小结

第3章提取类核的文本分类模型

3.1提取类核的思想

3.2提取类核的哲学观点

3.3提取类核的文本分类模型

3.4提取类核技术

3.4.1提取类核考虑的主要因素

3.4.2提取类核方法

3.4.3滑动窗口模拟上下文语言环境

3.4.4类核提取与传统的特征选择的关系

3.5基于类核的分类算法

3.6本章小结

第4章实验与结果分析

4.1实验系统

4.1.1系统设计目的

4.1.2系统结构

4.1.3系统各模块的实现

4.2实验环境和语料

4.3实验结果与分析

4.3.1实验一:特征选择方法的实验对比

4.3.2实验二:分类方法的实验对比

4.3.3实验三:圆心法和经验法的实验对比

4.3.4实验总结

4.4本章小结

总结与展望

参考文献

致 谢

附录A攻读硕士学位期间所发表的学术论文

展开▼

摘要

随着电子文本呈指数级的增长,自动文本分类技术得到了越来越多的关注,这种根据文本内容自动将文本分门别类的技术为人们快速有效地组织文本和挖掘有价值的信息提供了有力的帮助。近年来,自动文本分类技术的研究获得了长足的发展,涌现出了许多新的技术和方法,但是,这些技术与方法在大规模的应用背景下仍然存在很多困难,仍然有许多课题值得研究。
   从研究路线角度来看,文本分类方法大致分为两种:经验主义的方法和理性主义的方法,前者的典型代表是基于机器学习的文本分类,是当今的主流方法,而后者则以基于概念的文本分类为代表。在综合分析二者的优势与不足的基础上,并受人工分类时认知过程的启发,提出了一种提取类核的文本分类方法。该方法是两条路线的有机结合,采用理性主义的方法搭建分类框架,但分类知识采用经验主义的方法由机器自动获取。提取类核的中心思想是:在自然语言中,词语是用来表达概念的,因此如果文本中那些含有类别信息的词语能够被发现,那么通过为每个类别构造具有这种性质的特征集合,即类核,计算机也同样能够根据文本内容,以类核为指导,实现自动的文本分类。本文设计了两种具体的类核提取方法:经验法和圆心法,定义了指标——类别贡献度作为衡量特征入选类核的唯一标准。类别贡献度反映了特征项包含类别信息的多少和对分类贡献程度的大小,类别贡献度的计算充分考虑了特征项在类内、类间的词频分布和文档频率分布。类别贡献度不仅是选择类核特征的依据,而且作为一种分类知识被保留下来,为后续分类提供指导。在类核的基础上设计了一种称之为彩票算法的分类算法,本质上是一种特殊的集合运算。
   相比于传统的分类模型,提取类核的分类模型更为简洁,在设计的实验系统中,将本文方法与四种常用的特征选择方法和两种经典的分类算法进行了对比,结果表明,本文方法很好的兼顾了分类的精度与速度两项主要指标,分类性能稳定,分类速度上有较大优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号