首页> 中文学位 >基于正则化线性统计模型的文本分类研究
【6h】

基于正则化线性统计模型的文本分类研究

代理获取

目录

声明

摘要

1 绪论

1.1 课题研究的背景及意义

1.2 文本分类研究面临的主要问题

1.3 本文研究的主要内容及论文安排

2 文本分类相关技术概述及研究现状

2.1 数据预处理

2.2 文本表示

2.2.1 文本特征单元构造

2.2.2 表示模型

2.2.3 文本表示研究现状

2.3 特征降维

2.3.1 特征选择技术

2.3.2 特征提取技术

2.3.3 文本特征降维方法研究现状

2.4 分类模型

2.4.1 常见的文本分类方法

2.4.2 文本分类算法的研究现状

2.5 常用数据集

2.6 性能评价指标

2.7 本章小结

3 正则化线性统计模型概述

3.1 正则化技术简述

3.2 线性回归模型

3.2.1 简单的线性回归模型

3.2.2 Logistic回归模型

3.2.3 偏差-方差分解

3.3 带正则化约束的线性回归模型

3.3.1 岭回归

3.3.2 Lasso

3.3.3 结构正则化

3.4 本章小结

4 基于类别信息融合的非负矩阵分解的文本降维算法

4.1 引言

4.2 非负矩阵分解概述

4.2.1 非负矩阵分解的定义及求解

4.2.2 非负矩阵分解的不唯一性

4.3 基于类别融合的非负矩阵分解实现维数约减

4.3.1 类别信息融合

4.3.2 基正交化非负矩阵分解

4.3.3 维数约减方法

4.4 实验

4.4.1 数据集

4.4.2 性能评价指标

4.4.3 实验结果

4.5 本章小结

5 面向文本分类的非负稀疏语义编码算法

5.1 引言

5.2 非负稀疏语义编码

5.2.1 字典构造

5.2.2 非负稀疏表达

5.3 实验

5.3.1 数据集

5.3.2 性能评价指标

5.3.3 实验结果

5.4 本章小结

6 基于正则化极限学习机的文本分类算法

6.1 引言

6.2 极限学习机概述

6.3 基于正则化极限学习机的文本分类

6.3.1 文本表示

6.3.2 正则化极限学习机

6.3.3 分类算法

6.4 实验

6.4.1 数据集

6.4.2 性能评价指标

6.4.3 实验结果

6.5 本章小结

7 基于分组结构的正则化回归模型的文本分类算法

7.1 引言

7.2 模型构建

7.3 模型实现

7.3.1 组结构生成算法

7.3.2 模型求解

7.3.3 文本分类算法

7.4 实验

7.4.1 数据集

7.4.2 性能评价指标

7.4.3 实验结果

7.5 本章小结

8 总结与展望

参考文献

攻读博士学位期间主要研究成果

致谢

展开▼

摘要

文本是信息最基本、最常用的载体之一,随着信息技术的飞速发展,文本信息迅速膨胀。如何有效地组织和管理这些海量信息,并且能够从中快速、准确、全面地找到所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类技术是组织和管理文本信息的有力手段,也是信息检索和数据挖掘的重要基础。
   本文在分析文本分类相关研究的基础上,结合正则化线性统计模型的思想及其发展,从特征降维及表达、分类器的快速学习、以及降维和分类一致性模型等方面展开研究,完成了如下的一系列工作:
   1.提出了一种基于类别信息融合的非负矩阵分解的文本降维算法。针对传统的非负矩阵分解在实现降维时难以利用多标签类别信息的情况,通过类别编码并扩展维数的方式实现将类别信息融入矩阵分解,从而达到提高系统抗干扰能力并增强基的判别性的目的。之后通过对矩阵分解施加约束项驱使基向量正交归一化以减少其冗余信息。最后通过矩阵裁剪及变换实现了将文本数据从高维项空间映射到由一组非负基向量张成的低维语义子空间的降维目的。实验结果表明,该方法提高了基的判别能力,在维数降到很低情况下仍然获得很好的分类性能。
   2.提出了一种面向文本分类的非负稀疏语义编码算法。针对常见的降维方法产生的稠密表达与常识不符,以及通常的稀疏表达方法耗时且可能存在负元素(难以解释文本语义)等问题,本文开发了一个高效的字典构造算法,该字典包含的一组非负基向量可以张成一个语义子空间,在其中,所有的文本被表示为非负稀疏形式,这种编码方式符合一篇文档通常只包含不多的语义概念的实际情况。实验结果表明,该方法不仅达到了很好的分类性能,而且也获得了较好的可解释性。
   3.提出了一种基于极限学习机的文本分类算法。极限学习机是近年来快速发展的一种机器学习方法,其模型通常可以通过解析方式获得,避免了模型学习过程中常见的收敛性问题,从而达到很高的学习速度。本文针对极限学习机应用在高维稀疏文本数据上的一些问题,构建了一个正则化极限学习机模型,并给出其相应的解析解和理论证明以保证解的存在性。之后,根据模型的结构特点给出了相应的分类方法。实验结果表明,该方法在分类性能上优于BP神经网络,与支持向量机相当,但在学习和分类速度上均远超BP神经网络或支持向量机。
   4.提出了一种基于分组结构的正则化回归模型的文本分类方法。目前,基于lasso约束的回归模型可以较好地解决降维和分类不一致的问题。但文本特征的相关性常会导致这类模型过度稀疏(丢失较多的判别特征)。本文通过聚类方法获得相关特征的分组结构,并将该结构以正则化方式嵌入logistic回归模型,通过在组间及组内同时稀疏化实现在模型中保留重要的组并消除组内噪声的目的,最后在对应的模型上实现分类。实验结果表明,该方法在模型稀疏度和性能之间获得了很好的平衡。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号