基于正则化线性统计模型的文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本是信息最基本、最常用的载体之一，随着信息技术的飞速发展，文本信息迅速膨胀。如何有效地组织和管理这些海量信息，并且能够从中快速、准确、全面地找到所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类技术是组织和管理文本信息的有力手段，也是信息检索和数据挖掘的重要基础。
　　本文在分析文本分类相关研究的基础上，结合正则化线性统计模型的思想及其发展，从特征降维及表达、分类器的快速学习、以及降维和分类一致性模型等方面展开研究，完成了如下的一系列工作:
　　 1.提出了一种基于类别信息融合的非负矩阵分解的文本降维算法。针对传统的非负矩阵分解在实现降维时难以利用多标签类别信息的情况，通过类别编码并扩展维数的方式实现将类别信息融入矩阵分解，从而达到提高系统抗干扰能力并增强基的判别性的目的。之后通过对矩阵分解施加约束项驱使基向量正交归一化以减少其冗余信息。最后通过矩阵裁剪及变换实现了将文本数据从高维项空间映射到由一组非负基向量张成的低维语义子空间的降维目的。实验结果表明，该方法提高了基的判别能力，在维数降到很低情况下仍然获得很好的分类性能。
　　 2.提出了一种面向文本分类的非负稀疏语义编码算法。针对常见的降维方法产生的稠密表达与常识不符，以及通常的稀疏表达方法耗时且可能存在负元素（难以解释文本语义）等问题，本文开发了一个高效的字典构造算法，该字典包含的一组非负基向量可以张成一个语义子空间，在其中，所有的文本被表示为非负稀疏形式，这种编码方式符合一篇文档通常只包含不多的语义概念的实际情况。实验结果表明，该方法不仅达到了很好的分类性能，而且也获得了较好的可解释性。
　　 3.提出了一种基于极限学习机的文本分类算法。极限学习机是近年来快速发展的一种机器学习方法，其模型通常可以通过解析方式获得，避免了模型学习过程中常见的收敛性问题，从而达到很高的学习速度。本文针对极限学习机应用在高维稀疏文本数据上的一些问题，构建了一个正则化极限学习机模型，并给出其相应的解析解和理论证明以保证解的存在性。之后，根据模型的结构特点给出了相应的分类方法。实验结果表明，该方法在分类性能上优于BP神经网络，与支持向量机相当，但在学习和分类速度上均远超BP神经网络或支持向量机。
　　 4.提出了一种基于分组结构的正则化回归模型的文本分类方法。目前，基于lasso约束的回归模型可以较好地解决降维和分类不一致的问题。但文本特征的相关性常会导致这类模型过度稀疏（丢失较多的判别特征）。本文通过聚类方法获得相关特征的分组结构，并将该结构以正则化方式嵌入logistic回归模型，通过在组间及组内同时稀疏化实现在模型中保留重要的组并消除组内噪声的目的，最后在对应的模型上实现分类。实验结果表明，该方法在模型稀疏度和性能之间获得了很好的平衡。

著录项

作者
郑文斌;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机科学与技术
授予学位博士
导师姓名钱沄涛;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
文本分类; 正则化线性模型; 非负矩阵; 稀疏约束; 多标签; 极限学习机;

相似文献

中文文献
外文文献
专利

1. 基于流形正则化极限学习机的文本分类算法研究 [J] . 庞皓明 ,冀俊忠 ,刘金铎 . 计算机工程 . 2019,第006期
2. RHS-CNN:一种基于正则化层次Softmax的CNN文本分类模型 [J] . 王勇 ,何养明 ,陈荟西 . 重庆理工大学学报（自然科学版） . 2020,第005期
3. RHS-CNN:一种基于正则化层次Softmax的CNN文本分类模型 [J] . 王勇 ,何养明 ,陈荟西 . 重庆理工大学学报 . 2020,第005期
4. 基于流形正则化的支持向量机文本分类 [J] . 袁爱领 ,齐伟 ,钱旭 . 软件 . 2013,第002期
5. 基于线性支持向量机的文本分类应用研究 [J] . 杨锋 . 信息技术与信息化 . 2020,第003期
6. 基于Tikhonov正则化的线性三维初至波走时层析 [C] . 陈军屹 ,张凯 ,李振春 . 2017年中国地球科学联合学术年会（CGU2017) . -1
7. 基于非线性统计模型分析的机动车定位算法实现研究 [A] . 李高飞 . 2013

基于正则化线性统计模型的文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅