首页> 中文学位 >基于改进PCA-SOM神经网络的文本分类研究
【6h】

基于改进PCA-SOM神经网络的文本分类研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 文本分类研究背景

1.2 文本分类研究概况

1.3 本文研究内容

1.4 论文结构

第2章 文本分类相关知识

2.1 文本分类技术概述

2.2 文本预处理技术

2.2.1 文本分词

2.2.2 权重计算

2.2.3 文本表示

2.2.4 特征选择

2.3 常用文本分类算法

2.3.1 朴素贝叶斯(Naive Bayes)

2.3.2 K近邻算法(K-Nearest Neighbor,KNN)

2.3.3 支持向量机(Support Vector Machine,SVM)

2.3.4 神经网络(Neural Network,NN)

2.3.5 决策树(Decision Tree)

2.4 性能评价指标

2.5 本章小结

第3章 White-PCA特征降维

3.1 降维算法概述

3.2 基于PCA的降维算法

3.3 白化(Whitening)

3.4 本章小结

第4章 SOM算法改进

4.1 SOM网络概述

4.2 SOM算法及分析

4.2.1 SOM算法

4.2.2 SOM算法分析

4.3 SOM算法改进

4.3.1 输入向量的处理

4.3.2 初始化权值优化

4.3.3 良心算法

4.4 核SOM(KSOM)算法

4.4.1 核方法(Kernel)

4.4.2 核函数

4.4.3 核SOM算法

4.5 改进KSOM算法

4.6 小结

第5章 基于White-PCA和改进KSOM的文本分类

5.1 方法概述

5.2 White-PCA和KSOM文本分类流程

5.3 实验及分析

5.3.1 KSOM分类算法

5.3.2 基于White-PCA的分类算法性能比较

5.4 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

致谢

展开▼

摘要

在信息过载的时代,通过Internet快速、准确地获取有效信息已成为目前研究的焦点问题之一。文本分类是实现信息检索的重要手段,被广泛应用于文本过滤、信息检索、自然语言处理、垃圾邮件分类与探测等领域。
  本文在深入研究目前文本分类算法技术的基础上,针对文本数据非线性的特点和传统的特征降维算法、分类算法的不足,提出基于主成分分析白化的降维算法和自组织映射神经网络文本分类算法。
  白化主成分分析(White-PCA)是一种对多元数据进行统计分析的技术,在处理高维非线性问题中有着极大优势,而且相对于特征选择能够提供更多的信息,自组织映射(SOM)神经网络算法能进行大规模分布和并行数据信息处理,此外,具有学习能力强、收敛速度快、能实现全局最优和自组织聚类的功能,但是SOM存在一些局限,将引入覆盖方法、良心算法和核方法对SOM进行优化改进。
  本文结合White-PCA特征降维和改进SOM神经网络分类算法各自具有的优势,构建文本分类检索模型。首先针对文本数据的特点,采用基于白化主成分分析(White-PCA)算法进行特征提取和降维,可以对特征空间实施降噪、降维和去相关性,完成分类前的准备工作;然后利用改进后的SOM神经网络进行文本分类,该算法有很强的学习、联想、容错能力和鲁棒性;最后,对基于Naive Bayes文本分类算法、基于KNN的文本分类算法、BP网络及RBF网络进行了实验对比。通过实验对比,本文算法较之基于NaiveBayes和基于KNN的文本分类算法,有更高的分类精度,对比BP网络和RBF网络有更快的分类速度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号