首页> 中文学位 >基于卷积神经网络的新闻文本分类问题研究
【6h】

基于卷积神经网络的新闻文本分类问题研究

代理获取

目录

第一个书签之前

摘 要

Abstract

1绪论

1.1.1研究背景

1.1.2研究意义

1.2.1深度学习研究现状

1.2.2文本分类研究现状

1.2.3深度学习在文本挖掘方面的研究

1.3本文研究目的和内容安排

1.4本章小结

2预备知识

2.1中文分词方法

2.1.1基于词典的中文分词算法

2.1.2基于统计的分词算法

2.1.3基于理解的分词算法

2.1.4中文分词工具介绍

2.1.5中文分词面临问题

2.2.1文本特征表示模型

2.2.2文本特征选择方法

2.3.1 k-近邻算法

2.3.2朴素贝叶斯

2.3.3支持向量机

2.4深度学习模型

2.4.1自动编码器

2.4.2深信度网络

2.4.3卷积神经网络

2.5本章小结

3文本预处理和特征提取相关研究

3.1中文文本分类总结

3.2文本预处理

3.2.1中文分词

3.2.2去停用词以及简单扩充词典

3.2.3分词结果

3.3 Word2vec特征提取方法

3.3.1基于Skip-gram模型的特征表示

3.3.2实验设置

3.3.3实验结果

3.4本章小结

4基于卷积神经网络模型的分类问题研究

4.1卷积神经网络模型的设计

4.1.1输入层

4.1.2卷积层

4.1.3池化层

4.1.4全连接层

4.2模型训练

4.2.1激活函数

4.2.2 Dropout策略

4.2.3参数优化

4.2.4 损失率和正确率

4.3实验设置

4.3.1实验环境及结果

4.3.2对比实验

4.4实验结果及分析

4.5卷积神经网络可视化

4.6本章小结

5 总结与展望

5.1主要研究结果

5.2展望

致谢

参考文献

攻读硕士学位期间发表的论文

攻读硕士研究生期间所获奖励

展开▼

摘要

文本分类作为互联网文本处理以及文本挖掘的核心,已成为自然语言处理领域的重点研究问题。面对互联网上的各种文本数据呈爆炸式增长的趋势,如何有效利用这些文本数据,挖掘出蕴含在其背后的真正价值,具有非常重要的意义。 针对文本分类问题,传统的方法主要以浅层机器学习为主,随着深度学习技术的快速发展,其在图像识别、语音识别领域巨大的研究突破,深度模型的特征学习能力进一步得到证明,本文基于深度学习的卷积神经网络(Convolution Neural Network,CNN)模型对新闻文本分类问题进行研究。具体研究内容及结果如下: 1.在中文分词时,针对中文文本的特殊性以及本文所研究的领域方向性,本文采用基于Python语言的Jieba分词技术,为了实现较好的分词效果,在结合新闻领域相关专业词汇的基础上,对Jieba分词自带词典做了简单性扩充。 2.为避免传统的特征提取以人工经验为主所导致的弊端,本文采用Skip-Gram模型对中文分词后的词向量特征表示,形成每个词的word embedding词向量表示形式,最终将训练好的word embedding纵向堆叠作为每条新闻文本的分布式特征,以二维矩阵的形式输入卷积神经网络模型。 3.本文尝试引入深度学习相关理论,设计了卷积神经网络模型以实现新闻文本的分类任务,克服了浅层机器学习忽略了词与词在语义上的联系,且训练容易陷入局部最优。 4.在对比实验设计环节,为了找到合适的词向量维数以及卷积核大小,分别设置两组不同维数和卷积核大小进行实验,实验结果表明:词向量维数取128,卷积核大小取3,4,5时效果最佳。为了证明基于卷积神经网络的新闻文本分类效果,将该方法与浅层机器学习算法以及高斯初始化的卷积神经网络模型做了对比,实验结果表明:卷积神经网络模型能克服浅层机器学习在文本分类上的相关缺陷,提高了新闻文本分类的正确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号