基于卷积神经网络的新闻文本分类问题研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类作为互联网文本处理以及文本挖掘的核心，已成为自然语言处理领域的重点研究问题。面对互联网上的各种文本数据呈爆炸式增长的趋势，如何有效利用这些文本数据，挖掘出蕴含在其背后的真正价值，具有非常重要的意义。针对文本分类问题，传统的方法主要以浅层机器学习为主，随着深度学习技术的快速发展，其在图像识别、语音识别领域巨大的研究突破，深度模型的特征学习能力进一步得到证明，本文基于深度学习的卷积神经网络（Convolution Neural Network,CNN）模型对新闻文本分类问题进行研究。具体研究内容及结果如下: 1.在中文分词时，针对中文文本的特殊性以及本文所研究的领域方向性，本文采用基于Python语言的Jieba分词技术，为了实现较好的分词效果，在结合新闻领域相关专业词汇的基础上，对Jieba分词自带词典做了简单性扩充。 2.为避免传统的特征提取以人工经验为主所导致的弊端，本文采用Skip-Gram模型对中文分词后的词向量特征表示，形成每个词的word embedding词向量表示形式，最终将训练好的word embedding纵向堆叠作为每条新闻文本的分布式特征，以二维矩阵的形式输入卷积神经网络模型。 3.本文尝试引入深度学习相关理论，设计了卷积神经网络模型以实现新闻文本的分类任务，克服了浅层机器学习忽略了词与词在语义上的联系，且训练容易陷入局部最优。 4.在对比实验设计环节，为了找到合适的词向量维数以及卷积核大小，分别设置两组不同维数和卷积核大小进行实验，实验结果表明：词向量维数取128，卷积核大小取3，4，5时效果最佳。为了证明基于卷积神经网络的新闻文本分类效果，将该方法与浅层机器学习算法以及高斯初始化的卷积神经网络模型做了对比，实验结果表明：卷积神经网络模型能克服浅层机器学习在文本分类上的相关缺陷，提高了新闻文本分类的正确率。

著录项

作者
齐凯凡;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科数学
授予学位硕士
导师姓名张德生;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化基础理论;
关键词
卷积神经网络; 新闻; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于组合-卷积神经网络的中文新闻文本分类 [J] . 张昱 ,刘开峰 ,张全新 . 电子学报 . 2021,第006期
2. 基于TF-IDF的卷积神经网络新闻文本分类优化 [J] . 张波 ,黄晓芳 . 西南科技大学学报 . 2020,第001期
3. 基于加权词向量和卷积神经网络的新闻文本分类 [J] . 胡万亭 ,贾真 . 计算机系统应用 . 2020,第005期
4. 基于卷积神经网络的中文新闻文本分类 [J] . 蓝雯飞 ,徐蔚 ,王涛 . 中南民族大学学报（自然科学版） . 2018,第001期
5. 结合Bert字向量和卷积神经网络的新闻文本分类方法 [J] . 刘凯洋 . 电脑知识与技术 . 2020,第001期
6. 基于卷积神经网络与篇章结构的足球新闻自动生成方法 [C] . LIU Maofu ,刘茂福 ,QI Qiaosong . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 基于卷积神经网络的新闻文本分类研究 [A] . 陶文静 . 2019

基于卷积神经网络的新闻文本分类问题研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅