基于卷积神经网络结合词向量的中文短文本分类研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

文本分类是自然语言处理领域里用于文本信息处理的关键性技术，主要由文本表示和分类模型（算法）组成。在当今文本信息极速增长的时代，文本分类为人们有效、便捷、快速地获取所需信息发挥着重大作用。短文本作为文本信息的主要载体之一，具有长度短、特征稀疏、实时性强、格式不规则等特点，从而基于词袋特征或向量空间的传统机器学习算法不能有效的提取短文本特征，进而影响分类效果。深度学习算法强大的特征提取能力在文本分类中具有独特的优势，因此，利用深度学习进行文本分类建模成为当前的研究热点。　　本文基于卷积神经网络模型并结合词向量的文本表示方法，针对中文短文本分类的相关技术点进行研究工作，取得的相关研究成果如下：　　1、提出一种应用于卷积神经网络文本分类的词向量模型。文本特征提取（文本输入表示）作为文本分类技术的要点，其构建质量直接影响着分类系统的分类效果。现在最流行的文本输入表示——词向量（Word Vector）虽然考虑了词语之间的关联性和相似性，但忽略了上下文局部词序特征，在一些情况下造成文本语义上的缺失和歪曲。为此，本文提出了一种结合N-Gram特征与Word2vec的词向量模型WordNG-Vec，其提取出的词向量（Word-NG向量），作为双通道卷积神经网络模型（DC-CNN）的输入。经过多组对比实验分析表明，在精确率（precision）和召回率（recall）和F1值三个评价指标下，本文提出的方法有效提高文本分类的效果。　　2、提出一种基于正则化层次Softmax的卷积神经网络文本分类模型。传统的卷积神经网络分类模型（CNN）的输出层采用的是扁平式架构的标准Softmax，在数据量较大、类别较多的文本分类任务中计算复杂度高，训练耗时长；而基于霍夫曼树（Huffman Tree）构建的改进算法——层次Softmax（Hierarchical Softmax，H-Softmax）能极大提高训练速度，但由于加入了大量的节点参数，使得优化难度增加，优化需要更长的迭代步，且容易过拟合，继而影响模型的拟合速度和分类效果。为此，本文提出了改进算法模型RHS-CNN（Regularization Hierarchical Softmax CNN），采用正则化的方法，对H-Softmax的节点参数进行约束，避免过拟合，增强模型的泛化能力。实验分析表明，本文提出的方法在相应评价指标上相对Softmax、H-Softmax有着一定的提升。

著录项

作者
何养明;
展开▼
作者单位

重庆理工大学;

展开▼
授予单位重庆理工大学;
学科工程硕士(计算机技术领域)
授予学位硕士
导师姓名王勇,郑镇完;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
文本分类,深度学习,特征提取,词向量模型,卷积神经网络;

相似文献

中文文献
外文文献
专利

1. 基于词向量特征扩展的中文短文本分类研究 [J] . 雷朔 ,刘旭敏 ,徐维祥 . 计算机应用与软件 . 2018,第008期
2. 结合语义扩展和卷积神经网络的中文短文本分类方法 [J] . 卢玲 ,杨武 ,杨有俊 . 计算机应用 . 2017,第012期
3. 基于卷积神经网络的短文本分类研究 [J] . 陆正球 ,毛焕宇 ,王海颖 . 无线互联科技 . 2019,第006期
4. 基于卷积神经网络和KNN的短文本分类算法研究 [J] . 殷亚博 ,杨文忠 ,杨慧婷 . 计算机工程 . 2018,第007期
5. 基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究 [J] . 乔延臣 ,姜青山 ,古亮 . 信息网络安全 . 2019,第004期
6. 基于知网相关概念场的中文词向量 [C] . Feng Yubo ,冯煜博 ,CAI Dongfeng . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于卷积神经网络结合词向量的中文短文本分类研究 [A] . 何养明 . 2019

基于卷积神经网络结合词向量的中文短文本分类研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅