基于多粒度特征表示及循环卷积神经网络的短文本分类研究

代理获取

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

大数据时代的到来，电子文本数量骤增，而其中短文本数据占有绝大比例，比如问答系统中用户提出的问题、商品评论。面对如此庞大的短文本数据集，在维护、管理和应用过程中都具有极大的挑战性。文本分类是自然语言处理的基本任务，主要集中在两个方面:特征工程、分类算法。特征工程是文本分类的基础，传统的特征工程大多都是基于词袋模型，通常忽略了文本语义信息或文本中词序特点，且存在“维度灾难”问题。目前互联网上短文本数据呈指数增长，文本数据不仅类型复杂且多样化，采用机器学习分类算法进行文本分类，不仅费时费力，而且泛化能力弱，特别是针对不平衡数据集。所以，特征表示和分类模型的研究对于文本分类至关重要。近年来，深度神经网络的快速发展为文本分类带来了新的希望。在分类性能上，深度神经网络相较于传统的机器学习算法更为出色，同时具有很好的泛化能力。本文在多粒度特征表示和深度学习分类模型上对短文本分类进行研究。本文主要研究工作如下: 1.本文提出了BLSTM_MLPCNN分类模型。该模型主要包含三个部分:双向长短时记忆神经网络、多层感知卷积神经网络和全连接层。首先利用长短时记忆神经网络捕捉输入层当前词的上下文信息，构建更深层的文本特征表示。然后利用多层感知卷积神经网络进行局部特征提取并下采样关键特征。最后通过全连接层和softmax函数实现分类。在五个标准英文数据集下，实验结果表明:多层感知卷积神经网络能够更好地抽取特征，从而提高分类精度;基于Glove词向量和字符级向量的双输入BLSTM_MLPCNN模型，在短文本分类任务上取得了很好的分类效果。 2.本文提出了多粒度特征表示的方法。一方面通过word2vec工具在维基百科数据集上训练每个词的词嵌入表示，每个词语都具有一定的语义信息，词与词之间的语义关系可通过相似度方法衡量;另一方面通过BTM主题模型学习到主题-词分布，即获取每个主题下各个词语的概率值，再运用贝叶斯原理对主题-词分布进行处理得到词-主题向量，即表示各个主题在每个词下的概率值。既考虑了词语细粒度的语义，也从主题上进行文本抽象描述。在经典的机器学习分类算法和深度学习模型下，实验结果表明，将词粒度和主题层次相结合，共同对文本进行抽象描述，可以有效提高文本分类效果。特别是基于word2vec词向量和词-主题向量的双输入BLSTM_MLPCNN模型取得了更好的分类效果。而且针对不同数据集，词-主题向量的维度对实验结果也会产生一定的影响。

著录项

作者
洪彤彤;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科计算机科学与技术
授予学位硕士
导师姓名郑诚;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
多粒度; 特征表示; 循环; 卷积神经网络; 文本;

相似文献

中文文献
外文文献
专利

1. 基于多粒度文本特征表示的微博用户兴趣识别 [J] . 郁友琴 ,李弼程 . 计算机科学 . 2021,第012期
2. 基于多粒度特征表示的知识图谱问答 [J] . 申存 ,黄廷磊 ,梁霄 . 计算机与现代化 . 2018,第009期
3. 基于卷积神经网络的短文本分类研究 [J] . 陆正球 ,毛焕宇 ,王海颖 . 无线互联科技 . 2019,第006期
4. 基于卷积神经网络和KNN的短文本分类算法研究 [J] . 殷亚博 ,杨文忠 ,杨慧婷 . 计算机工程 . 2018,第007期
5. 基于卷积神经网络的多通道特征表示文本分类模型 [J] . 黄卫春 ,邹瑶 ,熊李艳 . 科学技术与工程 . 2021,第016期
6. 基于稳健词素序列和LSTM的维吾尔短文本分类研究 [C] . Sardar Parhat ,沙尔旦尔·帕尔哈提 ,Mijit Ablimit . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于特征表示及密集门控循环卷积网络的短文本分类研究 [A] . 薛满意 . 2020

基于多粒度特征表示及循环卷积神经网络的短文本分类研究

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅