首页> 中文学位 >基于多粒度特征表示及循环卷积神经网络的短文本分类研究
【6h】

基于多粒度特征表示及循环卷积神经网络的短文本分类研究

代理获取

摘要

大数据时代的到来,电子文本数量骤增,而其中短文本数据占有绝大比例,比如问答系统中用户提出的问题、商品评论。面对如此庞大的短文本数据集,在维护、管理和应用过程中都具有极大的挑战性。文本分类是自然语言处理的基本任务,主要集中在两个方面:特征工程、分类算法。特征工程是文本分类的基础,传统的特征工程大多都是基于词袋模型,通常忽略了文本语义信息或文本中词序特点,且存在“维度灾难”问题。目前互联网上短文本数据呈指数增长,文本数据不仅类型复杂且多样化,采用机器学习分类算法进行文本分类,不仅费时费力,而且泛化能力弱,特别是针对不平衡数据集。所以,特征表示和分类模型的研究对于文本分类至关重要。 近年来,深度神经网络的快速发展为文本分类带来了新的希望。在分类性能上,深度神经网络相较于传统的机器学习算法更为出色,同时具有很好的泛化能力。本文在多粒度特征表示和深度学习分类模型上对短文本分类进行研究。本文主要研究工作如下: 1.本文提出了BLSTM_MLPCNN分类模型。该模型主要包含三个部分:双向长短时记忆神经网络、多层感知卷积神经网络和全连接层。首先利用长短时记忆神经网络捕捉输入层当前词的上下文信息,构建更深层的文本特征表示。然后利用多层感知卷积神经网络进行局部特征提取并下采样关键特征。最后通过全连接层和softmax函数实现分类。在五个标准英文数据集下,实验结果表明:多层感知卷积神经网络能够更好地抽取特征,从而提高分类精度;基于Glove词向量和字符级向量的双输入BLSTM_MLPCNN模型,在短文本分类任务上取得了很好的分类效果。 2.本文提出了多粒度特征表示的方法。一方面通过word2vec工具在维基百科数据集上训练每个词的词嵌入表示,每个词语都具有一定的语义信息,词与词之间的语义关系可通过相似度方法衡量;另一方面通过BTM主题模型学习到主题-词分布,即获取每个主题下各个词语的概率值,再运用贝叶斯原理对主题-词分布进行处理得到词-主题向量,即表示各个主题在每个词下的概率值。既考虑了词语细粒度的语义,也从主题上进行文本抽象描述。在经典的机器学习分类算法和深度学习模型下,实验结果表明,将词粒度和主题层次相结合,共同对文本进行抽象描述,可以有效提高文本分类效果。特别是基于word2vec词向量和词-主题向量的双输入BLSTM_MLPCNN模型取得了更好的分类效果。而且针对不同数据集,词-主题向量的维度对实验结果也会产生一定的影响。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号