首页> 中文学位 >基于向量空间模型的文本内容筛查方法研究
【6h】

基于向量空间模型的文本内容筛查方法研究

代理获取

摘要

互联网数据呈现爆炸式地增长,深度学习也日益走进我们的生活,同时我们也越来越依靠互联网进行消费。但是如何从互联网中筛查出没有价值的数据,从而挖掘到对我们有价值的信息,也慢慢地成为了一种亟需解决的问题。在该背景下,本文针对日常生活中经常接触到的网络评价,进行文本分类研究,主要为了筛选出互联网用户发表的无意义评论,进而让我们能接触到更多的有用信息。本文主要从以下几个方面进行了研究: 一、在浅层神经网络模型中,本文基于文本向量和BP神经网络搭建文本筛查模型。针对文本在词频和语义上的不同特征对其进行向量化,让文本向量能够携带更多的文本信息,提高文本分类模型的准确率。改进了一种文本综合向量的构建方法,同时考虑了文本在词频上的特性以及文本在语义上的特性。并通过实验证明了该方法能够在文本向量维数尽可能低的情况下提高文本分类模型的准确率。 二、在浅层文本分类模型的基础上,根据本文的具体研究内容,提出了“文本价值度”概念,并基于价值度对文本向量进行了扩展。同时根据中文文本的特殊性,在文本相似度计算中提出了“文本结构编码”概念。首先将文本结构编码与简单词频结合起来计算文本相似度,并根据情感词典计算得到文本情感倾向性值;然后根据文本相似度及文本情感倾向共同计算得到文本价值度;最后基于文本价值度对文本向量进行扩展,并使用扩展后的文本向量进行文本分类,并通过实验证明了文本价值度能够在几乎不影响模型效率的情况下,一定程度上提高文本分类模型的准确率。 三、在深层神经网络模型中,本文基于词向量和长短期记忆模型(LSTM)搭建文本筛查模型,并使用DAN和CNN分别对LSTM进行了改进。LSTM&DAN模型的主要改进在于保留了原本的词向量信息,并结合Dropout方法,在不增加超参数和模型结构复杂度的情况下提高了文本分类模型的准确率。LSTM&CNN模型主要结合了卷积神经网络能够发掘文本深层信息的优势,对LSTM进行了改进,并通过实验证明了这种改进是有意义的,相对于浅层神经网络,在准确率上有了比较大的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号