基于向量空间模型的文本内容筛查方法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

互联网数据呈现爆炸式地增长，深度学习也日益走进我们的生活，同时我们也越来越依靠互联网进行消费。但是如何从互联网中筛查出没有价值的数据，从而挖掘到对我们有价值的信息，也慢慢地成为了一种亟需解决的问题。在该背景下，本文针对日常生活中经常接触到的网络评价，进行文本分类研究，主要为了筛选出互联网用户发表的无意义评论，进而让我们能接触到更多的有用信息。本文主要从以下几个方面进行了研究：一、在浅层神经网络模型中，本文基于文本向量和BP神经网络搭建文本筛查模型。针对文本在词频和语义上的不同特征对其进行向量化，让文本向量能够携带更多的文本信息，提高文本分类模型的准确率。改进了一种文本综合向量的构建方法，同时考虑了文本在词频上的特性以及文本在语义上的特性。并通过实验证明了该方法能够在文本向量维数尽可能低的情况下提高文本分类模型的准确率。二、在浅层文本分类模型的基础上，根据本文的具体研究内容，提出了“文本价值度”概念，并基于价值度对文本向量进行了扩展。同时根据中文文本的特殊性，在文本相似度计算中提出了“文本结构编码”概念。首先将文本结构编码与简单词频结合起来计算文本相似度，并根据情感词典计算得到文本情感倾向性值；然后根据文本相似度及文本情感倾向共同计算得到文本价值度；最后基于文本价值度对文本向量进行扩展，并使用扩展后的文本向量进行文本分类，并通过实验证明了文本价值度能够在几乎不影响模型效率的情况下，一定程度上提高文本分类模型的准确率。三、在深层神经网络模型中，本文基于词向量和长短期记忆模型（LSTM）搭建文本筛查模型，并使用DAN和CNN分别对LSTM进行了改进。LSTM&DAN模型的主要改进在于保留了原本的词向量信息，并结合Dropout方法，在不增加超参数和模型结构复杂度的情况下提高了文本分类模型的准确率。LSTM&CNN模型主要结合了卷积神经网络能够发掘文本深层信息的优势，对LSTM进行了改进，并通过实验证明了这种改进是有意义的，相对于浅层神经网络，在准确率上有了比较大的提升。

著录项

作者
蔡礼高;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科控制科学与工程
授予学位硕士
导师姓名刘珊;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
向量空间模型; 文本内容; 筛查;

相似文献

中文文献
外文文献
专利

1. 基于向量空间模型的中文文本层次分类方法研究 [J] . 肖雪 ,何中市 . 计算机应用 . 2006,第005期
2. 基于文本挖掘的高等教材内容分析方法研究--以《教育心理学》学习动机知识内容分析为例 [J] . 李菲 ,路阳 ,马强 . 中国教育信息化 . 2021,第005期
3. 基于文本挖掘的高等教材内容分析方法研究——以《教育心理学》学习动机知识内容分析为例 [J] . 李菲 ,路阳 ,马强 . 中国教育信息化·高教职教 . 2021,第003期
4. 基于文本内容的科学前沿探测方法研究进展 [J] . 华旦草 ,安培浚 ,肖仙桃 . 现代情报 . 2021,第001期
5. 我国研究型大学国际化战略实施的项目管理方法研究--基于“985工程”大学国际化战略的文本内容分析 [J] . 丁仕潮 ,周密 . 科技管理研究 . 2014,第018期
6. 基于向量空间模型的网页文本句子对齐方法研究 [C] . 张贯虹 ,乌达巴拉 ,巩政 . 第十一届全国人机语音通讯学术会议 . 2011
7. 基于向量空间模型的文本分类及R语言实现 [A] . 姜博闻 . 2018

基于向量空间模型的文本内容筛查方法研究

摘要

著录项

相似文献

相关主题

期刊订阅