首页> 中文学位 >基于特征向量构建的文本分类方法研究
【6h】

基于特征向量构建的文本分类方法研究

代理获取

目录

声明

1 绪论

1.1 研究背景与意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状及存在问题

1.2.1 国内外研究现状

1.2.2 现存问题及难点

1.3 研究框架及内容

1.3.1 研究框架

1.3.2 研究内容

1.4 本文组织结构

2 相关理论概述

2.1 传统文本表示方法

2.1.1 布尔模型

2.1.2 空间向量模型

2.1.3 主题模型

2.2 TF-IDF算法

2.3 Word embedding模型

2.3.1 CBOW模型

2.3.2 Skip-gram模型

2.3.3 GloVe模型

2.4 文本分类方法

2.4.1 支持向量机模型

2.4.2 fastText模型

2.5 评估指标

2.6 本章小结

3 基于WT-GloVe的词向量加权模型

3.1 理论基础

3.2 基于WT-GloVe的词向量加权模型

3.2.1 基于WDID-TFIDF的特征加权算法

3.2.2 基于WT-GloVe的词向量加权模型

3.3 实验与结果分析

3.3.1 实验数据

3.3.2 实验设置

3.3.3 实验分析

3.4 本章小结

4 基于STL-fastText的文本分类模型

4.1 理论基础

4.2 基于STL-fastText的文本分类模型

4.2.1 基于SLF-TFIDF的低频词加权算法

4.2.2 基于STL-fastText的文本分类模型

4.3 实验与结果分析

4.3.1 实验数据

4.3.2 实验设置

4.3.3 实验分析

4.4 本章小结

5 总结与展望

5.1 总结

5.2 展望

致谢

参考文献

攻读硕士学位期间主要研究成果

展开▼

摘要

文本是多样信息的来源,由于其非结构化特性,从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题,是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术,是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息,但易呈现高稀疏性,且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题,本文进行了如下研究: (1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题,本文提出了一种基于WT-GloVe的词向量加权模型。首先,借助基于词间距和类间贡献度的特征加权算法进行特征词提取;其次,根据GIoVe模型的自身缺点提出了一种过滤无关词方法,以提高词向量训练质量;最后,结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型,有效获取特征词的重要程度及语义信息,构成新的词向量加权模型。实验结果表明,相同环境下与其它同类模型相比,基于WT-GloVe的词向量加权模型能有效提高分类效果。 (2)文本分类方面。针对fastText模型在中文文本分类时,子词嵌入方法所获取词信息效果不明显且产生大量冗余词条的问题,本文提出了一种基于STL-fastText的文本分类模型。首先,在TF-IDF算法基础上提出了基于相关性的低频词加权算法;其次,将整个语料库作为LDA模型的输入,对文本内容进行主题分析以便学习其主题词分布,将所得结果作为低频高区分度特征的补充;最后,对fastText模型的输入层进行词典重构,将特征补充后所得新词典作为隐藏层的输入,完成STL-fastText模型的构建。实验结果表明,相同环境下与其它同类模型相比,基于STL-fastText的文本分类模型能有效提高了中文短文本的分类效果。

著录项

  • 作者

    古倩;

  • 作者单位

    西安理工大学;

  • 授予单位 西安理工大学;
  • 学科 计算机科学与技术;计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 姚全珠;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    特征向量; 构建; 文本分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号