基于特征向量构建的文本分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本是多样信息的来源，由于其非结构化特性，从中获取见解耗时过多且相对困难。文本分类是自然语言处理领域中的经典主题，是根据内容分配预定义标签或类别的过程。神经网络作为处理文本分类的主流技术，是一种自动化预测分析方法。基于神经网络模型来构建特征向量的文本表示方法能够准确获取词义、语义信息，但易呈现高稀疏性，且文本分类模型中针对特定情况常会出现分类性能不佳的情况。面对上述问题，本文进行了如下研究： (1)文本表示方面。针对GloVe模型在词向量表示训练过程中存在大批量无关词的问题，本文提出了一种基于WT-GloVe的词向量加权模型。首先，借助基于词间距和类间贡献度的特征加权算法进行特征词提取；其次，根据GIoVe模型的自身缺点提出了一种过滤无关词方法，以提高词向量训练质量；最后，结合基于词间距和类间分布的特征加权算法以及无关词过滤后的GloVe共同生成了加权词向量模型，有效获取特征词的重要程度及语义信息，构成新的词向量加权模型。实验结果表明，相同环境下与其它同类模型相比，基于WT-GloVe的词向量加权模型能有效提高分类效果。 (2)文本分类方面。针对fastText模型在中文文本分类时，子词嵌入方法所获取词信息效果不明显且产生大量冗余词条的问题，本文提出了一种基于STL-fastText的文本分类模型。首先，在TF-IDF算法基础上提出了基于相关性的低频词加权算法；其次，将整个语料库作为LDA模型的输入，对文本内容进行主题分析以便学习其主题词分布，将所得结果作为低频高区分度特征的补充；最后，对fastText模型的输入层进行词典重构，将特征补充后所得新词典作为隐藏层的输入，完成STL-fastText模型的构建。实验结果表明，相同环境下与其它同类模型相比，基于STL-fastText的文本分类模型能有效提高了中文短文本的分类效果。

著录项

作者
古倩;
展开▼
作者单位

西安理工大学;

展开▼
授予单位西安理工大学;
学科计算机科学与技术;计算机软件与理论
授予学位硕士
导师姓名姚全珠;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
特征向量; 构建; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于类别特征向量表示的中文文本分类算法 [J] . 何建英 ,陈蓉 ,徐淼 . 计算机应用研究 . 2008,第002期
2. 一种面向文本分类的特征向量优化方法 [J] . 郭正斌 ,张仰森 ,蒋玉茹 . 计算机应用研究 . 2017,第008期
3. 结合加权特征向量空间模型和RBPNN的文本分类方法 [J] . 李敏 ,余正涛 . 计算机系统应用 . 2012,第012期
4. 基于产品特征向量法的壳段成组分类方法研究 [J] . 袁维佳 ,刘海光 ,赵军贵 . 机械工程师 . 2022,第1期
5. 基于异构数据特征向量的图文检索方法研究 [J] . 骆有隆 ,朱卉钰 ,梁松宇 . 情报工程 . 2021,第004期
6. 基于Modbus TCP/IP报文的频率特征向量构建方法研究 [C] . 李超 ,蔡宇晴 . 第六届全国网络安全等级保护技术大会 . 2017
7. 文本分类中特征向量空间降维方法研究 [A] . 陈慧芳 . 2005

基于特征向量构建的文本分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅