词向量的动态加权及分布式学习策略

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

互联网的日益普及和迅速发展，催生了大规模的非结构化数据，在这些非结构化数据中，文本数据又是其中很重要的一类。如何从数据量庞大的文本数据中提取和学习有效的信息是当前热门的研究领域。其中，文本分类是文本挖掘领域一个重要的研究方向，并且有着广泛的应用场景。而文本分类本身是一个极具挑战性的问题。首先，传统的文本表示模型认为文本是由无数个单词构成，并基于特征词典采用one-hot编码的形式，用一个高维稀疏向量表示一篇文档，该方法由于向量的高稀疏度限制了文本分类的准确性。其次，传统的文本分类算法大部分都直接应用基本机器学习分类算法，模型过于简单导致其分类结果也并不理想。针对以上挑战，本文首先提出了一种文本表示模型;其次，基于该文本表示模型，利用分类器集成的方法，构建了一个高效的文本分类模型，实现了对文本更加准确地分类。
　　本文研究了文本分类的原理和实现步骤，首先对中文文档进行了预处理，具体包括分词，去停词，然后对词进行特征选择，基于选取的特征词，提出了一种基于词向量Word2Vec动态加权的文本表示模型，充分考虑了不同语义特征在不同文章中的不同重要程度。基于该文本表示模型，本文提出了一种基于分类器集成思想的文本分类算法，提高了文本分类的准确率。
　　本文提出的文本表示模型中，首先采用Word2Vec算法将文档特征词转换成固定维度的词向量，然后计算每个特征词在文档中的TF-IDF值，并以特征词的TF-IDF值作为权重，对所有特征词的词向量进行动态加权。该文本表示模型可以同时充分利用不同特征词在不同文档中的重要度信息和词向量的语义信息，实现了对文档的有效表示。实验结果表明，本文提出的基于词向量Word2Vec动态加权的文本表示模型较传统文本表示方法具有更好的文本特征表示效果。
　　基于本文提出的文本表示模型，利用集成分类的思想，本文通过Bagging算法，提出了基于词向量动态加权模型的支持向量机集成方法，分别就不同基分类器数量的集成情况进行了对比实验，并与单个SVM分类效果进行了比较。实验验证了我们提出的基于词向量动态加权的分类器集成算法的有效性，并找出了基分类器个数的最优解。
　　基于以上模型，本文在真实的微信公众号文章数据集上进行了实验验证，还设计并实现了一套基于微信公众号文章的分布式文本分类系统。该系统的功能还包括微信公众号文章抓取、类标自动标注，将文本分类技术应用到实际场景中。

著录项

作者
徐惊秋;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科计算机技术
授予学位硕士
导师姓名王志海;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 词向量模型; 动态加权; 分布式学习;

相似文献

中文文献
外文文献
专利

1. 基于动态加权的量化分布式卡尔曼滤波 [J] . 陈小龙 ,马磊 ,张文旭 . 计算机应用 . 2015,第007期
2. 基于动态加权的分布式多传感器航迹融合算法 [J] . 胡振涛 ,刘先省 . 计算机应用研究 . 2006,第006期
3. 分布式词向量研究和实现 [J] . 唐国豪 . 电子制作 . 2021,第002期
4. 基于神经网络语言模型的分布式词向量研究进展 [J] . 郁可人 ,傅云斌 ,董启文 . 华东师范大学学报（自然科学版） . 2017,第005期
5. 分批补料发酵过程多目标优化的分布式强化学习策略 [J] . 李大字 ,宋天恒 ,靳其兵 . 化工学报 . 2011,第008期
6. 基于GPU计算连续分布式词向量的方法 [C] . WU ZHENHUA ,吴振华 ,YU LEI . 2014全国高性能计算学术年会 . 2014
7. 动态加权启发式信任路径搜索算法研究 [A] . 孔儒 . 2021

词向量的动态加权及分布式学习策略

目录

摘要

著录项

相似文献

相关主题

期刊订阅