首页> 中文学位 >词向量的动态加权及分布式学习策略
【6h】

词向量的动态加权及分布式学习策略

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的研究内容

1.4 论文的组织

2 相关理论与基础

2.1 文本预处理

2.2 特征选择

2.3 文本表示

2.3.1 布尔模型

2.3.2 向量空间模型

2.3.3 概率模型

2.4 文本分类算法

2.4.1 朴素贝叶斯

2.4.2 k近邻算法

2.4.3 支持向量机

2.5 本章小结

3 基于词向量的动态加权表示模型

3.1 向量空间模型

3.2 词向量模型

3.3 词向量的动态加权表示模型

3.4 数据集及实验方式

3.4.1 数据集信息

3.4.2 训练模型参数

3.4.3 实验评价指标

3.5 实验结果及分析

3.6 本章小结

4 基于词向量动态加权模型的分类器集成学习策略

4.1 分类器集成介绍

4.1.1 分类器集成的训练方式

4.1.2 分类器集成的组合方式

4.2 基于词向量动态加权模型的支持向量机集成

4.3 实验方式和结果分析

4.4 本章小结

5 基于微信文本的分布式分类系统的实现

5.1 分布式平台框架

5.2 分布式平台文本分类系统的设计

5.2.1 实验结果分析

5.3 分布式平台文本分类系统的实现

5.3.1 数据集模块

5.3.2 文本预处理模块

5.3.3 数据集向量化模块

5.3.4 文本分类模块

5.4 本章小结

6.1 结论

6.2 未来期望

参考文献

作者简历及攻读硕士/博士学位期间取得的研究成果

声明

学位论文数据集

展开▼

摘要

互联网的日益普及和迅速发展,催生了大规模的非结构化数据,在这些非结构化数据中,文本数据又是其中很重要的一类。如何从数据量庞大的文本数据中提取和学习有效的信息是当前热门的研究领域。其中,文本分类是文本挖掘领域一个重要的研究方向,并且有着广泛的应用场景。而文本分类本身是一个极具挑战性的问题。首先,传统的文本表示模型认为文本是由无数个单词构成,并基于特征词典采用one-hot编码的形式,用一个高维稀疏向量表示一篇文档,该方法由于向量的高稀疏度限制了文本分类的准确性。其次,传统的文本分类算法大部分都直接应用基本机器学习分类算法,模型过于简单导致其分类结果也并不理想。针对以上挑战,本文首先提出了一种文本表示模型;其次,基于该文本表示模型,利用分类器集成的方法,构建了一个高效的文本分类模型,实现了对文本更加准确地分类。
  本文研究了文本分类的原理和实现步骤,首先对中文文档进行了预处理,具体包括分词,去停词,然后对词进行特征选择,基于选取的特征词,提出了一种基于词向量Word2Vec动态加权的文本表示模型,充分考虑了不同语义特征在不同文章中的不同重要程度。基于该文本表示模型,本文提出了一种基于分类器集成思想的文本分类算法,提高了文本分类的准确率。
  本文提出的文本表示模型中,首先采用Word2Vec算法将文档特征词转换成固定维度的词向量,然后计算每个特征词在文档中的TF-IDF值,并以特征词的TF-IDF值作为权重,对所有特征词的词向量进行动态加权。该文本表示模型可以同时充分利用不同特征词在不同文档中的重要度信息和词向量的语义信息,实现了对文档的有效表示。实验结果表明,本文提出的基于词向量Word2Vec动态加权的文本表示模型较传统文本表示方法具有更好的文本特征表示效果。
  基于本文提出的文本表示模型,利用集成分类的思想,本文通过Bagging算法,提出了基于词向量动态加权模型的支持向量机集成方法,分别就不同基分类器数量的集成情况进行了对比实验,并与单个SVM分类效果进行了比较。实验验证了我们提出的基于词向量动态加权的分类器集成算法的有效性,并找出了基分类器个数的最优解。
  基于以上模型,本文在真实的微信公众号文章数据集上进行了实验验证,还设计并实现了一套基于微信公众号文章的分布式文本分类系统。该系统的功能还包括微信公众号文章抓取、类标自动标注,将文本分类技术应用到实际场景中。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号