Spark 平台下基于加权词向量的文本分类方法

蔡宇翔; 王佳斌; 郑天华

首页> 中文期刊> 《现代计算机：下半月版》 >Spark 平台下基于加权词向量的文本分类方法

Spark 平台下基于加权词向量的文本分类方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对Spark平台下文本分类中文本表示方法不够完善,导致分类准确率低的问题,结合SparkML下的TF-IDF算法和Word2vec模型,提出一种基于SparkML的加权词向量文本表示方法。首先对文本进行分词,去停用词等预处理,基于SparkML计算出每个词语的词频和逆文档频率,同时计算词语的词向量。使用词语的TF-IDF值作为词向量的权重,将文本表示为加权词向量,再使用SVM分类器进行分类。在THUNews数据集上进行实验。实验结果表明,该方法相比于传统的TF-IDF算法、平均Word2Vec词向量文本表示,可以提升分类的精度。

著录项

来源
《现代计算机：下半月版》 |2022年第3期|25-30|共6页
作者
蔡宇翔; 王佳斌; 郑天华;
展开▼
作者单位

华侨大学工学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算技术、计算机技术;
关键词
SPARK; 文本分类; TF-IDF(term frequency-inverse document frequency); Word2Vec; 支持向量机; 文本表示;

相似文献

中文文献
外文文献
专利

1. 基于加权词向量和卷积神经网络的新闻文本分类 [J] . 胡万亭 ,贾真 . 计算机系统应用 . 2020,第005期
2. 基于半监督与词向量加权的文本分类研究 [J] . 宋建国 . 软件导刊 . 2020,第009期
3. 基于加权词向量和LSTM-CNN的微博文本分类研究 [J] . 马远浩 ,曾卫明 ,石玉虎 . 现代计算机（专业版） . 2018,第025期
4. 基于词向量及术语关系抽取方法的文本分类方法 [J] . 侯庆霖 . 移动通信 . 2018,第007期
5. 基于词向量空间模型的中文文本分类方法 [J] . 胡学钢 ,董学春 ,谢飞 . 合肥工业大学学报（自然科学版） . 2007,第010期
6. 基于词向量和主题向量嵌入的文本分类方法研究 [C] . Mao Wenliang ,毛文梁 ,Feng Dawei . 2017年全国高性能计算学术年会 . 2017
7. 基于深度学习与词向量的文本分类方法研究 [A] . 张宇艺 . 2019

Spark 平台下基于加权词向量的文本分类方法

摘要

著录项

相似文献

相关主题

期刊订阅