基于随机森林的文本分类并行化

彭徵; 王灵矫; 郭华

首页> 中文期刊> 《计算机科学》 >基于随机森林的文本分类并行化

基于随机森林的文本分类并行化

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

文本分类是信息检索的核心技术.传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代.在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性.文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响.实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率.

著录项

来源
《计算机科学》 |2018年第12期|148-152|共5页
作者
彭徵; 王灵矫; 郭华;
展开▼
作者单位

湘潭大学信息工程学院湖南湘潭411105;

湘潭大学信息工程学院湖南湘潭411105;

湘潭大学信息工程学院湖南湘潭411105;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
文本分类; Spark; 随机森林; 不平衡数据; 并行化;

相似文献

中文文献
外文文献
专利

1. 基于Hadoop平台的海量文本分类的并行化 [J] . 向小军 ,高阳 ,商琳 . 计算机科学 . 2011,第010期
2. 基于Hadoop平台的海量文本分类的并行化 [J] . 向小军 ,高阳 ,商琳 . 计算机科学与探索 . 2011,第010期
3. 基于深度随机森林的商品类超短文本分类研究 [J] . 牛振东 ,石鹏飞 ,朱一凡 . 北京理工大学学报 . 2021,第12期
4. 基于改进随机森林算法的文本分类研究与应用 [J] . 刘勇 ,兴艳云 . 计算机系统应用 . 2019,第005期
5. 基于随机森林的藏文文本分类 [J] . 包晗 ,西热旦增 ,郭龙银 . 电脑知识与技术 . 2019,第034期
6. 基于随机森林的文本分类模型研究 [C] . 张华伟 ,王明文 ,甘丽新 . 第四届全国搜索引擎和网上信息挖掘学术研讨会（SEWM2006） . 2006
7. 基于随机森林的文本分类并行化研究 [A] . 彭徵 . 2018

基于随机森林的文本分类并行化

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅