首页> 中文会议>第33届中国数据库学术会议（NDBC2016 ） >基于Spark平台的短文本特征扩展与分类研究

基于Spark平台的短文本特征扩展与分类研究

页面导航

摘要
著录项
相似文献
相关主题

摘要

由于短文本字数少、数据量大导致实际短文本分类过程中面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展为解决上述问题的有效方法,如主题模型、频繁模式挖掘等算法在特征扩展过程中被广泛研究与应用.但因短文本本身对分类效率要求较高,特征扩展方式使短文本分类过程面临更大的效率瓶颈.针对上述问题,综合考虑短文本分类准确率及效率提升,提出Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法,首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充,其次针对分类过程,提出基于距离选择的层叠支持向量机算法,最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用本文提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均约得到15％的效率提升,其中特征扩展及分类优化准确率提升分别为10％与5％.

著录项

来源
《第33届中国数据库学术会议（NDBC2016 ）》|2016年|1-12|共12页
会议地点深圳
作者
WANG Wen; 王雯; ZHAO Kankan; 赵衎衎; LI Cuiping; 李翠平; CHEN Hong; 陈红; SUN Hui; 孙辉;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;
关键词
短文本; 特征扩展; 分类效率; 关联规则挖掘;
入库时间 2022-08-17 10:37:35

相似文献

中文文献
外文文献
专利

1. Spark平台下的短文本特征扩展与分类研究 [J] . 王雯 ,赵衎衎 ,李翠平 . 计算机科学与探索 . 2017,第005期
2. 基于扩展短文本词特征向量的分类研究 [J] . 孟涛 ,王诚 . 计算机技术与发展 . 2019,第004期
3. 基于LDA特征扩展的短文本分类方法研究 [J] . 胡朝举 ,徐永峰 . 软件导刊 . 2018,第003期
4. 基于词向量特征扩展的中文短文本分类研究 [J] . 雷朔 ,刘旭敏 ,徐维祥 . 计算机应用与软件 . 2018,第008期
5. 基于LDA特征扩展的短文本分类方法研究 [J] . 胡朝举 ,徐永峰 . 软件导刊 . 2018,第003期
6. 一种基于特征簇的微博短文本情感分类方法 [C] . ZHOU Yong-mei ,周咏梅 ,WANG Wei . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. Spark平台下基于深度学习的网络短文本情感分类研究 [A] . 尚勃 . 2016

基于Spark平台的短文本特征扩展与分类研究

摘要

著录项

相似文献

相关主题

期刊订阅