首页> 中文期刊> 《宁夏工程技术》 >基于Python的文本数据增强系统设计与实现

基于Python的文本数据增强系统设计与实现

         

摘要

针对少样本场景下样本不均衡性、数据量不足易导致模型过拟合的问题,采用自然语言EDA文本数据增强方法,设计了基于Python的文本数据增强系统.该系统利用Python+Flask框架实现了简单易操作的Web交互界面,总体架构由文本预处理、单文本增强和批量文本增强3个主要模块组成.对比分析增强前后的文本数据在枸杞虫害文本数据集的训练效果表明,该文本数据增强系统进行不同训练集规模数据增强后得到的枸杞虫害文本描述在4倍数据增强时分类效果最好,准确率达到了85.3%,与传统方法SR和VAEHD相比,EDA方法下的文本分类准确率及效率都有显著提升.针对100个、500个文本,该系统可分别在0.043 s和0.47 s内快速完成5倍文本数据增强,在01.72 s内和2.50 s内快速完成10倍文本数据增强,显著提高了文本数据扩充的效率.对自然语言处理文本分类数据增强有较好的应用效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号