首页> 中文期刊>中国卫生统计 >data.table和dplyr软件包在数据操作方面效率的评价

data.table和dplyr软件包在数据操作方面效率的评价

     

摘要

目的通过数据验证,比较目前应用广泛、高效的R语言中,data.table软件包和dplyr软件包在数据操作方面的运算效率,为R用户在数据处理效率方面选择合适的软件包提供建议。方法模拟产生不同样本量大小的数据,从选择行列、排序、分组计算、添加更新和合并五个方面比较data.table、dplyr和基本R函数的运算速度。结果data.table在选择行(DT[x==.])、更新、排序、内连接方面运算速度优势明显,在选择行(DT[x<.])、分组计算、左连接、添加方面和dplyr相比没有明显差异,在选择列方面基本R函数最优,data.table表现最差。结论data.table运算效率整体优于dplyr;如果处理数据量在GB级及以上,建议使用data.table软件包,GB级以下,data.table和dplyr两者均可。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号