data.table和dplyr软件包在数据操作方面效率的评价

Chinese Journal of Health Statistics(2020)

引用 1|浏览6
暂无评分
摘要
目的 通过数据验证,比较目前应用广泛、高效的R语言中,data.table软件包和dplyr软件包在数据操作方面的运算效率,为R用户在数据处理效率方面选择合适的软件包提供建议.方法 模拟产生不同样本量大小的数据,从选择行列、排序、分组计算、添加更新和合并五个方面比较data.table、dplyr和基本R函数的运算速度.结果 data.table在选择行(DT[x==.])、更新、排序、内连接方面运算速度优势明显,在选择行(DT[x<.])、分组计算、左连接、添加方面和dplyr相比没有明显差异,在选择列方面基本R函数最优,data.table表现最差.结论 data.table运算效率整体优于dplyr;如果处理数据量在GB级及以上,建议使用data.table软件包,GB级以下,data.table和dplyr两者均可.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要