Spark 框架中 RDD 缓存替换策略优化

小型微型计算机系统(2019)

引用 2|浏览3
暂无评分
摘要
Spark 作为分布式计算引擎, 其基于内存的抽象概念弹性分布式数据集 (RDD) 产生了高效的数据处理能力. 实际的生产环境中, 任务在执行的过程中经常由于内存空间不足需要替换掉部分 RDD. Spark 默认的最近最少使用替换算法 (LRU) 仅考虑最近是否使用 RDD 分片而忽略其它因素. 基于 RDD 权重值改进后的 WR 缓存替换策略侧重于 RDD 的权值替换, 在此研究基础上, 本文提出了缓存权重替换 (CWS) 策略, 优化选择策略, 并在替换阶段考虑了历史访问次数与计算成本. 本文的实验使用斯坦福大学提供的公开网络分析项目进行测试, 实验结果表明 CWS 策略在充足内存条件下处理较小数据的平均执行时间高于 WR 算法 2. 4%, 内存占用率相比降低 36%.
更多
查看译文
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要