Spark效用感知的检查点缓存并行清理策略

Computer Systems & Applications(2022)

引用 0|浏览0
暂无评分
摘要
针对Spark检查点缓存数据清理需要等待作业运行完成后由编程人员清理,可能导致产生失效数据累积占用内存问题,本文分析检查点执行机制,建模推导出随着检查点数量增多,检查点缓存清理方法不可扩展,提出使用检查点缓存效用熵模型感知检查点缓存和内存槽的匹配度,并利用效用最佳匹配原则,推导出最佳检查点缓存清理最佳时机.基于效用熵的检查点缓存并行清理(PCC)策略,通过使检查点缓存清理时刻近似等于检查点写入HDFS时刻优化内存资源.实验结果表明,在基于公平调度的多作业执行环境下,随着检查点数量增加,未优化程序执行效率变差,使用PCC策略后,在程序执行时长、耗电量、GC时间3个指标上最大分别能降低10.1%、9.5%、19.5%,有效提升多检查点时的程序执行效率.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要