自治故障管理系统推理规则的智能学习技术

Computer Engineering and Science(2023)

引用 0|浏览4
暂无评分
摘要
随着高性能计算机系统规模急剧增加,系统整体的固有可靠性逐步降低,产生了"可靠性墙"问题.为了应对这一挑战,天河高性能计算机系统设计了自治故障管理系统,通过该系统实时监控、分析、管理全系统的报警、故障和错误.自治故障管理系统所收集的故障消息垂直涵盖系统的各个逻辑层次,水平覆盖系统的全部功能模块,因此故障消息之间存在逻辑上的因果关系,即一个故障源会导致后续一系列的故障事件.提出了一种针对于故障信息的推理规则学习算法EMRL,把故障信息的推理规则建模为一个概率模型,通过该模型自动从故障信息中挖掘故障推理规则,并且根据挖掘结果自动生成最小的故障推理图.采用天河系统的部分运行数据,验证了EMRL算法的有效性,结果表明EMRL能有效挖掘故障信息的推理关系.
更多
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要