nenya专题

【云原生系统故障自愈论文学习】—NENYA: Cascade Reinforcement Learning for Cost-Aware Failure Mitigation at Microsoft

发表在KDD2022 KDD是Knowledge Discovery and Data Mining的缩写,即知识发现和数据挖掘。是CCF (中国计算机学会)推荐的A类国际学术会议。 Abstract 大规模的分布式系统,如微软365的数据库系统,需要及时的缓解方案来解决故障,提高服务的可用性和可靠性。然而,缓解动作可能是昂贵的,它们可能导致性能下降,甚至是高昂的金钱支出。缓解动作可