系统稳定性治理的囚徒困境

本文主要是介绍系统稳定性治理的囚徒困境，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

系统稳定性治理的囚徒困境

笔者之前在大型的技术团队里，参与维护几个应用，这些应用由于较为老旧，存在较多的稳定性问题，因此系统短信告警频繁，治理又非常麻烦，老板不关注，属于典型的吃力不讨好的事情。那么如何保障系统的稳定性，解决告警问题变成了一个囚徒困境问题。
及每个同学都选择了忽略系统告警问题，最终导致线上问题频繁，最终出故障影响整体团队KPI。

在这里插入图片描述

经典囚徒困境如上简图所示，如果A和B都认罪，则各判5年；如果一个沉默一个认罪，则认罪的立即释放，而沉默的判10年；如果沉默，则各判1年。

如上分析，两个人都沉默的话，各判1年的整体最好的结局，但是实际上两个囚徒都会选择认罪，即各判5年，这个明明有整体最优解的情况下，实际上都会选择不优解，就是囚徒困境。

系统稳定性的囚徒困境解析

以一个系统为例，有多个用户都是系统的负责人，并且老板没有强势介入的情况下，此时如果发生了系统告警，如果有其他人去解决系统告警，我没有去解决，则我得到了收益；如果其他人不去解决系统告警，放任系统，我没有去解决，则我依然是最佳收益，此时系统出问题了，也不会怪罪我一个人。

在这里插入图片描述

当A和B都看告警并治理，则系统保持稳定，每个人都有5分收益值；如果B同学看告警并治理，则A坐享其成，收益值为10，而B花费时间治理告警，收益值-5；如果两人都不看，则系统发生故障，两人的收益值都为0.

总上所示，对于A来说，不去管系统的告警，都是在各类博弈下的最佳收益。对B同理，因此最终结果是两个人的收益值是0.而从整体上来看，最佳收益值是两个同学都去看告警并处理，保持系统稳定。
在实际上，笔者之前遇到的最终，就是手机短信报警高达每天几百条，最多的时候，一天手机收到了5万条告警短息。

囚徒困境的治理

囚徒困境在理论上的治理已经有较为完善的方案，不外乎下面几种：
1、利用无限次重复博弈（例如，经典的针锋相对策略、冷酷策略等）
2、利用信息不完全（例如，声誉效用、个体类型等）
3、利用心智模型，放松主体假定（例如带有同情的博弈）
4、本方可以采取一些措施（如降低本方的收益，签协议）让对方有理由相信你没有动机产生偏离，从而有动机产生合作

系统稳定性治理的方法

那么在系统稳定性治理里，老板或者整体团队可以有以下的治理和落地方式：
1、修改收益值，即对于主动处理系统告警的同学更多的奖励，比如每周统计表扬处理告警最多的同学，并将此纳入KPI考核中。
2、值班制度，每天有同学负责值班，值班周期内的所有问题由值班同学治理，不能及时完成的，添加到BUG定期跟踪并统计。
3、减少收益值，比如惩罚制度，对于出现重大问题，由于不及时治理稳定性问题的同学全部予以重罚。例如在上述的例子中，如果所有人都不处理系统告警问题，则对全组同学进行惩罚。

在这里插入图片描述