gydtep 发表于 2019-12-7 11:07:52
我们业务上进行了改造,通过生产中间表轮转来解决。gydtep 发表于 2019-12-7 12:46:47
增加Review流程。DDL变更类型多,gydtep 发表于 2019-12-7 14:26:19
渠道多,大量重复报警,干扰大。gydtep 发表于 2019-12-7 15:44:26
删除无效报警,清理监控平台历史无效的预警,提高预警真实性。gydtep 发表于 2019-12-7 18:14:45
关于故障恢复我们有一个1-5-10的理想模型gydtep 发表于 2019-12-7 20:10:01
影响面分析困难,无法量化故障影响面。gydtep 发表于 2019-12-7 21:57:50
我们的目标是通过持续迭代优化保障用户99.999%的可用性服务体验gydtep 发表于 2019-12-8 10:15:21
抑或自动化运维,都需要SRE具备全面的运维能力。gydtep 发表于 2019-12-8 12:07:27
这里的工程能力主要指软件工程的落地能力以及反向工程能力,gydtep 发表于 2019-12-8 14:21:35
对于给定的任务,在拥有足够的标签的情况下,