gydtep 发表于 2020-12-30 19:03:47
等级0:手工分析,依靠基础的Dashboard、告警、日志查询、分布式链路追踪等方式进行手动告警、分析,也是目前绝大部分公司使用的场景gydtep 发表于 2020-12-30 19:29:44
等级1:智能告警,能够自动去扫描所有的可观察性数据,利用机器学习的方式去识别一些异常并进行自动告警,免去人工设置/调整各种基线告警的工作gydtep 发表于 2020-12-30 19:59:18
等级4:故障预测,故障发生总会有损失,所以最好的情况是避免故障的发生,因此故障预测技术可以更好的来保证系统的可靠性,利用之前积累的一些故障先兆信息做到“未卜先知”gydtep 发表于 2020-12-30 21:06:21
等级5:变更影响预测,我们知道绝大部分的故障都是由变更引起的,因此如果能够模拟出每个变更对系统带来的影响以及可能产生的问题,我们就能够提前评估出是否能够允许此次变更。gydtep 发表于 2020-12-30 21:21:06
目前我们SLS正在开展云原生可观察性的工作,基于OpenTelemetry这个未来云原生下可观察性的标准,实现各类可观察性数据的统一收集,覆盖各个数据源和各类数据类型,做到多语言支持、多设备支持、类型统一gydtep 发表于 2020-12-31 10:07:46
数据不互通:虽然是同一个业务组件,同一个系统,产生的数据由于在不同的方案中,数据难以互通,无法充分发挥数据价值gydtep 发表于 2020-12-31 10:31:19
这些方案其中很多都是针对传统系统的,对于云原生的支持相对较弱,而且方案本身部署和使用代价都很高,不符合“云原生”这种一键部署、开箱即用的使用方式。gydtep 发表于 2020-12-31 13:14:20
等级3:根因分析+问题自愈,自动根据异常以及系统的CMDB信息直接定位问题的根因,根因定位准确后那边可以去做问题的自愈。这一阶段相当于是一次质的飞跃,在某些场景下可以在人不用参与的情况下实现问题的自愈。gydtep 发表于 2020-12-31 15:22:50
我们知道 Flink 的一个最核心的部分是通过分布式全局轻量快照算法 做 checkpoint 来保证强一致性 exactly once 语义。这个算法通过 task 之间 barrier 的传递使得每一个 task 只需要对自己的状态进行快照;当 barrier 最终达到 sink 的时候,我们就会得到一个完整的全局快照(checkpoint)。gydtep 发表于 2020-12-31 15:31:02
Unaligned checkpoint 和 aligned checkpoint(现有的 checkpoint 模式)可以通过 alignment timeout 自动智能的切换