gydtep
发表于 2021-12-1 18:38:20
在云原生和DevOps研发模式的挑战下,一个系统从开发、测试、到上线的整个过程中,会产生大量的日志、指标、事件以及告警等数据,这也给企业质量平台建设带来了很大的挑战。本议题主要通过可观测性的角度来讨论基于海量日志和时序数据的质量建设最佳实践。
gydtep
发表于 2021-12-2 12:14:24
依赖规则,缺乏智能:质量监控比较依赖于人的经验,很大程度上受限于人为设定的规则和阈值,无法做到数据自适应,因此无法发挥出真正的数据价值。另一方面就是随着系统的发展和演进,需要大量的人工干涉和不断调整,才能够让监控比较有效。
gydtep
发表于 2021-12-2 15:08:42
基于上述统一的数据存储和查询分析,我们可以非常轻松地实现统一的可视化和监控。如下图所示,虽然不同阶段的数据产生自不同的系统,也有着不同的格式,但是由于它们的存储和分析是一致的,因此我们可以构建出统一的报表来查看各个阶段的软件质量,以及统一进行监控的配置和告警的管理,而无需将这些分散到各个不同的系统中,脱离例如 ES + Kibana、Prometheus + Grafana 等组合。
gydtep
发表于 2021-12-2 20:17:20
导致的问题就是:
多套工具难维护:在不同的阶段可能使用了不同的工具,每个工具可能都提供了一部分的告警能力,最终导致难以维护。好在通过统一的数据接入和管理,我们可以统一去配置监控和管理告警。
gydtep
发表于 2021-12-3 18:22:04
路由合并:相关的告警合并起来,一并进行通知,而不是针对每个告警分别通知,从而减少通知的数量。例如:根据告警所在集群进行合并,假如某集群短时间内产生了10个告警,则只会发送一条通知,包含这10个事件。
gydtep
发表于 2021-12-3 20:21:28
动态分派包含如下功能:
多渠道:支持短信、语音、邮件、钉钉、企业微信、飞书、Slack等多种通知渠道,同时还支持通过自定义 Webhook 进行扩展。同一个告警,支持同时通过多个渠道、每个渠道使用不同的通知内容进行发送。例如通过语音和钉钉来进行告警通知,既可以保证触达强度,又可以保证通知内容的丰富程度。
动态通知:可以根据告警属性动态分派通知。例如:测试环境的告警,通过短信通知到张三,并且只在工作时间通知;而生产环境的告警,通过电话通知到张三和李四,并且无论何时,都要进行通知。
通知升级:长时间未解决的告警要进行升级。例如某告警触发后,通过短信通知到了某员工,但是该问题长时间未被处理,导致告警一直没有恢复,此时需要通知升级,通过语音的方式通知到该员工的领导。
gydtep
发表于 2021-12-4 10:15:09
11月11日,在2021天猫双11媒体沟通会上,阿里巴巴集团首席技术官程立分享了主题为“双11的再进化 阿里巴巴好科技的新起点”的演讲。
gydtep
发表于 2021-12-4 15:09:46
非常幸运,过去12年我们赶上了整个数字技术的一场波澜壮阔的革命,很多技术经历了从无到有。第一个是云,过去12年有一个非常清晰的脉络,阿里巴巴一方面在造云,把所有业务迁到云上,另一方面让云开始服务合作伙伴、客户,云从一个概念变成一个真正普惠的基础设施。
gydtep
发表于 2021-12-4 16:34:31
第一个方向是超级算力。过去12年,我们还在用信息时代的芯片架构、技术架构来支撑数字时代的发展,算力是整个上层技术和商业发展的瓶颈。下一个12年,我非常期待整个计算架构,整个芯片架构会实现变革性的突破,真正成为数字时代的算力架构。
gydtep
发表于 2021-12-4 18:22:25
我相信在未来的12年,这4个方向的变化都会发生,如果这些都发生的话,相信未来每年的双11将会给大家带来完全不一样的惊喜。