gydtep 发表于 2021-12-19 18:49:22

阿里云服务器爆款特惠+免费领取代金券!本活动长期有效!阿里云官网活动网址:https://www.aliyun.com/minisite/goods?userCode=2a7uv47d

gydtep 发表于 2021-12-19 19:45:27

利用这些项目的组合或多或少可以解决针对性的一类或者几类问题,但真正应用起来你会发现各种问题:

多套方案交织:可能要使用至少Metrics、Logging、Tracing3种方案,维护代价巨大

gydtep 发表于 2021-12-19 20:31:34

在这种多套方案组合的场景下,问题排查需要和多套系统打交道,若这些系统归属不同的团队,还需要和多个团队进行交互才能解决问题,整体的维护和使用代价非常巨大。因此我们希望能够使用一套系统去解决所有类型可观测性数据的采集、存储、分析的功能。

gydtep 发表于 2021-12-20 08:10:13

基于上述我们的一些思考,回归到可观测这个问题的本质,我们目标的可观测性方案需要能够满足以下几点:

数据全面覆盖:包括各类的可观测数据以及支持从各个端、系统中采集数据

gydtep 发表于 2021-12-20 10:27:54

Logs:Logs的协议较少,但是设计比较多的日志采集Agent,我们平台除了自研的Logtail外,还兼容包括Logstash、Beats(FileBeat、AuditBeat)、Fluentd、Fluent bits,同时还提供syslog协议,路由器交换机等可以直接用syslog协议上报数据到服务端。

gydtep 发表于 2021-12-20 15:07:21

最后应用时序异常检测算法来快速的分析这些机器的CPU指标
最后的结果使用线图进行可视化,结果展示更加直观

gydtep 发表于 2021-12-20 16:14:58

Scheduled SQL:顾名思义,就是定期运行的SQL,核心思想是把庞大的数据精简化,更加利于查询,例如通过AccessLog每分钟定期计算网站的访问请求、按APP、Region粒度聚合CPU、内存指标、定期计算Trace拓扑等。

gydtep 发表于 2021-12-20 16:47:34

数据源包括移动端、Web端、后端的各类数据,同时还包括一些监控系统的数据、第三方的数据等
采集通过SLS的Logtail和TLog实现
基于离在线混合的数据处理方式,对数据进行打标、过滤、关联、分发等预处理

gydtep 发表于 2021-12-20 19:06:15

服务/接口黄金指标:Trace中记录了服务/接口的调用延迟、状态码等信息,基于这些数据可以计算出QPS、延迟、错误率等黄金指标。

gydtep 发表于 2021-12-21 09:10:08

本文阐述了IMCI背后技术路线的思考和具体方案的取舍。PolarDB MySQL 列存分析功能即将在阿里云上线,敬请期待。
页: 1 [2] 3 4 5 6 7 8 9 10 11
查看完整版本: 免费领取3000元阿里云代金券