gydtep 发表于 2020-10-31 18:28:43
目前支持的目标有函数计算和消息服务(MNS 主题/队列)。函数计算将会收集异步调用的一些基本情况(如请求 Payload、函数异常错误码、函数返回、重试次数等)并发往目标服务,用户可根据这些数据来执行具体的后续策略。gydtep 发表于 2020-11-1 08:07:04
作为阿里经济体基础设施的阿里云日志服务(SLS),服务了上万级的用户,每天处理20PB日志/Metric/Trace数据,gydtep 发表于 2020-11-1 19:39:14
第三大挑战来自于分析能力。在接入足够多的数据后,往往会面临监控项太多,数据量太多,线索太多等问题,我们需要有成套的方法帮助我们去降维、去发现、去关联、去推理。AIOps算法目前聚焦在这一层上。gydtep 发表于 2020-11-2 08:26:15
数据存储后能够支撑某个场景的服务能力,但随之而来的问题就是流动性。gydtep 发表于 2020-11-2 13:20:50
当这些数据写入Logstore后,相当于写入了一张存放日志的数据库,可以通过SQL对其中任意字段进行查询与分析。例如“ select count(1) as qps”,获得当前汇总的QPS。gydtep 发表于 2020-11-2 15:20:47
这些算法通过SQL/DSL函数向用户提供,可以在各种场景中用到。gydtep 发表于 2020-11-2 17:34:28
因此AIOps要落地,我们必须尊重专家系统的经验沉淀,例如通过模板化、知识表示与推理、或在一些场景中使用迁移学习等。gydtep 发表于 2020-11-2 19:51:13
在测试时需要考虑很多方面和维度,保证软件各方面的质量。测试包括了集成测试、端到端的 E2E 测试、性能测试、压力测试、容错测试、兼容测试、破坏测试等。gydtep 发表于 2020-11-3 06:01:12
回顾一下当有了这些能力之后,如何实现自动化应用交付流水线。在源码阶段,可以实现代码质量静态检查,保证 CheckIn 的代码质量。gydtep 发表于 2020-11-3 14:16:15
如果采用了微服务架构,应用将由多个服务组成,那么还需要考虑服务管理。