gydtep 发表于 2020-7-11 16:25:35
易于管理:需要从人工运维到自动运维的转变,具备自动化异常分析诊断能力,无需登录服务器。gydtep 发表于 2020-7-11 16:53:26
极致体验:包括应用分配/创建/资源申请/环境配置/开发测试/发布/监控报警/排障定位等需要做到通畅与简单,一站式体验,避免繁杂的搭积木式操作。gydtep 发表于 2020-7-11 21:42:54
这样做的受益是基础设施代码版本化,可 Review,可测试,可追溯,可回滚,一致性、防止配置漂移,gydtep 发表于 2020-7-12 11:53:37
同样的10年,伴随着阿里年年双11,MaxCompute同样支撑了阿里内部大数据的蓬勃发展,从原来的几百台,到现在的10万台物理机规模。gydtep 发表于 2020-7-12 16:13:38
并行同时计算,才能体现出分布式系统的加速优势。但小任务切粗切细,在不同的机器上有快有慢,上下步骤如何交接数据,同时避开各自故障和长尾,这些都需要“计算调度”。gydtep 发表于 2020-7-12 16:24:48
在不同的机器上有快有慢,上下步骤如何交接数据,同时避开各自故障和长尾,这些都需要“计算调度”。gydtep 发表于 2020-7-12 21:01:30
创新性的数据动态shuffle和全局跨级优化,取代业界磁盘shuffle;线上千万job,整体性能提升20%,成本下降15%,出错率降低一个数量级gydtep 发表于 2020-7-12 21:29:48
在线离线规模化混合部署,在线集群利用率由10%提升到40%,双十一大促节省4200台F53资源,且同时保障在线离线业务稳定。gydtep 发表于 2020-7-13 09:08:05
因此我们需要定期对业务的排布进行分析,根据业务对计算资源、数据资源的需求情况,以及集群、机房的规划,通过业务的迁移来降低跨中心依赖以及均衡各集群压力。gydtep 发表于 2020-7-13 10:30:49
并周期性地通过业务整体排布进行全局优化,用来降低跨中心依赖。整体来看,通过三种策略的共同作用,降低了约90%的跨地域数据依赖,