gydtep 发表于 2020-6-2 12:27:42

北京的数据中心,每天会运行一个定时任务来统计当天全球所有的订单信息,需要从其他数据中心读取这些交易数据。

gydtep 发表于 2020-6-2 14:12:32

为了解决这个问题,我们在数据中心上增加了一层调度层,用于在数据中心之间调度数据和计算。

gydtep 发表于 2020-6-2 15:53:30

但project间的依赖往往复杂且不断变化,很难有一劳永逸的排布策略,并且project排布需要对project进行整体迁移,周期较长,且需要消耗大量的带宽。

gydtep 发表于 2020-6-2 19:15:33

我们研究了多种数据缓存算法,并对其进行了对比试验,下图展示了不同缓存策略的收益,横轴是冗余存储空间,纵轴是带宽消耗。

gydtep 发表于 2020-6-3 08:25:36

但受限于单机的物理限制,这种优化总会存在天花板,因此需要从架构上优化来彻底规模和性能的可扩展性问题。

gydtep 发表于 2020-6-3 11:35:19

这些弊端逐渐显现,因此急需从架构上改进,让资源调度具备线上的灰度能力,从而幅提升工程效率。

gydtep 发表于 2020-6-3 12:51:34

调度协调服务(Coordinator):管理资源调度系统的配置信息,Meta信息,以及对机器资源、Scheduler、RMS的可用性和服务角色间的可见性做仲裁。

gydtep 发表于 2020-6-3 15:29:03

在云上和阿里集团的大数据实践中,我们发现对于计算调度需要同时具备超大规模和智能化的需求,以此为基本诉求我们开了Fuxi计算调度2.0的研发。

gydtep 发表于 2020-6-3 16:33:54

例如spark社区很早提出了运行时调整Join策略的需求(Join: Determine the join strategy (broadcast join or shuffle join) at runtime),但是目前仍然没有解决。

gydtep 发表于 2020-6-3 19:41:23

这就带来了执行过程中的不确定性,因此,要求一个好的分布式作业执行系统,需要能够根据中间运行结果的特点,来进行执行过程中的动态调整。
页: 323 324 325 326 327 328 329 330 331 332 [333] 334 335 336 337 338 339 340 341 342
查看完整版本: 阿里云2000元专属红包领取及使用说明