gydtep 发表于 2020-6-2 12:27:42
北京的数据中心,每天会运行一个定时任务来统计当天全球所有的订单信息,需要从其他数据中心读取这些交易数据。gydtep 发表于 2020-6-2 14:12:32
为了解决这个问题,我们在数据中心上增加了一层调度层,用于在数据中心之间调度数据和计算。gydtep 发表于 2020-6-2 15:53:30
但project间的依赖往往复杂且不断变化,很难有一劳永逸的排布策略,并且project排布需要对project进行整体迁移,周期较长,且需要消耗大量的带宽。gydtep 发表于 2020-6-2 19:15:33
我们研究了多种数据缓存算法,并对其进行了对比试验,下图展示了不同缓存策略的收益,横轴是冗余存储空间,纵轴是带宽消耗。gydtep 发表于 2020-6-3 08:25:36
但受限于单机的物理限制,这种优化总会存在天花板,因此需要从架构上优化来彻底规模和性能的可扩展性问题。gydtep 发表于 2020-6-3 11:35:19
这些弊端逐渐显现,因此急需从架构上改进,让资源调度具备线上的灰度能力,从而幅提升工程效率。gydtep 发表于 2020-6-3 12:51:34
调度协调服务(Coordinator):管理资源调度系统的配置信息,Meta信息,以及对机器资源、Scheduler、RMS的可用性和服务角色间的可见性做仲裁。gydtep 发表于 2020-6-3 15:29:03
在云上和阿里集团的大数据实践中,我们发现对于计算调度需要同时具备超大规模和智能化的需求,以此为基本诉求我们开了Fuxi计算调度2.0的研发。gydtep 发表于 2020-6-3 16:33:54
例如spark社区很早提出了运行时调整Join策略的需求(Join: Determine the join strategy (broadcast join or shuffle join) at runtime),但是目前仍然没有解决。gydtep 发表于 2020-6-3 19:41:23
这就带来了执行过程中的不确定性,因此,要求一个好的分布式作业执行系统,需要能够根据中间运行结果的特点,来进行执行过程中的动态调整。