gydtep 发表于 2020-7-13 15:35:16
为了帮助更好的理解计算调度(DAG和Shuffle)在大数据平台中的位置,我们可以通过MaxCompute分布式SQL的执行过程做为例子来了解:gydtep 发表于 2020-7-13 16:26:07
在云上和阿里集团的大数据实践中,我们发现对于计算调度需要同时具备超大规模和智能化的需求,以此为基本诉求我们开了Fuxi计算调度2.0的研发。gydtep 发表于 2020-7-13 19:03:31
而是直接将其全量数据broadcast到每个处理大表的分布式计算节点上,大表不用进行shuffle操作,通过在内存中直接建立hash表,gydtep 发表于 2020-7-14 10:37:32
除了map join这个典型场景外,借助DAG2.0的动态调度能力,MaxCompute在解决其他用户痛点上也做了很多探索,并取得了不错的效果。gydtep 发表于 2020-7-14 11:35:02
实现了这两种计算模式比较自然的融合和统一。离线作业和准实时作业在逻辑节点和逻辑边上映射不同的物理特性后,gydtep 发表于 2020-7-14 13:29:18
例如,在阿里内部的作业中,动态的conditional join相比静态的执行计划,整体获得了将近3X的性能提升。gydtep 发表于 2020-7-14 15:35:21
一个线上的例子是,某些主流集群单次读请求size为50-100KB, Disk util指标长期维持在90%的警戒线上。这些限制了对作业规模的进一步追求。gydtep 发表于 2020-7-14 16:44:03
如果这种机制应用于所有线上作业,显然是不可接受的。gydtep 发表于 2020-7-14 20:08:32
按前面所述,这份数据写的代价较小但读取的性能不佳,但由于仅在shuffle agent那个副本出错时才会读到备份数据,所以对作业整体性能影响很小,也不会引起集群级别的磁盘压力升高。gydtep 发表于 2020-7-15 09:22:55
离线大数据作业可能承担了主要的计算数据量,但流行的大数据计算系统中有非常多的场景是通过实时/准实时方式运行的,