gydtep 发表于 2020-6-3 15:04:57
今天计算调度同时服务了以MaxCompute SQL和PAI为代表的多种计算引擎,在近10万台机器上日均运行着千万界别的分布式DAG作业,每天处理EB数量级的数据。gydtep 发表于 2020-6-3 16:02:34
因此在提交作业前很难准确的判断是否可以采用Map join优化,从上图可以看出在Map Join和Sorted Merge Join上DAG图是两种结构,gydtep 发表于 2020-6-3 16:07:33
因此这需要DAG调度在执行过程中具有足够的动态性,能够动态的修改DAG图来达到执行效率的最优。gydtep 发表于 2020-6-3 16:17:23
我们在阿里集团和云上海量业务的实践中发现,类似map join优化的这样的例子是很普遍的,gydtep 发表于 2020-6-3 17:12:18
如前所诉,分布式作业执行的许多物理特性相关的问题,在作业运行前是无法被感知的。gydtep 发表于 2020-6-3 21:31:30
DAG2.0的动态逻辑图能力很好的支持了这种运行过程中根据中间数据特性的动态优化,而通过与上层引擎优化器的深度合作,gydtep 发表于 2020-6-3 21:49:46
在对于join使用的算法无法被事先确定的时候,分布式调度执行框架可以允许优化提交一个conditional DAG,这样的DAG同时包括使用两种不同join的方式对应的不同执行计划支路。gydtep 发表于 2020-6-4 09:28:13
在数据密集型作业中,shuffle阶段的时间和资源使用占比非常高,有其他大数据公司研究显示,gydtep 发表于 2020-6-4 10:38:04
而一个reducer要从所有mapper所写的文件中,读取到属于自己的那一小块。IKGLOBAL 发表于 2020-6-4 10:42:36
我勒个去,170页的回复,楼主辛苦了