gydtep 发表于 2020-7-13 15:57:11
一个完整的计算调度,包含了上图中的DAG的调度执行以及数据shuffle的过程。gydtep 发表于 2020-7-13 17:22:11
目的是获取60岁以上用户花费大于1000的详细信息,由于年纪和花费在两张表中,所以此时需要做一次join。gydtep 发表于 2020-7-14 10:38:20
例如智能动态并发度调整:在执行过程中依据分区数据统计调整,动态调整并发度;自动合并小分区,避免不必要的资源使用,节约用户资源使用;切分大分区,避免不必要的长尾出现等等。gydtep 发表于 2020-7-14 15:51:57
可以看到,mapper生成shuffle数据的过程变为mapper将shuffle数据通过网络传输给每个reducer对应的shuffle agent, 而shuffle agent归集一个reducer来自所有mapper的数据,并追加到shuffle磁盘文件中,两个过程是流水线并行化起来的。gydtep 发表于 2020-7-14 20:09:37
有效的容错机制使得shuffle service相对于文件系统shuffle,在提供更好的作业性能的同时,因shuffle数据出错的task重试比例降低了一个数量级,给线上全面投入使用打好了稳定性基础。gydtep 发表于 2020-7-15 09:23:30
作业全程的数据流动发生在网络和内存,从而在有限的作业规模下取得极致的运行性能,如大家熟悉的Spark, Flink等系统。gydtep 发表于 2020-7-15 10:23:51
Fuxi Shuffle 2.0全面上线生产集群,处理同样数据量的作业资源比原来节省15%,仅shuffle方式的变化就使得磁盘压力降低23%,作业运行中发生错误重试的比例降至原来的5%。gydtep 发表于 2020-7-15 11:30:36
严重影响用户体验,同时为了应对在618、双11等各种大促的情况,需要提前准备大量的机器。gydtep 发表于 2020-7-15 14:26:36
试想,我在dataworks上跑个SQL,之前一分钟就出结果,现在十几分钟甚至一个小时都跑不出来,大数据分析的同学估计也受不了了。gydtep 发表于 2020-7-15 15:48:41
无法定位MaxCompute信息。MaxCompute是基于Cgroup资源隔离,因此以上工具无法针对作业进行针对性采集