gydtep 发表于 2020-7-13 16:44:08
然而在现实情况中,许多和运行过程中数据特性相关的问题,都只有个在执行过程中才能被最准确的获得。gydtep 发表于 2020-7-13 19:04:55
但是如果选择了map join的优化,执行过程中发现小表数据量超过了内存限制(大于60岁的用户很多),这个时候query执行就会由于oom而失败,只能重新执行。gydtep 发表于 2020-7-13 19:34:33
但是在实际执行过程中,具体数据量的大小,需要在上游节点完成后才能被感知,因此在提交作业前很难准确的判断是否可以采用Map join优化,gydtep 发表于 2020-7-14 10:38:55
除了动态性在SQL执行中带来的重大性能提升外,DAG 2.0抽象分层的点,边,图架构上,也使其能通过对点和边上不同物理特性的描述,对接不同的计算模式。gydtep 发表于 2020-7-14 10:44:32
业界各种分布式数据处理引擎,包括SPARK, FLINK, HIVE, SCOPE, TENSORFLOW等等,其分布式执行框架的本源都可以归结于Dryad提出的DAG模型。gydtep 发表于 2020-7-14 11:36:46
准实时作业:整个作业的所有节点都统一在一个调度单位内进行gang scheduling;节点间连接边上通过网络/内存直连传输数据,并利用数据pipeline来追求最优的性能。gydtep 发表于 2020-7-14 13:31:01
Bubble相对离线作业:在多使用20%资源的情况下,Bubble模式性能提升将近一倍;gydtep 发表于 2020-7-14 13:33:39
Bubble相对离线作业:在多使用20%资源的情况下,Bubble模式性能提升将近一倍;gydtep 发表于 2020-7-14 15:37:34
为了针对性地解决上述碎片读问题及其引发的一连串负面效应,我们全新打造了基于shuffle service的shuffle模式。gydtep 发表于 2020-7-14 15:43:04
Shuffle service的最基本工作方式是,在集群每台机器部署一个shuffleagent节点,用来归集写给同一reducer的shuffle数据。