gydtep 发表于 2020-7-13 16:44:08

然而在现实情况中,许多和运行过程中数据特性相关的问题,都只有个在执行过程中才能被最准确的获得。

gydtep 发表于 2020-7-13 19:04:55

但是如果选择了map join的优化,执行过程中发现小表数据量超过了内存限制(大于60岁的用户很多),这个时候query执行就会由于oom而失败,只能重新执行。

gydtep 发表于 2020-7-13 19:34:33

但是在实际执行过程中,具体数据量的大小,需要在上游节点完成后才能被感知,因此在提交作业前很难准确的判断是否可以采用Map join优化,

gydtep 发表于 2020-7-14 10:38:55

除了动态性在SQL执行中带来的重大性能提升外,DAG 2.0抽象分层的点,边,图架构上,也使其能通过对点和边上不同物理特性的描述,对接不同的计算模式。

gydtep 发表于 2020-7-14 10:44:32

业界各种分布式数据处理引擎,包括SPARK, FLINK, HIVE, SCOPE, TENSORFLOW等等,其分布式执行框架的本源都可以归结于Dryad提出的DAG模型。

gydtep 发表于 2020-7-14 11:36:46

准实时作业:整个作业的所有节点都统一在一个调度单位内进行gang scheduling;节点间连接边上通过网络/内存直连传输数据,并利用数据pipeline来追求最优的性能。

gydtep 发表于 2020-7-14 13:31:01

Bubble相对离线作业:在多使用20%资源的情况下,Bubble模式性能提升将近一倍;

gydtep 发表于 2020-7-14 13:33:39

Bubble相对离线作业:在多使用20%资源的情况下,Bubble模式性能提升将近一倍;

gydtep 发表于 2020-7-14 15:37:34

为了针对性地解决上述碎片读问题及其引发的一连串负面效应,我们全新打造了基于shuffle service的shuffle模式。

gydtep 发表于 2020-7-14 15:43:04

Shuffle service的最基本工作方式是,在集群每台机器部署一个shuffle
agent节点,用来归集写给同一reducer的shuffle数据。
页: 196 197 198 199 200 201 202 203 204 205 [206] 207 208 209 210 211 212 213 214 215
查看完整版本: 免费领取阿里云服务器2000元代金券!