免费领取阿里云服务器2000元代金券！ - 第206页 - IDC信息交流 - 落伍者

gydtep 发表于 2020-7-13 16:44:08

然而在现实情况中，许多和运行过程中数据特性相关的问题，都只有个在执行过程中才能被最准确的获得。

gydtep 发表于 2020-7-13 19:04:55

但是如果选择了map join的优化，执行过程中发现小表数据量超过了内存限制(大于60岁的用户很多)，这个时候query执行就会由于oom而失败，只能重新执行。

gydtep 发表于 2020-7-13 19:34:33

但是在实际执行过程中，具体数据量的大小，需要在上游节点完成后才能被感知，因此在提交作业前很难准确的判断是否可以采用Map join优化，

gydtep 发表于 2020-7-14 10:38:55

除了动态性在SQL执行中带来的重大性能提升外，DAG 2.0抽象分层的点，边，图架构上，也使其能通过对点和边上不同物理特性的描述，对接不同的计算模式。

gydtep 发表于 2020-7-14 10:44:32

业界各种分布式数据处理引擎，包括SPARK, FLINK, HIVE, SCOPE, TENSORFLOW等等，其分布式执行框架的本源都可以归结于Dryad提出的DAG模型。

gydtep 发表于 2020-7-14 11:36:46

准实时作业：整个作业的所有节点都统一在一个调度单位内进行gang scheduling；节点间连接边上通过网络/内存直连传输数据，并利用数据pipeline来追求最优的性能。

gydtep 发表于 2020-7-14 13:31:01

Bubble相对离线作业：在多使用20%资源的情况下，Bubble模式性能提升将近一倍；

gydtep 发表于 2020-7-14 13:33:39

Bubble相对离线作业：在多使用20%资源的情况下，Bubble模式性能提升将近一倍；

gydtep 发表于 2020-7-14 15:37:34

为了针对性地解决上述碎片读问题及其引发的一连串负面效应，我们全新打造了基于shuffle service的shuffle模式。

gydtep 发表于 2020-7-14 15:43:04

Shuffle service的最基本工作方式是，在集群每台机器部署一个shuffle
agent节点，用来归集写给同一reducer的shuffle数据。

页: 196 197 198 199 200 201 202 203 204 205 [206] 207 208 209 210 211 212 213 214 215

落伍者's Archiver