免费领取阿里云代金券2020元啦！新老用户同享。 - 第51页 - IDC信息交流 - 落伍者

gydtep 发表于 2020-7-13 15:19:02

对于作业的逻辑阶段和各个计算节点的管理, 以及shuffle策略的选择/执行，是一个分布式作业能够正确完成重要前提。

gydtep 发表于 2020-7-13 15:26:25

这一特点，无论是传统的MR作业，分布式SQL作业，还是分布式的机器学习/深度学习作业，都是一脉相承的，

gydtep 发表于 2020-7-13 15:57:49

阿里计算平台的fuxi计算调度，经过十年的发展和不断迭代，成为了作为阿里集团内部以及阿里云上大数据计算的重要基础设施。

gydtep 发表于 2020-7-13 16:11:07

另一方面，业务逻辑以及数据来源的多样性，计算调度在阿里已经很早就跨越了不同规模上的可用/够用的前中期阶段，2.0上我们开始探索更加前沿的智能化执行阶段。

gydtep 发表于 2020-7-13 17:45:01

二是实现方式是Map join(Hash join)的方式(如下图右侧所示)：上述sql中如果60岁以上的用户信息较少，数据可以放到一个计算节点的内存中，那对于这个超小表可以不做shuffle，

gydtep 发表于 2020-7-14 10:54:02

如果我们对分布式SQL进行细分的话，可以看见业界对于不同场景上的优化经常走在两个极端

gydtep 发表于 2020-7-14 12:23:32

当调度单位可以自由调整，就可以实现一种全新的混合的计算模式，我们称之为Bubble执行模式。

gydtep 发表于 2020-7-14 12:42:28

这种混合Bubble模式，使得DAG的用户，也就是上层计算引擎的开发者(比如MaxCompute的优化器)，能够结合执行计划的特点，以及引擎终端用户对资源使用和性能的敏感度，

gydtep 发表于 2020-7-14 14:12:58

大数据计算作业中，节点间的数据传递称为shuffle, 主流分布式计算系统都提供了数据shuffle服务的子系统。

gydtep 发表于 2020-7-14 14:27:38

如前述DAG计算模型中，task间的上下游数据传输就是典型的shuffle过程。

页: 41 42 43 44 45 46 47 48 49 50 [51] 52 53 54 55 56 57 58 59 60

落伍者's Archiver