gydtep 发表于 2020-7-13 10:42:56

通过约3%的冗余存储节省了超过80%的跨数据中心带宽消耗,将跨中心依赖转化为本地读取的比例提高至90%。

gydtep 发表于 2020-7-13 13:08:12

在保持原有单调度器各项核心指标稳定不变的基础上,去中心化的多调度器框架实现了机器规模和应用并发度的双向扩展,彻底解决了集群的可扩展性问题。

gydtep 发表于 2020-7-13 15:01:23

每个分布式作业的中心管理点,也就是application master (AM)。这个管理节点也经常被称为DAG (Directional Acyclic Graph, 有向无环图) 组件,

gydtep 发表于 2020-7-13 15:48:19

物理图上的每个节点都代表了一个具体的执行实例,实例中包含了具体处理数据的算子,特别的作为一个典型的分布式作业,其中包含了数据交换的算子shuffle——负责依赖外部存储和网络交换节点间的数据。

gydtep 发表于 2020-7-13 17:23:08

一是Sorted Merge Join(如下图左侧的所示):也就是对于a和b两个子句执行后的数据按照join key(userid)进行分区,然后在下游节点按照相同的key进行Merge Join操作,

gydtep 发表于 2020-7-13 20:17:21

由于业界大部分DAG调度框架都在逻辑图和物理图之间没有清晰的分层,缺少执行过程中的动态性,无法满足多种计算模式的需求。

gydtep 发表于 2020-7-14 11:09:48

这两种模式的资源管理和作业执行,过去是搭建在两套完全分开的代码实现上的。这除了导致两套代码和功能无法复用以外,两种计算模式的非黑即白,

gydtep 发表于 2020-7-14 11:17:12

使得彼此在资源利用率和执行性能之间无法tradeoff。而在DAG 2.0模型上,通过对点/边物理特性的映射,

gydtep 发表于 2020-7-14 13:03:01

DAG2.0的动态性使得很多执行优化可以运行时决定,使得实际执行的效果更优。

gydtep 发表于 2020-7-14 15:08:31

所以碎片IO现象在线上普遍存在,磁盘也处于较高的压力水位。
页: 357 358 359 360 361 362 363 364 365 366 [367] 368 369 370 371 372 373 374 375 376
查看完整版本: 阿里云2000元专属红包领取及使用说明