gydtep 发表于 2020-7-13 10:42:56
通过约3%的冗余存储节省了超过80%的跨数据中心带宽消耗,将跨中心依赖转化为本地读取的比例提高至90%。gydtep 发表于 2020-7-13 13:08:12
在保持原有单调度器各项核心指标稳定不变的基础上,去中心化的多调度器框架实现了机器规模和应用并发度的双向扩展,彻底解决了集群的可扩展性问题。gydtep 发表于 2020-7-13 15:01:23
每个分布式作业的中心管理点,也就是application master (AM)。这个管理节点也经常被称为DAG (Directional Acyclic Graph, 有向无环图) 组件,gydtep 发表于 2020-7-13 15:48:19
物理图上的每个节点都代表了一个具体的执行实例,实例中包含了具体处理数据的算子,特别的作为一个典型的分布式作业,其中包含了数据交换的算子shuffle——负责依赖外部存储和网络交换节点间的数据。gydtep 发表于 2020-7-13 17:23:08
一是Sorted Merge Join(如下图左侧的所示):也就是对于a和b两个子句执行后的数据按照join key(userid)进行分区,然后在下游节点按照相同的key进行Merge Join操作,gydtep 发表于 2020-7-13 20:17:21
由于业界大部分DAG调度框架都在逻辑图和物理图之间没有清晰的分层,缺少执行过程中的动态性,无法满足多种计算模式的需求。gydtep 发表于 2020-7-14 11:09:48
这两种模式的资源管理和作业执行,过去是搭建在两套完全分开的代码实现上的。这除了导致两套代码和功能无法复用以外,两种计算模式的非黑即白,gydtep 发表于 2020-7-14 11:17:12
使得彼此在资源利用率和执行性能之间无法tradeoff。而在DAG 2.0模型上,通过对点/边物理特性的映射,gydtep 发表于 2020-7-14 13:03:01
DAG2.0的动态性使得很多执行优化可以运行时决定,使得实际执行的效果更优。gydtep 发表于 2020-7-14 15:08:31
所以碎片IO现象在线上普遍存在,磁盘也处于较高的压力水位。