gydtep 发表于 2020-6-3 12:04:56
为了解决上述规模和扩展性问题,更好地满足多种场景的调度需求,同时从架构上支持灰度能力,gydtep 发表于 2020-6-3 14:52:24
物理图上的每个节点都代表了一个具体的执行实例,实例中包含了具体处理数据的算子,特别的作为一个典型的分布式作业,gydtep 发表于 2020-6-3 16:01:01
静态的DAG执行,可能导致选中的是非最优的执行计划,从而导致各种运行时的效率低下,甚至作业失败。gydtep 发表于 2020-6-3 17:10:53
DAG2.0通过逻辑图和物理图的清晰分层,可扩展的状态机管理,插件式的系统管理,以及基于事件驱动的调度策略等基座设计,gydtep 发表于 2020-6-3 21:30:08
在分布式作业处理中是一个全新的方向,也是我们在DAG 2.0里面探索的新式解决方案。gydtep 发表于 2020-6-4 09:26:27
大数据计算作业中,节点间的数据传递称为shuffle, 主流分布式计算系统都提供了数据shuffle服务的子系统。gydtep 发表于 2020-6-4 10:36:16
我们先以使用最广泛的,基于磁盘文件系统的离线作业shuffle为例。gydtep 发表于 2020-6-4 12:42:06
所以碎片IO现象在线上普遍存在,磁盘也处于较高的压力水位。gydtep 发表于 2020-6-4 14:03:40
Shuffle service的归集思想在公司内外都有不同的工作展现类似的思想,但都限于“跑分”和小范围使用。因为这种模式对于各环节的错误天生处理困难。gydtep 发表于 2020-6-4 15:09:57
有效的容错机制使得shuffle service相对于文件系统shuffle,在提供更好的作业性能的同时,因shuffle数据出错的task重试比例降低了一个数量级,给线上全面投入使用打好了稳定性基础。