gydtep
发表于 2020-7-14 16:45:33
具体来说,mapper产生的每份shuffle数据除了发送给对于shuffle agent外,也会按照与传统文件系统shuffle数据类似的格式,在本地写一个备份。
gydtep
发表于 2020-7-14 16:52:18
Shuffle service的归集思想在公司内外都有不同的工作展现类似的思想,但都限于“跑分”和小范围使用。因为这种模式对于各环节的错误天生处理困难。
gydtep
发表于 2020-7-14 20:10:50
在前述基础功能之上,Fuxi线上的shuffle系统应用了更多功能和优化,在性能、成本、稳定性等方便取得了进一步的提升。
gydtep
发表于 2020-7-14 20:19:06
前面的数据归集模型中,shuffle agent作为新角色衔接了mapper的数据发送与数据落盘。
gydtep
发表于 2020-7-14 21:14:53
分布式集群中磁盘、网络等问题可能影响这条链路上的数据传输,节点本身的压力也可能影响shuffle agent的工作状态。
gydtep
发表于 2020-7-14 21:33:14
当因集群热点等原因使得shuffle agent负载过重时,我们提供了必要的流控措施缓解网络和磁盘的压力;
gydtep
发表于 2020-7-15 09:23:58
Fuxi DAG也提供了实时/准实时作业运行环境,传统的shuffle方式是通过网络直连,也能收到明显优于离线shuffle的性能。
gydtep
发表于 2020-7-15 10:24:31
对使用内存shuffle的准实时作业,我们在TPCH等标准测试集中与网络shuffle性能相当,资源使用只有原来的30%左右,且支持了更大的作业规模,和DAG 2.0系统更多的动态调度功能应用至准实时作业。
gydtep
发表于 2020-7-15 11:43:58
如何保障在线服务质量
在线集群的平均CPU利用率只有10%左右,混部的目标就是将剩余的资源提供给MaxCompute进行离线计算使用,从而达到节约成本的目的。
gydtep
发表于 2020-7-15 14:37:36
CPU、Net、IO等属于可伸缩资源,Memory属于不可伸缩资源,不同类型的资源有不同层次的资源隔离方案。