gydtep
发表于 2020-7-14 16:11:33
但在前述shuffle service流程中,由于shuffle agent输出的shuffle这个文件包含了来自所有mapper的shuffle数据,损坏文件的重新生成需要以重跑所有mapper为代价。
gydtep
发表于 2020-7-14 17:54:36
具体来说,mapper产生的每份shuffle数据除了发送给对于shuffle agent外,也会按照与传统文件系统shuffle数据类似的格式,在本地写一个备份。
gydtep
发表于 2020-7-15 08:45:36
线上已经有部分作业使用此种方式并在性能上得到了进一步的提升。
gydtep
发表于 2020-7-15 10:15:41
另一方面通过精确预测数据的读写速度并适时调度下游节点,可以取得与network传输shuffle相当的作业性能,而资源消耗降低50%以上。
gydtep
发表于 2020-7-15 11:31:05
由于以上种种原因,日常状态这些机器的资源利用率不足10%,产生资源浪费的情况。
gydtep
发表于 2020-7-15 14:27:05
如何衡量资源质量
电商业务通过富容器的方式集成多种容器粒度的分析手段,但是前文描述过离线作业的特点,
gydtep
发表于 2020-7-15 15:20:23
针对在线作业的资源情况,集团和业界都有较多的解决方案。
gydtep
发表于 2020-7-15 15:27:51
这类通用的资源采集角色存在以下无法解决的问题无法应用于离线作业资源画像的数据采集阶段
gydtep
发表于 2020-7-15 16:59:08
通过离线内部优先级区分及各种管理策略,实现了离线质量的稳定性保障;通过细粒度资源画像信息,实现了资源使用的评估与分析,
gydtep
发表于 2020-7-15 19:25:49
最后,我们热忱欢迎集团各个团队一起交流探讨,共同打造世界一流的分布式调度系统!