gydtep 发表于 2020-7-11 18:36:50

然而容器最大的创新在于容器镜像(即集装箱,Docker “现象级” 开创),它包含了一个应用运行所需的完整环境(整个操作系统的文件系统),具有一致性、轻量级、可移植、语言无关等特性,

gydtep 发表于 2020-7-12 07:59:52

伏羲(Fuxi)是十年前最初创立飞天平台时的三大服务之一(分布式存储 Pangu,分布式计算 MaxCompute,分布式调度 Fuxi),当时的设计初衷是为了解决大规模分布式资源的调度问题(本质上是多目标的最优匹配问题)。

gydtep 发表于 2020-7-12 13:53:38

首先,数据从哪里来?数据往往伴随着在线业务系统产生。而在线系统,出于延迟和容灾的考虑,往往遍布北京、上海、深圳等多个地域,如果是跨国企业,还可能遍布欧美等多个大陆的机房。

gydtep 发表于 2020-7-12 15:02:15

这也造成了我们的数据天然分散的形态。而计算,也可能发生在任意一个地域和机房。

gydtep 发表于 2020-7-12 17:28:47

避免重要关键任务受普通任务影响,这都需要内核层面的隔离保障机制。同时还要兼顾隔离性和性能、成本的折中考虑。这都需要“单机调度”。

gydtep 发表于 2020-7-12 21:45:27

北京的数据中心,每天会运行一个定时任务来统计当天全球所有的订单信息,需要从其他数据中心读取这些交易数据。

gydtep 发表于 2020-7-13 09:29:41

右图统计了不同排布下(迁移0个、20个、50个project)的最优带宽消耗,横轴为冗余存储,纵轴为带宽。

gydtep 发表于 2020-7-13 09:48:57

我们打破了计算资源按照数据中心进行规划的限制,理论上允许作业跑在任何一个数据中心。

gydtep 发表于 2020-7-13 11:07:06

资源管理和仲裁服务(ResourceManagerService,简称RMS):负责机器资源和状态管理,对各个Scheduler的调度结果进行仲裁,可以横向扩展。

gydtep 发表于 2020-7-13 13:58:24

在多调度器架构基础上,我们把机器学习场景调度策略进行了分离,通过独立的调度器来进行持续的优化。
页: 40 41 42 43 44 45 46 47 48 49 [50] 51 52 53 54 55 56 57 58 59
查看完整版本: 免费领取阿里云代金券2020元啦!新老用户同享。