gydtep 发表于 2020-6-1 20:48:57

海量大数据客户的信任和托付,对阿里大数据系统来说,是很大的责任,但也催生出了大规模、多场景、低成本、免运维的MaxCompute通用计算系统。

gydtep 发表于 2020-6-2 09:31:40

而计算资源紧张时,如何平衡不同的用户,不同的作业?作业也可能长短不一,重要程度不尽相同,今天和明天的需求也大相径庭。

gydtep 发表于 2020-6-2 13:11:28

当数据的产生和消费不在一个数据中心时,我们称之为跨数据中心数据依赖

gydtep 发表于 2020-6-2 16:47:58

更好的办法是将这些作业调度到数据所在的数据中心,再将作业的输出远程写回原数据中心,即作业粒度调度。

gydtep 发表于 2020-6-3 08:24:39

在保持既有性能、稳定性、调度效果等核心能力不下降的前提下,可以通过对调度器持续性能优化来扩展集群规模

gydtep 发表于 2020-6-3 12:05:34

伏羲资源调度2.0在1.0的基础上对调度架构做了大规模的重构,引入了去中心化的多调度器架构。

gydtep 发表于 2020-6-3 15:28:41

另一方面,业务逻辑以及数据来源的多样性,计算调度在阿里已经很早就跨越了不同规模上的可用/够用的前中期阶段,2.0上我们开始探索更加前沿的智能化执行阶段。

gydtep 发表于 2020-6-3 16:51:05

除此上述用户体感明显的场景之外,随着MaxCompute计算引擎本身更新换代和优化器能力的增强,以及PAI平台的新功能演进,上层的计算引擎自身能力在不断的增强。

gydtep 发表于 2020-6-3 21:30:54

还是以map join优化作为例子,由于map join与默认join方式(sorted merge join)对应的其实是两种不同优化器执行计划,在DAG层面,对应的是两种不同的逻辑图。

gydtep 发表于 2020-6-4 10:18:38

通常只依赖于底层的分布式文件系统,适用于所有类型作业。而在典型的常驻内存的实时/准实时计算中,通常使用网络直连shuffle的方式追求极致性能。
页: 34 35 36 37 38 39 40 41 42 43 [44] 45 46 47 48 49 50 51 52 53
查看完整版本: 阿里云服务器1核2G低至69元/年!