gydtep 发表于 2020-7-12 21:44:58

阿里巴巴在全球都建有数据中心,每个地区每天会产生一份当地的交易订单信息,存在就近的数据中心。

gydtep 发表于 2020-7-13 10:30:22

线上三种策略相辅相成,数据缓存主要解决周期类型作业、热数据的依赖;作业粒度调度主要解决临时作业、历史数据的依赖;

gydtep 发表于 2020-7-13 13:57:26

目前资源调度的新架构已全面上线,各项指标持续稳定。

gydtep 发表于 2020-7-13 15:36:09

在这么一个简单的例子中,用户有一张订单表order_data,存储了海量的交易信息,用户想所有查询花费超过1000的交易订单按照userid聚合后,每个用户的花费之和是多少。

gydtep 发表于 2020-7-13 17:44:26

实现Merge Join需要对两张表都要做shuffle操作——也就是进行一次数据狡猾,特别的如果有数据倾斜(例如某个userid对应的交易记录特别多),这时候MergeJoin过程就会出现长尾,影响执行效率;

gydtep 发表于 2020-7-14 10:52:59

我们认为对于图的抽象分层描述,将允许在同一个DAG系统中,对于离线/实时/流/渐进计算等多种模型都可以有一个好的描述。

gydtep 发表于 2020-7-14 13:02:32

在统一的新模型之上,计算引擎和执行框架可以在两个极端之间,根据具体需要,选择不同的平衡点。

gydtep 发表于 2020-7-14 14:10:16

Bubble相对准实时模式:在节省了2.6X资源情况下, Bubble性能仅下降15%;

gydtep 发表于 2020-7-14 17:32:40

以shuffle agent文件丢失/损坏是大数据作业的常见问题为例,传统的文件系统shuffle可以直接定位到出错的数据文件来自哪个mapper,只要重跑这个mapper即可恢复。

gydtep 发表于 2020-7-15 07:55:39

agent切换时(如机器下线),原shuffle agent生成的数据可能已经丢失或访问不到。
页: 26 27 28 29 30 31 32 33 34 35 [36] 37 38 39 40 41 42 43 44 45
查看完整版本: 阿里云服务器1核2G低至102元/年