阿里云服务器1核2G低至102元/年 - 第36页 - IDC信息交流 - 落伍者

gydtep 发表于 2020-7-12 21:44:58

阿里巴巴在全球都建有数据中心，每个地区每天会产生一份当地的交易订单信息，存在就近的数据中心。

gydtep 发表于 2020-7-13 10:30:22

线上三种策略相辅相成，数据缓存主要解决周期类型作业、热数据的依赖；作业粒度调度主要解决临时作业、历史数据的依赖；

gydtep 发表于 2020-7-13 13:57:26

目前资源调度的新架构已全面上线，各项指标持续稳定。

gydtep 发表于 2020-7-13 15:36:09

在这么一个简单的例子中，用户有一张订单表order_data，存储了海量的交易信息，用户想所有查询花费超过1000的交易订单按照userid聚合后，每个用户的花费之和是多少。

gydtep 发表于 2020-7-13 17:44:26

实现Merge Join需要对两张表都要做shuffle操作——也就是进行一次数据狡猾，特别的如果有数据倾斜(例如某个userid对应的交易记录特别多)，这时候MergeJoin过程就会出现长尾，影响执行效率；

gydtep 发表于 2020-7-14 10:52:59

我们认为对于图的抽象分层描述，将允许在同一个DAG系统中，对于离线/实时/流/渐进计算等多种模型都可以有一个好的描述。

gydtep 发表于 2020-7-14 13:02:32

在统一的新模型之上，计算引擎和执行框架可以在两个极端之间，根据具体需要，选择不同的平衡点。

gydtep 发表于 2020-7-14 14:10:16

Bubble相对准实时模式：在节省了2.6X资源情况下， Bubble性能仅下降15%;

gydtep 发表于 2020-7-14 17:32:40

以shuffle agent文件丢失/损坏是大数据作业的常见问题为例，传统的文件系统shuffle可以直接定位到出错的数据文件来自哪个mapper，只要重跑这个mapper即可恢复。

gydtep 发表于 2020-7-15 07:55:39

agent切换时（如机器下线），原shuffle agent生成的数据可能已经丢失或访问不到。

页: 26 27 28 29 30 31 32 33 34 35 [36] 37 38 39 40 41 42 43 44 45

落伍者's Archiver