gydtep 发表于 2020-7-12 21:44:58
阿里巴巴在全球都建有数据中心,每个地区每天会产生一份当地的交易订单信息,存在就近的数据中心。gydtep 发表于 2020-7-13 10:30:22
线上三种策略相辅相成,数据缓存主要解决周期类型作业、热数据的依赖;作业粒度调度主要解决临时作业、历史数据的依赖;gydtep 发表于 2020-7-13 13:57:26
目前资源调度的新架构已全面上线,各项指标持续稳定。gydtep 发表于 2020-7-13 15:36:09
在这么一个简单的例子中,用户有一张订单表order_data,存储了海量的交易信息,用户想所有查询花费超过1000的交易订单按照userid聚合后,每个用户的花费之和是多少。gydtep 发表于 2020-7-13 17:44:26
实现Merge Join需要对两张表都要做shuffle操作——也就是进行一次数据狡猾,特别的如果有数据倾斜(例如某个userid对应的交易记录特别多),这时候MergeJoin过程就会出现长尾,影响执行效率;gydtep 发表于 2020-7-14 10:52:59
我们认为对于图的抽象分层描述,将允许在同一个DAG系统中,对于离线/实时/流/渐进计算等多种模型都可以有一个好的描述。gydtep 发表于 2020-7-14 13:02:32
在统一的新模型之上,计算引擎和执行框架可以在两个极端之间,根据具体需要,选择不同的平衡点。gydtep 发表于 2020-7-14 14:10:16
Bubble相对准实时模式:在节省了2.6X资源情况下, Bubble性能仅下降15%;gydtep 发表于 2020-7-14 17:32:40
以shuffle agent文件丢失/损坏是大数据作业的常见问题为例,传统的文件系统shuffle可以直接定位到出错的数据文件来自哪个mapper,只要重跑这个mapper即可恢复。gydtep 发表于 2020-7-15 07:55:39
agent切换时(如机器下线),原shuffle agent生成的数据可能已经丢失或访问不到。