百独托管7500 紫田网络超高转化播放器收cps[推荐]速盾CDN 免实名免备防屏蔽阿里云 爆款特卖9.9元封顶提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场【腾讯云】多款产品1折起高防 随时退换 好耶数据小飞国外网赚带你月入万元炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠中客数据中心 服务器租用联盟系统移动广告平台 中易企业专场腾讯云服务器2.5折九九数据 工信部正规资质
腾讯云新用户大礼包代金券高价收cpa注册量高价展示【腾讯云】2核2G/9.93起租服务器找45互联 随时退换阿里云 短信服务 验证秒达

[国内信息] 阿里云服务器1折起购,先领券再购买! [复制链接]
查看:245324 | 回复:3691

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-13 15:35:16 | 显示全部楼层 来自 中国河北衡水
为了帮助更好的理解计算调度(DAG和Shuffle)在大数据平台中的位置,我们可以通过MaxCompute分布式SQL的执行过程做为例子来了解:
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-13 16:26:07 | 显示全部楼层 来自 中国河北衡水
在云上和阿里集团的大数据实践中,我们发现对于计算调度需要同时具备超大规模和智能化的需求,以此为基本诉求我们开了Fuxi计算调度2.0的研发。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-13 19:03:31 | 显示全部楼层 来自 中国河北衡水
而是直接将其全量数据broadcast到每个处理大表的分布式计算节点上,大表不用进行shuffle操作,通过在内存中直接建立hash表,
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-14 10:37:32 | 显示全部楼层 来自 中国河北衡水
除了map join这个典型场景外,借助DAG2.0的动态调度能力,MaxCompute在解决其他用户痛点上也做了很多探索,并取得了不错的效果。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-14 11:35:02 | 显示全部楼层 来自 中国河北衡水
实现了这两种计算模式比较自然的融合和统一。离线作业和准实时作业在逻辑节点和逻辑边上映射不同的物理特性后,
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-14 13:29:18 | 显示全部楼层 来自 中国河北衡水
例如,在阿里内部的作业中,动态的conditional join相比静态的执行计划,整体获得了将近3X的性能提升。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-14 15:35:21 | 显示全部楼层 来自 中国河北衡水
一个线上的例子是,某些主流集群单次读请求size为50-100KB, Disk util指标长期维持在90%的警戒线上。这些限制了对作业规模的进一步追求。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-14 16:44:03 | 显示全部楼层 来自 中国河北衡水
如果这种机制应用于所有线上作业,显然是不可接受的。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-14 20:08:32 | 显示全部楼层 来自 中国河北衡水
按前面所述,这份数据写的代价较小但读取的性能不佳,但由于仅在shuffle agent那个副本出错时才会读到备份数据,所以对作业整体性能影响很小,也不会引起集群级别的磁盘压力升高。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8402
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2020-7-15 09:22:55 | 显示全部楼层 来自 中国河北衡水
离线大数据作业可能承担了主要的计算数据量,但流行的大数据计算系统中有非常多的场景是通过实时/准实时方式运行的,
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2024-11-27 23:43 , Processed in 0.073017 second(s), 26 queries , Gzip On.

返回顶部