百独托管7500 紫田网络超高转化播放器收cps[推荐]速盾CDN 免实名免备防屏蔽阿里云 爆款特卖9.9元封顶提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场【腾讯云】多款产品1折起高防 随时退换 好耶数据小飞国外网赚带你月入万元炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠中客数据中心 服务器租用联盟系统移动广告平台 中易企业专场腾讯云服务器2.5折九九数据 工信部正规资质
腾讯云新用户大礼包代金券高价收cpa注册量高价展示【腾讯云】2核2G/9.93起租服务器找45互联 随时退换阿里云 短信服务 验证秒达

[国内信息] 阿里云2000元专属红包领取及使用说明 [复制链接]
查看:831695 | 回复:7836

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-5 06:02:29 | 显示全部楼层 来自 中国河北衡水
流任务执行前后,引擎会对执行流做若干优化,如合并多个逻辑算子至单个算子(类似 Flink 中的 chain 化)、节点内先执行部分合并(count / sum)后再 shuffle等等,种种手段均是为了降低算子间 IO 的数据规模。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-5 07:13:26 | 显示全部楼层 来自 中国河北衡水
此外,在判断「当前记录」是否已被处理时,MillWheel 使用了布隆过滤器用于前置过滤,因为在一个正常运行的流计算任务中,记录绝大多数的时间都是不重复的
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-5 08:17:28 | 显示全部楼层 来自 中国河北衡水
MillWheel 作为一个内部系统可以存储每一个中间结果,但是对于开源系统的 Apache Flink 来说,毕竟不是每一个公司都有这么完备的技术基建。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 06:56:53 | 显示全部楼层 来自 中国河北衡水
Spark Streaming 只能保证引擎内部的处理逻辑是一致的,但是对于结果输出,则并没有做特别的抽象,因此如果我们希望实现端到端的一致性语义,则需要对自行维护和判断一些信息。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 08:53:44 | 显示全部楼层 来自 中国河北衡水
同传统的批处理系统类似,流处理中也是以 RDD 构建出整个的数据血缘,当发生 FailOver 时,则重新计算整个 RDD 就可以了。如果 Spark Streaming 存在非确定性的计算
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 10:36:26 | 显示全部楼层 来自 中国河北衡水
会发现当以「微批」的形式存储结果时,源状态和算子状态以 RDD 血缘的方式天然地和输出结果进行了绑定,即当输出最终结果时,我们其实也一并输出了源和算子状态,操作符合一致性条件。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 11:56:40 | 显示全部楼层 来自 中国河北衡水
更进一步,当把仅有确定性计算(幂等输出)的 Spark Streaming 和 仅有确定性计算(幂等输出)的的 Flink 进行对比时,会发现二者非常相似。RDD 血缘类比分布式一致性快照,
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 14:02:55 | 显示全部楼层 来自 中国河北衡水
前面分析端到端一致性的实现中,重点在分析引擎处理(算子)和输出端行为,没有提及对数据源的要求,数据源需具备重播(repaly)和消息去重的功能即可,属于基础要求,这里不再展开。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 15:15:43 | 显示全部楼层 来自 中国河北衡水
本文从流计算的本质出发,推导出了在流处理中实现端到端一致性的通用解法,同时结合通用解法,分析了目前几种主流流计算引擎在一致性上的实现思路。有「财大气粗」型的 Google MillWheel,背靠强大的基础架构用于状态管理;
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8395
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2022-11-6 16:07:46 | 显示全部楼层 来自 中国河北衡水
在云原生和DevOps研发模式的挑战下,一个系统从开发、测试、到上线的整个过程中,会产生大量的日志、指标、事件以及告警等数据,这也给企业质量平台建设带来了很大的挑战。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2024-11-26 06:18 , Processed in 0.057917 second(s), 27 queries , Gzip On.

返回顶部