百独托管7500 紫田网络超高转化播放器收cps[推荐]速盾CDN 免实名免备防屏蔽阿里云 爆款特卖9.9元封顶提升alexa、IP流量7Q5团队
【腾讯云】中小企福利专场【腾讯云】多款产品1折起高防 随时退换 好耶数据小飞国外网赚带你月入万元炎黄网络4H4G10M 99每月
香港带宽CN2/美国站群优惠中客数据中心 服务器租用联盟系统移动广告平台 中易企业专场腾讯云服务器2.5折九九数据 工信部正规资质
腾讯云新用户大礼包代金券高价收cpa注册量高价展示【腾讯云】2核2G/9.93起租服务器找45互联 随时退换阿里云 短信服务 验证秒达

[国内信息] 【腾讯云】云产品限时秒杀,爆款2核4G云服务器首年74元 [复制链接]
查看:475302 | 回复:1045

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-26 16:44:00 | 显示全部楼层 来自 中国河北衡水
总之,如何我们后面再看到 Exactly-once XXX,一定要警惕引擎想要透露出什么信息。

端到端的数据一致性

端到端一致性(End-To-Ene Consistency),即将数据的输出也作为流计算引擎的一致性设计的一部分,正确的结果贯穿着这整个流计算应用的始终:从输入、处理过程、输出,每一个环节都需要保证其自身的数据一致性,同时在整个流计算流程中,作为整体实现了端到端的一致性。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-26 19:02:54 | 显示全部楼层 来自 中国河北衡水
在这个统一的理论框架下,批处理过程的一致性也可以纳入本文讨论的范畴中来。但无论是纯粹的流计算,还是上面统一的数据处理模型,我们都可以将流(批)数据处理的过程抽象为「读取数据-处理数据-输出数据」这样的三个部分,可用下面的无向图来表达,其中点代表数据加工逻辑,边表示数据流向,数据处理过程中的中间状态(State)一般需要做持久化存储。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-27 08:54:21 | 显示全部楼层 来自 中国河北衡水
进一步分析,每一次存储或者批量事务存储 O(t) 时,引擎到底做了什么?前面我们定义了 O(t) = Sink(t) + State(t) -> O(t) = Sink(t) + OperatorState(t) + SourceState(t) ,对于引擎来说,当出现 FailOver 时,都会通过 SourceState(t) 回拨数据源偏移量进行部分重算,即消息读取语义是 At-Least-Once 的,
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-27 10:32:04 | 显示全部楼层 来自 中国河北衡水
后者对流计算流域的影响堪比20世纪初 GFS,BigTable 以及MapReduce 三篇论文对大数据的影响,后面 Google 又在 MillWheel 之上继续发展,开源了 Apache Bean 这个系统级的流批一体数据解决方案,因为 MillWheel 是更纯粹的「流计算」,所以我们重点来分析 MillWheel。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-27 12:52:08 | 显示全部楼层 来自 中国河北衡水
引擎中的每个节点都维护了以记录 ID 为主键的布隆过滤器,计算前都会通过此过滤器进行判断,若提示不存在则进行数据处理,如果存在,则需要二次校验。当然,MillWheel 在实际使用布隆过滤器,是做了若干改造的,这里就不具体展开了。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-27 14:22:21 | 显示全部楼层 来自 中国河北衡水
算子状态 OperatorState(t) :计算中算子的 Changelog,也会写入单独的 Kafaka 队列中,该队列对用户透明;
输出结果 Sink(t) :即用户配置的实际的输出队列,用于存放计算结果。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-27 15:25:00 | 显示全部楼层 来自 中国河北衡水
这里提到的 Spark Streaming 指的是原始的基于「Micro-batch,微批」的 Spark 流处理引擎,后面 Spark 又提出了Structured Streaming,使用 Continuous Processing mode 来替代「微批」解决延迟的问题,
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-27 17:12:58 | 显示全部楼层 来自 中国河北衡水
微批类比 epoch。不同之处在于:1、Spark Streaming 在计算过程中的每一个 RDD 生成阶段都会有延迟,而 Flink 在计算过程中可以进行实时处理;2、Spark Streaming 只有一个「epoch」,而 Flink 可以有多个 「epoch」并行存在。基于上述两点原因,Flink 的数据处理的端到端延迟要小得多,但这两种引擎幂等输出能实现一致性的本质是相似的。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-28 08:31:46 | 显示全部楼层 来自 中国河北衡水
然而在实际使用过程中,许多人对可观测性的关注,主要集中在系统上线之后。这当然是没有问题的,但实际上,从一个系统开发开始,一直到线上运行,都是可以从可观测的角度来对系统的质量进行评估和衡量,我们可以称之为对质量的观测。
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

141

主题

9万

帖子

1030

积分

落伍者(两全齐美)

Rank: 2

贡献
8388
鲜花
24
注册时间
2008-10-11

落伍者落伍手机绑定

 楼主| 发表于 2021-12-28 09:25:39 | 显示全部楼层 来自 中国河北衡水
线上运行:此时需要重点关注系统的稳定性以及业务的稳定性,因此各种线上的性能指标、业务指标、应用日志、Trace等各种数据都是非常重要的
免费领取2000元阿里云代金券 https://www.aliyun.com/minisite/goods?userCode=2a7uv47d
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

论坛客服/商务合作/投诉举报:2171544 (QQ)
落伍者创建于2001/03/14,本站内容均为会员发表,并不代表落伍立场!
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论!
落伍官方微信:2030286 邮箱:(djfsys@gmail.com|tech@im286.com)
© 2001-2014

浙公网安备 33060302000191号

浙ICP备11034705号 BBS专项电子公告通信管[2010]226号

  落伍法律顾问: ITlaw-庄毅雄

手机版|找回帐号|不能发帖?|Archiver|落伍者

GMT+8, 2024-11-24 12:36 , Processed in 0.056157 second(s), 26 queries , Gzip On.

返回顶部