gydtep 发表于 2019-12-30 15:33:38

当今生活节奏日益加快,企业面对不断增加的海量信息

gydtep 发表于 2019-12-30 16:08:11

旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。

gydtep 发表于 2019-12-30 17:25:04

首先其流式计算属于真正意义上的单条处理,即每一条数据都会触发计算。

gydtep 发表于 2019-12-30 17:58:50

为此我们的服务需要打通多种数据源,对海量的数字信息进行实时不间断的数据清洗、聚类、分析,

gydtep 发表于 2019-12-30 19:20:52

服务层:对外提供统一的数据查询服务,支持从底层明细数据到聚合层数据的多维计算服务。

gydtep 发表于 2019-12-30 21:22:54

。数据清洗阶段利用 Flink 来实现用户唯一性识别、行为数据的清洗等,

gydtep 发表于 2019-12-31 08:36:17

节点之间边的生成规则是通过解析数据流中包含的节点信息,以一定的优先级顺序进行节点之间的连接,

gydtep 发表于 2019-12-31 09:47:26

同时它的维护成本很高,因此我们决定在新版本**处理逻辑全部迁移至 Flink 中。

gydtep 发表于 2019-12-31 10:27:07

此外,由于数据经过了 PB 序列化,使得其原始存储格式不可读,增加了排查问题的难度。

gydtep 发表于 2019-12-31 11:17:13

1.0 版本中一条数据需要平均读取十多次 HBase 的情况也得到极大缓解。
页: 24 25 26 27 28 29 30 31 32 33 [34] 35 36 37 38 39 40 41 42 43
查看完整版本: 阿里云服务器1核2G低至89元/年