gydtep 发表于 2019-12-30 15:33:38
当今生活节奏日益加快,企业面对不断增加的海量信息gydtep 发表于 2019-12-30 16:08:11
旨在实现“数据驱动业务与运营”的集团战略。目前该系统支持日处理数据量超 10 亿,接入上百种合规数据源。gydtep 发表于 2019-12-30 17:25:04
首先其流式计算属于真正意义上的单条处理,即每一条数据都会触发计算。gydtep 发表于 2019-12-30 17:58:50
为此我们的服务需要打通多种数据源,对海量的数字信息进行实时不间断的数据清洗、聚类、分析,gydtep 发表于 2019-12-30 19:20:52
服务层:对外提供统一的数据查询服务,支持从底层明细数据到聚合层数据的多维计算服务。gydtep 发表于 2019-12-30 21:22:54
。数据清洗阶段利用 Flink 来实现用户唯一性识别、行为数据的清洗等,gydtep 发表于 2019-12-31 08:36:17
节点之间边的生成规则是通过解析数据流中包含的节点信息,以一定的优先级顺序进行节点之间的连接,gydtep 发表于 2019-12-31 09:47:26
同时它的维护成本很高,因此我们决定在新版本**处理逻辑全部迁移至 Flink 中。gydtep 发表于 2019-12-31 10:27:07
此外,由于数据经过了 PB 序列化,使得其原始存储格式不可读,增加了排查问题的难度。gydtep 发表于 2019-12-31 11:17:13
1.0 版本中一条数据需要平均读取十多次 HBase 的情况也得到极大缓解。