gydtep 发表于 2020-3-4 11:23:35

第二点,DAG 拖拽编程,一方面用户可以通过画板来构建自己的 Pipeline,另一方面用户也可以使用原生 Jar 方式进行编码。

gydtep 发表于 2020-3-4 12:25:03

当某一个作业对 IO 有强烈的需求时,需要分配很多以 CPU 或内存为单位的资源,且未必能够很好的满足 IO 的扩展。

gydtep 发表于 2020-3-4 13:56:12

如果不能通过 SQL 的方式进行表达,则需要为用户提供通用的扩展,

gydtep 发表于 2020-3-4 14:46:58

另外,流、批不一致,模型的训练在实时环境与离线批次环境的工程差异很大,

gydtep 发表于 2020-3-4 15:13:02

第三,不同 Join 对 ETL 的清洗不同。如果不能通过 SQL 的方式进行表达,

gydtep 发表于 2020-3-4 15:27:50

主流 A 在窗口时间内 Join 成功后,需要等待窗口时间结束再吐出数据,延长了主流 A 在窗口的停留时间。

gydtep 发表于 2020-3-4 16:09:38

一小时 window 下,Timer 的 key 量 15w 3600 = 54 亿条,RocksDBState 量达到 200M 3600 = 700G。

gydtep 发表于 2020-3-4 16:51:26

第二个问题是 Timer Service 每一个记录都打开了一个窗口,在早期原生 Flink 中是一个内存队列,

gydtep 发表于 2020-3-4 17:30:24

从磁盘加载大量数据耗时长,服务 recovery 时间久。

gydtep 发表于 2020-3-4 18:14:04

SJoin 优化-自研 Timer:实现将内存数据达到 Max 之后溢写到磁盘。
页: 75 76 77 78 79 80 81 82 83 84 [85] 86 87 88 89 90 91 92 93 94
查看完整版本: 阿里云服务器1核2G低至89元/年