gydtep 发表于 2020-3-4 11:23:35
第二点,DAG 拖拽编程,一方面用户可以通过画板来构建自己的 Pipeline,另一方面用户也可以使用原生 Jar 方式进行编码。gydtep 发表于 2020-3-4 12:25:03
当某一个作业对 IO 有强烈的需求时,需要分配很多以 CPU 或内存为单位的资源,且未必能够很好的满足 IO 的扩展。gydtep 发表于 2020-3-4 13:56:12
如果不能通过 SQL 的方式进行表达,则需要为用户提供通用的扩展,gydtep 发表于 2020-3-4 14:46:58
另外,流、批不一致,模型的训练在实时环境与离线批次环境的工程差异很大,gydtep 发表于 2020-3-4 15:13:02
第三,不同 Join 对 ETL 的清洗不同。如果不能通过 SQL 的方式进行表达,gydtep 发表于 2020-3-4 15:27:50
主流 A 在窗口时间内 Join 成功后,需要等待窗口时间结束再吐出数据,延长了主流 A 在窗口的停留时间。gydtep 发表于 2020-3-4 16:09:38
一小时 window 下,Timer 的 key 量 15w 3600 = 54 亿条,RocksDBState 量达到 200M 3600 = 700G。gydtep 发表于 2020-3-4 16:51:26
第二个问题是 Timer Service 每一个记录都打开了一个窗口,在早期原生 Flink 中是一个内存队列,gydtep 发表于 2020-3-4 17:30:24
从磁盘加载大量数据耗时长,服务 recovery 时间久。gydtep 发表于 2020-3-4 18:14:04
SJoin 优化-自研 Timer:实现将内存数据达到 Max 之后溢写到磁盘。