gydtep 发表于 2020-3-4 13:54:43
如广告展现流、点击流、搜索查询流等。gydtep 发表于 2020-3-4 14:45:19
在不同业务线,不同场景的推荐背后,算法同学做工程工作。gydtep 发表于 2020-3-4 15:11:30
SJoin-工程背景:流量规模大,如 bilibili 首页推荐的流量,AI 的展现点击 Join,来自全站的点击量和展现。gydtep 发表于 2020-3-4 15:26:43
则需要为用户提供通用的扩展,解决不同业务对 Join 之前的定制化 ETL 清洗。gydtep 发表于 2020-3-4 16:08:25
原始 feed 流与 click 流,QPS 高峰分别在 15w 和 2w,Join 输出 QPS 高峰达到 10w,字节量高峰为 200 M/s。gydtep 发表于 2020-3-4 16:49:49
用户打开窗口,每一条记录都是一个 Window 窗口。gydtep 发表于 2020-3-4 17:28:58
类似 HBase,多 level 的 compact 会造成性能抖动和写放大。gydtep 发表于 2020-3-4 18:13:00
第二,启用 Redis 作为 ValueState,提高 State 稳定性。gydtep 发表于 2020-3-4 19:27:16
在 1 点到 2 点,数据会写入到新的 State,0 点到 1 点的 State 已经到达窗口时间,进行数据吐出。gydtep 发表于 2020-3-4 20:49:36
接下来利用 Timer Service 原生的 CheckPoint 开启增量 CheckPoint 过程。