gydtep 发表于 2020-3-4 13:54:43

如广告展现流、点击流、搜索查询流等。

gydtep 发表于 2020-3-4 14:45:19

在不同业务线,不同场景的推荐背后,算法同学做工程工作。

gydtep 发表于 2020-3-4 15:11:30

SJoin-工程背景:流量规模大,如 bilibili 首页推荐的流量,AI 的展现点击 Join,来自全站的点击量和展现。

gydtep 发表于 2020-3-4 15:26:43

则需要为用户提供通用的扩展,解决不同业务对 Join 之前的定制化 ETL 清洗。

gydtep 发表于 2020-3-4 16:08:25

原始 feed 流与 click 流,QPS 高峰分别在 15w 和 2w,Join 输出 QPS 高峰达到 10w,字节量高峰为 200 M/s。

gydtep 发表于 2020-3-4 16:49:49

用户打开窗口,每一条记录都是一个 Window 窗口。

gydtep 发表于 2020-3-4 17:28:58

类似 HBase,多 level 的 compact 会造成性能抖动和写放大。

gydtep 发表于 2020-3-4 18:13:00

第二,启用 Redis 作为 ValueState,提高 State 稳定性。

gydtep 发表于 2020-3-4 19:27:16

在 1 点到 2 点,数据会写入到新的 State,0 点到 1 点的 State 已经到达窗口时间,进行数据吐出。

gydtep 发表于 2020-3-4 20:49:36

接下来利用 Timer Service 原生的 CheckPoint 开启增量 CheckPoint 过程。
页: 95 96 97 98 99 100 101 102 103 104 [105] 106 107 108 109 110 111 112 113 114
查看完整版本: 阿里云香港云服务器低至119元/年,无需备案