gydtep 发表于 2020-3-3 21:04:52
长截图能力一直是业务方提出的痛点需求,一直到 19 年末我们才抽出时间弥补了 Totoro 这块能力缺失。gydtep 发表于 2020-3-4 08:22:19
早期,在没有平台体系做支撑时开发工作难度较大,由于不同业务部门的语言种类和体系不同,gydtep 发表于 2020-3-4 09:48:10
。其次,市场实时引擎种类多样,用户选择有一定困难。gydtep 发表于 2020-3-4 10:38:03
早期在 AI 机器学习方面遇到非常多问题。机器学习是一套算法与工程交叉的体系。gydtep 发表于 2020-3-4 11:04:44
为解决上述问题,bilibili 希望根据以下三点要求构建基于 Apache Flink 的流式计算平台。gydtep 发表于 2020-3-4 11:57:08
上层核心基于 Flink 构建运行池。再向上一层满足多种维表场景,gydtep 发表于 2020-3-4 13:36:51
此外,不仅有双流 Join,还有三流及以上的 Join,gydtep 发表于 2020-3-4 14:23:12
工程效率:每一个实验都有较高门槛,需要做 Label 生产,Features 计算以及 Instance 拼接。gydtep 发表于 2020-3-4 14:59:26
其核心需要解决以下三个问题:Streaming Join Streaming(流式 SJoin),Streaming Join Table(维表 DJoin),Real-time Feature(实时特征)。gydtep 发表于 2020-3-4 15:45:21
SJoin-工程规模:基于线上实时推荐 Joiner。