gydtep 发表于 2020-10-8 10:42:15

血缘追踪:实时计算任务链路较长,从采集到消息通道,流计算,再到下游的存储经常包括 4-5个环节,如果无法实现追踪,容易产生灾难性的问题。

gydtep 发表于 2020-10-8 14:29:29

需求方提出需求,分析师对接需求,提供计算口径,编写需求文档。

gydtep 发表于 2020-10-8 14:40:14

之后由数仓 BP 和离线数仓同学 check 计算口径,并向实时数仓团队提供离线 Hive 表,实时数仓同学基于离线 Hive 表完成数据探查,

gydtep 发表于 2020-10-8 17:54:43

通过 Meta 化建设,实现整个滴滴只有一个 MetaStore,无论是 Hive、Kafka topic、还是下游的 HBase、ES 都定义到 MetaStore 中,

gydtep 发表于 2020-10-8 18:29:18

根据 SQL 消费的 Source 是表还是流,来区分批处理任务和流处理任务,从产品层面上实现批流一体化效果。

gydtep 发表于 2020-10-9 06:26:23

这个函数有一组参数,在一开始,我们并不知道这些参数应该是什么,我们仅仅是随机初始化它们。

gydtep 发表于 2020-10-9 11:15:09

我们的想法是,当我们进行更新时,也考虑到以前的更新,这会累积成一个变量Δθ。

gydtep 发表于 2020-10-9 13:45:10

第二类导数是关于参数的,这类导数是我们用来优化参数的。我们不把它与其它导数的乘积相乘,相反,我们将它们存储为梯度的一部分,稍后我们将使用它来更新参数。

gydtep 发表于 2020-10-9 16:19:01

前段时间同事在贝壳上买了一套商品房,服务体验非常好,贝壳将线下各类房产中介公司的房源进行了整合,形成统一的房源池,提供真实的房源、房价和小区的近期成交数据

gydtep 发表于 2020-10-9 18:33:02

我发现每一次的技术更新都是对复杂问题进一步的抽象和复用,让使用者不需要关心具体的实现方式,只需要通过简单的集成就能使用,
页: 253 254 255 256 257 258 259 260 261 262 [263] 264 265 266 267 268 269 270 271 272
查看完整版本: 免费领取阿里云服务器2000元代金券!