gydtep
发表于 2022-6-17 09:10:25
三家领先的商用数据库厂商,均同时采用了行列混合存储结合内存计算的技术路线,这是有其底层技术逻辑的:列式存储由于有更好的IO效率(压缩,DataSkipping,列裁剪)以及CPU计算效率(Cache Friendly),
gydtep
发表于 2022-6-17 14:17:32
执行引擎只能串行执行,无法发挥现代多核CPU的并行话能力。官方从MySQL 8.0开始,在一些count(*)等基本查询上增加并行执行的能力,但是复杂SQL的并行执行能力构建依然任重道远。
gydtep
发表于 2022-6-17 18:41:11
用户可以使用PolarDB集群中的一个RO节点作为分析型节点,在该RO节点上配置生成列存索引,复杂查询运行在列存索引上并使用所有可用CPU的计算能力,在获得最大执行性能的同时不影响该集群上的TP型负载的可用内存和CPU资源。
gydtep
发表于 2022-6-18 13:54:52
如果对全部POI进行处理的话,则会带来高昂的作业成本,因此需要对其中没有变化的POI进行自动化过滤,其中关键技术能力就是图像匹配,该场景是一个较为典型的图像检索任务。
1 技术定义
gydtep
发表于 2022-6-19 08:42:27
多模态检索模型是基于三元组损失(Triplet Los)的度量学习框架下进行设计的,输入包括了:1)POI牌匾的图像信息;2)POI牌匾的文本信息。图像信息使用双分支进行特征提取,文本信息使用BERT进行特征提取,最后再将文本特征与视觉特征进行融合。
gydtep
发表于 2022-6-19 15:04:53
,避免了自动生成的样本都为简单样本问题。Batch采样策略即按类别进行采样,而数据中类别总数远远大于batch size,因此可以缓解类别冲突的问题。MDR loss是在Triplet loss基础上设计了根据不同距离区间进行正则化约束的新的度量学习框架,从而减少模型对对噪声样本的过拟合。
gydtep
发表于 2022-6-20 11:03:59
开发阶段:重点需要关注代码的质量,例如静态代码扫描以及依赖检查会发现潜在的代码缺陷和安全风险,由此我们可以统计千行代码缺陷率或者严重缺陷比例,从而来衡量一个系统的代码质量是否符合要求
gydtep
发表于 2022-6-20 15:08:10
海量数据管理痛点
首先我们来探讨第一个痛点,也就是如何对海量的异构数据进行管理。目前可观测性相关的系统五花八门。
gydtep
发表于 2022-6-21 09:13:29
:批处理系统中的输入是确定的,计算过程中可以通过计算的原子性来保证数据的一致性(如 Spark 中的 RDD 血缘)。此外,同其他分布式应用一样
gydtep
发表于 2022-6-21 15:39:30
正确的结果贯穿着这整个流计算应用的始终:从输入、处理过程、输出,每一个环节都需要保证其自身的数据一致性,同时在整个流计算流程中,作为整体实现了端到端的一致性。