gydtep
发表于 2021-11-25 08:42:39
在MySQL插件式的存储引擎框架的架构下,增加列存支持最简单方案是实现一个单独的存储引擎,如Inforbright以及MarinaDB的ColumnStore都采用了这种方案。而PolarDB采用了将列存实现为InnoDB的二级索引的方案,主要基于如下几点考量:
gydtep
发表于 2021-11-25 10:51:41
为了验证IMCI技术的效果, 我们对PolarDB MySQL IMCI的进行了TPC-H场景的测试。同时在相同的场景下将其与原生MySQL的行存执行引擎以及当前OLAP引擎单机性能最强的ClickHouse进行了对比。测试参数简要介绍如下:
gydtep
发表于 2021-11-25 16:11:54
对电子地图而言,通过提供“搜索附近”、“点评”等操作,可提高用户的活跃时长。另外,POI数据是线上线下连接互动的一个纽带,是基于位置服务(Location Based Service)产业的一个重要组件。
gydtep
发表于 2021-11-25 18:38:54
遮挡严重
在道路场景中,经常存在树木以及车辆等干扰信息,并且由于拍摄视角原因,拍摄到的POI牌匾经常会面临严重的遮挡问题,如下图所示:
gydtep
发表于 2021-11-25 19:50:22
POI牌匾还有一个独有特性就是对文本强依赖,主要是对POI名称文本的依赖。在下图场景中,两个牌匾的整体布局以及颜色都非常相似,但是其中POI名称发生了变化。而在该场景下,我们希望两个牌匾不要匹配,这就需要引入文本特征来增强特征区分性。
gydtep
发表于 2021-11-25 20:37:26
不过,由于遮挡原因也会导致文本特征不同,因此需要结合图像特征进行权衡。而且,文本特征和图像特征来自多个模态,如何将多模信息进行融合也是该业务特有的技术难点。
gydtep
发表于 2021-11-26 13:47:52
在针对全局特征进行优化以后,现有模型仍然在以下三个方面表现不够好:1)牌匾截断的情况,特征学习质量差,如图8(a);2)遮挡的牌匾,特征中引入一些无关的上下文信息,如图8(b);3)相似但不同的牌匾难以区分,如图8(c)。因此,我们进一步设计了局部特征分支,让模型更加关注牌匾的几何、纹理等局部信息,与全局特征共同做牌匾检索。
gydtep
发表于 2021-11-26 14:23:01
针对局部特征的提取,我们主要的思路是将牌匾垂直切分成几个部分,分别关注每个部分的局部特征,并对局部特征进行对齐后优化。
gydtep
发表于 2021-11-26 14:43:07
POI牌匾对文本强依赖,可能存在仅牌匾名称文本发生变化的场景。我们设计的全局特征分支以及局部特征分支,虽然可一定程度上学习到文本特征,但是文本信息在整体信息中占比较小,并且监督信号仅为两张图是否相似,导致文本特征并没有被很好的学习到。
gydtep
发表于 2021-11-26 15:04:42
因此,我们利用已有的文本OCR识别结果,并引入BERT对OCR结果进行编码得到文本特征,该特征作为辅助特征分支和视觉特征进行融合,融合后的特征用于最终的牌匾检索度量学习。