gydtep 发表于 2022-9-27 19:06:59

对ColumnIndex中每一列,其存储都使用了无序且追加写的格式,结合标记删除及后台异步compaction实现空间回收。其具体实现上有如下几个关键点:

gydtep 发表于 2022-9-28 09:28:18

删除操作只需要设置一个删除标记位。而更新操作则是一个标记删除附加一个追加写。列存可以做到支持事务级别的更新同时,做到几乎不影响OLTP的性能。

gydtep 发表于 2022-9-28 21:05:08

第一种方式,RW上开启行列混合存储,此种模式部署可以支持轻量级的AP查询,在主要为TP负载,且AP型请求比较少时可以采用。或者使用PolarDB进行报表查询,但是数据来自批量数据导入的场景。

gydtep 发表于 2022-9-29 10:04:01

在处理大数据量下复杂查询所需要的能力方面,如优化器处理子查询的能力,高性能算子HashJoin, SQL并行执行等,社区一直将其放在比较低优先级上,因此MySQL的数据分析能力提升进展缓慢。

gydtep 发表于 2022-9-29 17:57:59

IBM在2013年发布的10.5版本(Kepler)中,增加了DB2 BLU Acceleration组件,通过列式数据存储配合内存计算以及DataSkipping技术,大幅提升分析场景的性能。

gydtep 发表于 2022-9-30 12:25:40

MySQL的实现架构在执行复杂查询时性能差有多个方面的原因,对比专用的OLAP系统,其性能瓶颈体现多个方面:

MySQL的SQL执行引擎基于流式迭代器模型(Volcano Iterator)实现,

gydtep 发表于 2022-9-30 17:48:28

最后列存中大块存储的结构,结合MIN/MAX等粗糙索引信息可以实现大范围的数据过滤。所有这些行为都极大的提升了IO的效率。

gydtep 发表于 2022-10-3 14:36:38

多模态检索模型是基于三元组损失(Triplet Los)的度量学习框架下进行设计的,输入包括了:1)POI牌匾的图像信息;2)POI牌匾的文本信息。

gydtep 发表于 2022-10-4 13:16:40

通常来说,传统特征点匹配算法会存在泛化性不足问题,由此生成的训练数据很可能导致模型无法很好学习,具体体现在:1)训练样本较为简单;2)类别冲突,即同一牌匾分为多个类别;3)类别错误,即不同牌匾分为同一类别。

gydtep 发表于 2022-10-7 14:14:49

该方向也是目前学术的研究热点,即半监督学习以及主动学习。半监督学习利用有标签数据训练出的模型来对海量无标签数据产生伪标签,进一步标签数据和伪标签数据混合后再优化模型。
页: 1 2 3 4 5 6 [7] 8 9 10 11 12 13 14 15 16
查看完整版本: 腾讯云轻量应用服务器2核2G4M仅20元