gydtep
发表于 2021-5-20 14:02:15
分形曲线和局部敏感哈希属于空间编码和转换的思想,类似思想的算法还有 Product Quantization (PQ) 等,这些量化算法将高维问题映射到低维进行求解,从而提高检索效率。
gydtep
发表于 2021-5-20 18:12:27
Proxima 是通用化的向量检索工程引擎,实现了对大数据的高性能相似性搜索,支持 ARM64、x86、GPU 等多种硬件平台,支持嵌入式设备和高性能服务器,从边缘计算到云计算全面覆盖,支持单片索引十亿级别下高准确率、高性能的索引构建和检索。
gydtep
发表于 2021-5-21 10:30:06
随着大数据的大量来源以及企业可用数据量的增加,存储容量规划已成为存储管理员的问题。据估计,每天产生2.5万亿字节的数据。现在,如果以神经元计算的话,那就是相当于2.5亿个人类大脑的海量数据。而且,相同的估计表明,全球总数据的90%是从2016年到2018年生成的。
gydtep
发表于 2021-5-22 10:23:56
AI的计算机视觉技术可以扫描遥测数据,以保护存储阵列免受漏洞侵害。当使用有关漏洞的历史数据进行训练时,机器学习算法可以将来自各种应用程序的传入数据与历史数据进行匹配,以发现漏洞的可能性。因此,借助AI的预测分析,存储供应商可以着眼于在遇到客户之前防止存储问题。
gydtep
发表于 2021-5-22 16:11:35
在基础设施之上就是云原生应用操作系统,K8s 是这一层的事实标准,它能够把底层 IaaS 基础设施很好地管理起来。
gydtep
发表于 2021-5-23 15:08:54
但CR场景或者轻量级的代码浏览场景,这种方式就显得时效性比较低了,几分钟后或许用户已经完成了代码浏览,而且缺少持久化的存储会导致资源过度消耗。于是,LSIF就在这样的背景下应运而生,秉承用空间换时间的思想,提前计算好语法分析结果以特定的索引格式存储在云上,从而快速响应不同用户的多次请求。
gydtep
发表于 2021-5-24 11:55:33
索引构建的另外一个难点是增量计算。如上文所述,语法服务索引构建对资源的要求非常高,而现实中代码库不可避免地会存在频繁提交的现象。如此引申出了两个优化点:
利用增量的方式减少存储内容的变更,加快索引构建速度。
利用分布式时序锁减少频繁请求带来的压力。
gydtep
发表于 2021-5-24 18:31:01
双11的保障也是需要设计的。双11本身是一个业务的活动事件,因为规模比较大,所以需要很多的技术来支撑这个东西。技术里面我们可能要考虑低成本、高效率、高稳定,并且还要引入一些更多的新技术来支撑,也要把这些东西整合好,架构设计好,让它很润滑、很流畅地保证我们的业务。
gydtep
发表于 2021-5-25 13:12:34
阿里的技术特别复杂,能入职到阿里来,把阿里的整个技术栈完整摸一遍的同学真的是很了不起。以单元化架构为例,我们可能需要了解端,有iOS、安卓端,有PC端,还要了解CDN、网络、接入层、服务发现、服务路由、HSF等的。
gydtep
发表于 2021-5-25 20:45:49
在 XA 协议的设计中,有两种角色:
• 事务管理器(Transaction Manager,TM):负责发起事务的提交,失败时处理事务异常,在 PolarDB-X 中这个角色由计算节点(CN) 承担