gydtep
发表于 2021-5-19 14:49:33
多层深度神经网络有多个非线性层级,可以紧凑地表示高度非线性的和/或高度变化的函数。它们擅长识别数据中的复杂模式,可以用来改进计算机视觉和自然语言处理等工作,并可以解决非结构化数据难题。
gydtep
发表于 2021-5-20 08:53:45
运用本书中的想法将改变你的数据科学实践思维。即使仅实践了本书每章中的一个想法,你也不仅可以使用深度学习完成任务,还将能游刃有余地面对更多数据的机会和挑战。
gydtep
发表于 2021-5-20 09:15:39
人工智能,简称 AI,是计算机发明时就存在的一个技术领域。它的一大核心特点就是可以类人脑地辅助人类工作。其通过一系列数学的方法,如概率论、统计、线性代数等,分析和设计出能让计算机自动学习的算法。
gydtep
发表于 2021-5-20 14:04:16
向量检索的算法繁多且缺乏通用性,应对不同数据维度和分布有不同算法,但总体可归为三类思想:空间划分法、空间编码和转换法、以及邻居图法。空间划分法以 KD-Tree、聚类检索为代表,检索时快速定位到这些小集合,从而减少需要扫描的数据点的量,提高检索效率。
gydtep
发表于 2021-5-20 14:23:54
空间编码和转换法,如 p-Stable LSH、PQ 等方法,将数据集重新编码或变换,映射到更小的数据空间,从而减少扫描的数据点的计算量。邻居图法,如 HNSW、SPTAG、ONNG 等,通过预先建立关系图的方法,去加快检索时的收敛速度,减少需要扫描的数据点的量,以提高检索效率。
gydtep
发表于 2021-5-20 18:13:14
索引水平扩展:Proxima 采用非对等分片的方法实现分布式检索。对于邻居图索引,解决了有限精度下图索引快速合并的难题,与 Map-Reduce 计算模型可有效进行结合。
gydtep
发表于 2021-5-20 19:09:29
高维 & 高精度:Proxima 支持多种检索算法,并对算法做了更深层的抽象,形成算法框架,依据不同数据维度和分布选择不同算法或算法组合,根据具体场景需求实现精度和性能之间的平衡。
gydtep
发表于 2021-5-20 19:38:48
流式实时 & 在线更新:Proxima 采用扁平化的索引结构,支持在线大规模向量索引的从 0 到 1 的流式构建,并利用邻居图的便利性和数据特点,实现了索引即增即查、即时落盘,以及实时动态更新。
gydtep
发表于 2021-5-21 10:30:55
存储管理员需要努力的主要指标
存储管理员在管理存储问题时面临一些挑战。而且,如果他们克服了这些挑战,将帮助他们在数据存储的各个方面之间找到适当的平衡,例如在哪里分配工作负载,如何分配工作负载以及如何优化堆栈等等。
gydtep
发表于 2021-5-21 10:49:55
一般而言,吞吐量是指处理某事物的速率。在网络级别,吞吐量的度量单位是Mbps(兆位/秒),而在存储级别,吞吐量的度量单位是MB /秒(兆字节/秒)。由于一个字节等于八兆位,因此生产率在存储级别上提高了。并且,变得难以管理提高的生产率。