gydtep 发表于 2021-5-19 14:02:43
深度学习的威力来自于用适量的并行非线性步骤对非线性数据进行分类或预测的能力。从原始输入数据到数据的实际分类的过程中,深度学习模型学习输入数据的分层特征。每一层从前一层的输出中提取特征。gydtep 发表于 2021-5-19 14:27:22
本书所指的深度学习模型是有多个隐藏层的神经网络。如图2.2所示,最简单的深度神经网络至少包含两层的隐藏神经元。其中每一层的输入来自上一层的输出。gydtep 发表于 2021-5-19 14:49:33
多层深度神经网络有多个非线性层级,可以紧凑地表示高度非线性的和/或高度变化的函数。它们擅长识别数据中的复杂模式,可以用来改进计算机视觉和自然语言处理等工作,并可以解决非结构化数据难题。gydtep 发表于 2021-5-20 08:53:45
运用本书中的想法将改变你的数据科学实践思维。即使仅实践了本书每章中的一个想法,你也不仅可以使用深度学习完成任务,还将能游刃有余地面对更多数据的机会和挑战。gydtep 发表于 2021-5-20 09:15:39
人工智能,简称 AI,是计算机发明时就存在的一个技术领域。它的一大核心特点就是可以类人脑地辅助人类工作。其通过一系列数学的方法,如概率论、统计、线性代数等,分析和设计出能让计算机自动学习的算法。gydtep 发表于 2021-5-20 14:04:16
向量检索的算法繁多且缺乏通用性,应对不同数据维度和分布有不同算法,但总体可归为三类思想:空间划分法、空间编码和转换法、以及邻居图法。空间划分法以 KD-Tree、聚类检索为代表,检索时快速定位到这些小集合,从而减少需要扫描的数据点的量,提高检索效率。gydtep 发表于 2021-5-20 14:23:54
空间编码和转换法,如 p-Stable LSH、PQ 等方法,将数据集重新编码或变换,映射到更小的数据空间,从而减少扫描的数据点的计算量。邻居图法,如 HNSW、SPTAG、ONNG 等,通过预先建立关系图的方法,去加快检索时的收敛速度,减少需要扫描的数据点的量,以提高检索效率。gydtep 发表于 2021-5-20 18:13:14
索引水平扩展:Proxima 采用非对等分片的方法实现分布式检索。对于邻居图索引,解决了有限精度下图索引快速合并的难题,与 Map-Reduce 计算模型可有效进行结合。gydtep 发表于 2021-5-20 19:09:29
高维 & 高精度:Proxima 支持多种检索算法,并对算法做了更深层的抽象,形成算法框架,依据不同数据维度和分布选择不同算法或算法组合,根据具体场景需求实现精度和性能之间的平衡。gydtep 发表于 2021-5-20 19:38:48
流式实时 & 在线更新:Proxima 采用扁平化的索引结构,支持在线大规模向量索引的从 0 到 1 的流式构建,并利用邻居图的便利性和数据特点,实现了索引即增即查、即时落盘,以及实时动态更新。