gydtep
发表于 2021-11-18 15:16:54
本书所指的深度学习模型是有多个隐藏层的神经网络。如图2.2所示,最简单的深度神经网络至少包含两层的隐藏神经元。其中每一层的输入来自上一层的输出。
gydtep
发表于 2021-11-18 15:17:42
全球发行且读者众多的杂志《IEEE Spectrum》 报道 :"数据科学家供不应求。这些专业人士享有高薪和大型股票期权......"据麦肯锡全球研究所称,仅美国就缺少14万~19万具备适当技能的数据科学家,哈佛商业评论声称数据科学是21世纪最吸引人的工作。
gydtep
发表于 2021-11-19 12:12:58
要学习一个新的东西,最难的事情就是找到容易理解和部署的例子。找到课题相关的大量技术论文非常容易,但找到入门学习并快速搭建的具体的例子是很难的。本书就是为了解决这个问题。书中有直观的插图、实用的例子以及对模型的简单解释,这些可以用Python直接搭建和测试。这样就很容易上手,通过数据和Python进行试验。
gydtep
发表于 2021-11-19 15:21:11
在电商领域的搜索/推荐/广告业务场景中,常见的需求是找到相似的同款商品和推荐给用户感兴趣的商品,这种需求绝大多数都是采用商品协同和用户协同的策略来完成的。
gydtep
发表于 2021-11-19 19:33:26
超大规模索引的精度和性能
源于非结构化数据的繁多而复杂,向量检索天生便是用于应对这种大规模的数据检索,但面对亿级,甚至十亿级以上的场景,许多检索算法仍面临了挑战,工程实现也存在着一些问题,要么构建成本巨大,要么检索效率低下。
gydtep
发表于 2021-11-22 10:33:04
首先,在技术上需要维护两套不同技术体系的数据库系统,其次由于两套系统处理机制的差异,维护上下游的数据实时一致性也非常具有挑战。而且由于同步延迟的存在,下游AP系统存储的经常是过时的数据,导致无法满足实时分析的需求。
gydtep
发表于 2021-11-22 13:47:17
Oracle公司在在2013年发表的Oracle 12C上,发布了Database In-Memory套件,其最核心的功能即为In-Memory Column Store,通过提供行列混合存储/高级查询优化(物化表达式,JoinGroup)等技术提升OLAP性能。
gydtep
发表于 2021-11-23 10:16:00
但这种抽象会同时带来性能上的损耗,因为在迭代器进行迭代的过程中,每一行数据的获取都会引发多层的函数调用,同时逐行地获取数据会带来过多的 I/O,对缓存也不友好。MySQL采用树形迭代器模型,是受到存储引擎访问方法的限制,这导致其很难对复杂的逻辑计算进行优化。
gydtep
发表于 2021-11-24 15:00:46
每个RowGroup都采用追加写,分属每个列的DataPack也是采用追加写模式。对于一个列索引,只有个Active RowGroup负责接受新的写入。当该RowGroup写满之后即冻结,其包含的所有Datapack会转为压缩格保存到磁盘上,同时记录每个数据块的统计信息便于过滤。
gydtep
发表于 2021-11-25 18:05:37
此外,图像检索还有一个必不可少的要素就是特征提取,通常包括:全局特征、局部特征、辅助特征等,主要是针对不同任务特点进行相应的优化,例如:行人重识别以及人脸识别具有很强的刚性约束,并且具备明显的关键特征(行人/人脸关键点),因此会将人体分割或关键点检测信息融合到模型特征提取中。