gydtep
发表于 2021-5-19 10:10:15
其他流行的数据学习技术有决策树( decision tree ) 、随机森林( random forest )和支持向量机(support vector machine )。这些技术虽然强大,但是并不深入。决策树和随机森林工作在原始输入数据上,不进行变换,也不生成新特征;支持向量机层次较浅,因为它们仅由核函数和线性变换组成。类似地单隐藏层神经网络也不被视为深度神经网络,因为它们只包含一个隐藏层。
gydtep
发表于 2021-5-19 15:29:26
很难想出一个不能从深度学习受益的商业活动。思考5分钟,把你一些最好的想法列下来。
这是我想到的领域列表:
过程建模和控制、健康诊断、投资组合管理、军事目标识别、核磁共振和X光分析、银行和其他金融机构的个人信用评级、营销活动、语音识别、股市预测、文本检索、金融欺诈检测
gydtep
发表于 2021-5-20 09:44:12
向量检索的第一大类应用就是对语音、图像、视频这些人类所接触到的,也最为常见的非结构化数据的检索。传统的检索引擎只是对这些多媒体的名称和描述进行了索引,而并没有尝试对这些非结构数据的内容进行理解和建立索引,因此传统引擎的检索结果具有非常大的局限性。
gydtep
发表于 2021-5-20 09:59:24
随着人工智能的发展,AI 的能力使得我们可以快速且成本较低地对这些非结构化数据进行理解,这样就使得对这些非结构化的数据内容进行直接检索成为了可能。这其中,很重要的一环就是向量检索。
gydtep
发表于 2021-5-20 15:12:45
源于非结构化数据的繁多而复杂,向量检索天生便是用于应对这种大规模的数据检索,但面对亿级,甚至十亿级以上的场景,许多检索算法仍面临了挑战,工程实现也存在着一些问题,要么构建成本巨大,要么检索效率低下。
gydtep
发表于 2021-5-20 15:26:37
另外,维数的增加也造成了一些向量检索方法的效率下降,在高维空间下华而不实,同时工程上也增加了数据计算和存储成本。其次,算法上缺乏完全通用性,无法对数据实现泛一致性检索,即任何数据分布上,检索算法都是有效的。
gydtep
发表于 2021-5-20 20:16:17
高性能和低成本:有限成本下实现最大化性能并满足业务的需求是向量检索需要解决的主要问题。Proxima 实现了对多种平台和硬件的优化,支持云服务器和部分嵌入式设备,通过与分布式调度引擎的结合实现离线数据检索和训练,通过扁平化索引和磁盘检索的方案实现了对冷数据的快速检索。
gydtep
发表于 2021-5-21 12:51:46
例如,读取一个大文件和多个小文件可能会对IOPS产生影响。由于读取单个大文件仅需要执行一个读取任务,因此可以以较高的速度执行它,而另一方面,读取多个文件的速度非常慢,因为需要执行许多读取任务。
gydtep
发表于 2021-5-21 13:56:53
企业管理员和存储供应商处理各种各样的存储类型。而且,它们还满足不同输入/输出服务的指标。大型文件共享应用可能需要适当的吞吐量,但也必须允许延迟损失,因为大型而复杂的应用可能会对延迟产生不利影响。
gydtep
发表于 2021-5-21 19:29:03
对于运维而言也是一样的,开发的时候也需要考虑到可运维性,比如在开发的时候就需要考虑如何在服务实际上下线的时候做到平滑且不丢失数据,同时这样的设计也需要和运维系统进行深刻的对接,这样才能非常可靠、非常安全地连接起来,提升运维的效率。