gydtep 发表于 2020-10-12 20:51:27
笔者结合多年hadoop yarn资源分配经验,以及使用MaxCompute的一些经验,总结了一些实际的经验。gydtep 发表于 2020-10-13 08:40:04
对数据湖存储提供适配支持,进行优化和缓存加速的中间层技术。这里面出现较早的社区方案应该是Alluxio,Hadoop社区有S3A Guard,AWS有EMRFS,gydtep 发表于 2020-10-13 10:07:00
这在适配层面带来的挑战就是,需要处理比传统文件系统要大许多的数据量和文件数量。gydtep 发表于 2020-10-13 10:16:25
由爱立信、诺基亚提供的电信设备都有后门,以便于美国监控所有用该设备案的个人或企业。美国之所以反对华为,因为华为提供的设备很安全,美国不能有效监控。因为美国无法监控,无法掌握别人的通信,导致美国人就觉得自己不安全了,所以美国人说华为影响了美国的安全。相反,这也证明了华为设备是世界上最安全的。gydtep 发表于 2020-10-13 11:36:01
阿里云OSS提供了强一致性,JindoFS基于这一特性大大简化,用户和计算框架使用起来也无须担心类似的一致性和正确性问题。gydtep 发表于 2020-10-13 13:16:20
使用起来有两个好处,一个是可以按照并发甚至是分布式的方式写入一个大对象,实现高吞吐,充分发挥对象存储的优势;gydtep 发表于 2020-10-13 13:25:09
另外一个是,所有parts都是先写入到一个staging区域的,直到complete的时候整个对象才在目标位置出现。gydtep 发表于 2020-10-13 14:22:01
而GPU训练程序则是期望数据完全本地化一样的极大吞吐。像这种局面该如何破呢?无限地增加存储侧的吞吐是不现实的,因为整体上受限于和计算集群之间的网络。gydtep 发表于 2020-10-13 15:14:07
JindoFS 的 FUSE支持完全采用 native 代码开发而没有 JVM 的负担,基于SSD缓存,我们用TensorFlow程序通过JindoFuse来读取JindoFS上缓存的OSS数据来做训练,相较该开源方案性能快40%。gydtep 发表于 2020-10-13 18:08:07
为了也能够享受到数据湖架构带来的各种好处,该如何帮助这类用户基于OSS进行架构升级呢?