gydtep 发表于 2020-10-19 17:18:16
今天处理数据绝大部分都不是单纯靠算力,算力是基础,而主要是靠上面的智能化的算法,算法跟各行各业的业务有密切相关,所以阿里巴巴通过与各行各业合作,沉淀了一个完整的智能化平台。gydtep 发表于 2020-10-19 20:37:52
未来学家认为,机器智能最终会超越人的智慧,而这两者的临界点就被称为「奇点」。从这点来说,我们可以认为,阿里巴巴已经跨越了奇点,真正成为一家数据公司。gydtep 发表于 2020-10-19 21:03:04
淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页面,加上后端的DB(DataBase,数据库),只是个简单的OLTP系统,主要就是交易的事务处理。gydtep 发表于 2020-10-20 11:11:32
在奇点云和某酒类客户的合作过程中,我们最大的收获不是帮助客户完成了数据中台的搭建,而是通过理解客户的业务,把其经验沉淀到数据中台,从而赋能客户更多的端上的创新业务,带来了生意的增量。gydtep 发表于 2020-10-20 14:39:36
这在适配层面带来的挑战就是,需要处理比传统文件系统要大许多的数据量和文件数量。gydtep 发表于 2020-10-20 16:51:46
这带来的影响就是,举个栗子,程序明明往一个目录里面刚刚写好了10个文件,结果随后去list,可能只是部分文件可见。gydtep 发表于 2020-10-20 20:33:34
另外一个是,所有parts都是先写入到一个staging区域的,直到complete的时候整个对象才在目标位置出现。gydtep 发表于 2020-10-21 09:39:39
而GPU训练程序则是期望数据完全本地化一样的极大吞吐。像这种局面该如何破呢?gydtep 发表于 2020-10-21 11:45:41
我们在JindoFS上优化好OSS适配,把Jindo分布式缓存性能做到效能最大化,能满足绝大多数大规模分析和机器学习训练这些计算。gydtep 发表于 2020-10-21 14:32:03
在功能上提供Xattributes支持,文件权限支持,Ranger集成支持,甚至是auditlog支持;在性能上希望不低于HDFS,最好比HDFS还好,