gydtep 发表于 2021-1-26 10:18:09
传统的文件系统对于流式存储来说并不是一个好的抽象,原因 1)文件的大小有限制,但是流式数据是持续注入的;2)在持续的数据注入中对存储的并发度也需要动态调整,这就涉及到多个文件的维护和操作;gydtep 发表于 2021-1-26 14:11:27
以公安行业的应用为例,公安行业用户的迫切需求是在海量的视频信息中,发现犯罪嫌疑人的线索。而这个需求的实现,需要智能的前端摄像机,通过实时分析视频内容,检测运动对象,识别人、车等属性信息;然后需要汇总海量的城市级信息到后端人工智能的中心数据库进行存储,再利用强大的计算能力及智能分析能力,对嫌疑人的信息进行实时分析,最终给出最可能的线索建议。gydtep 发表于 2021-1-26 16:50:17
一些培训正在边缘进行,并且越来越多地关注联合学习的概念,该概念将处理集中在数据区域,同时集中结果以消除区域偏见。gydtep 发表于 2021-1-26 17:14:43
如果设计得当,Edge AI将为自动缩放带来新的机会,因为每个新用户都会为集体工作负载带来全新的机器。边缘还可以更好地访问更多未处理的原始输入数据,而云AI解决方案必须与预处理的数据一起使用以提高性能或庞大的数据集,这时带宽可能会成为一个严重问题。gydtep 发表于 2021-1-27 09:46:22
大多数专家将边缘和云方法视为更大战略的补充部分。云AI更适合批量学习技术,该技术可以处理大数据集以构建更智能的算法,从而快速,大规模地获得最大的准确性。Edge AI可以执行这些模型,而云服务可以从这些模型的性能中学习并应用于基础数据以创建一个连续的学习循环。gydtep 发表于 2021-1-27 12:59:38
另一种方法是使用已知可以在边缘AI中很好地工作的网络体系结构,并直接为目标平台训练它们。他发现,鉴于训练数据的数量和种类足够多,就绝对性能而言,这种方法通常可以胜过跨平台编译器方法。但是,它还需要在培训期间以及预处理和后期处理中进行一些手工操作。gydtep 发表于 2021-1-27 16:11:24
随着数字化转型的快速推进,数据量呈现爆发式的增长,而对数据计算的要求越来越高,低延时、低资源消耗、高效率、高精准度等。 如何从这些海量的历史数据和每日实时增量数据中快速汇总分析、挖掘出业务价值已成为业务最基本的需求。gydtep 发表于 2021-1-28 09:23:42
阿里巴巴客户体验事业部(CCO)之前使用的DataHub+Flink+OLAP+Lindorm数仓方案,存在任务重复建设、数据存储冗余、元数据管理、加工链路复杂等痛点。而今年双11,Hologres助力CCO构建集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力双11场景,支持上千+服务大屏,削峰30%,整体节约成本近30%。gydtep 发表于 2021-1-28 09:36:41
Flink实时写入TPS峰值100w+/s,写入延迟稳定500us内,双11当天查询latency平均142ms,99.99%的查询在200ms以内。gydtep 发表于 2021-1-28 13:21:25
与此同时,也开始出现了一些开源的分布式文件系统,如HDFS和Ceph等。2014年之后,技术发展趋势变得有意思了,数据库和大数据的技术开始融合,出现了像NewSQL这样的分布式数据库,比如Spanner、TiDB以及Cassandra后续版本等已经将分布式的BigTable理念与数据库的理念结合在一起了,这是在BigTable路线上的变化。