gydtep 发表于 2020-8-19 14:39:20
该工具分成一个ResourceManager(RM)和多个NodeManager(NM),当一个任务提交给YARN之后,会先在某一服务器上启动一个ApplicationMaster(AM),AM向RM申请资源,gydtep 发表于 2020-8-19 14:50:26
AM向RM申请资源,RM通过NM寻找集群中空闲的资源,NM将资源打包成一个个Container,交给AM。gydtep 发表于 2020-8-19 16:01:29
Kudu是一个和HBase非常类似的产品,其不同之处在于Kudu不依赖Zookeeper来管理自己的集群,并且HBase的数据是保存在HDFS上的,而Kudu拥有自己的数据文件格式。gydtep 发表于 2020-8-19 18:30:32
现在又推出了Structured Streaming,实现基于状态的流处理框架。此外还拥有SparkSQL来帮助非开发人员更加便捷的调用Spark的服务和Spark MLlib这个机器学习库。gydtep 发表于 2020-8-20 11:43:57
Kylin提供了前端平台,使用者可以在该平台上去定义自己的数据维度,Kylin会定时完整分析所需数据的预计算,形成多个Cube,gydtep 发表于 2020-8-20 13:33:47
在OLTP场景多是需要存储系统能满足快速的CRUD,这种操作对象都是以行为单位的。gydtep 发表于 2020-8-20 13:41:39
而在OLAP场景下,主要的特征是数据量巨大,而对实时性的要求并不高。而列式存储正式满足了这一需求特征。gydtep 发表于 2020-8-20 16:14:34
的确都有明显的提升。我觉得唯一的难度可能就是如何把这个开发维护的工作在需求方落地吧,毕竟它还是有一些学习成本的。gydtep 发表于 2020-8-20 18:27:28
此时,历史的潮流将一家叫WebTrends的公司推向了沙滩,这家公司今天依然存在,当然技术上早就与时俱进了。gydtep 发表于 2020-8-20 18:50:38
然而,在1993年,它仅仅为网站主提供了一个简单服务端日志解析和分析的服务,可以认为就是设计了一个grep语句将这些日志的IP地址信息提取出来去重