gydtep 发表于 2020-8-19 15:20:49

AM将数据和程序分发到对应节点上处理,如果某个Container中的任务执行失败了,AM会重新向RM申请新的Container。

gydtep 发表于 2020-8-19 16:56:21

Spark是由加州大学伯克利分校推出的分布式计算引擎,在Spark的官方主页上有一张和Hadoop的性能对比图,姑且不谈这张图中数据的准确性,

gydtep 发表于 2020-8-19 21:46:15

Presto是由facebook公司开发的一款分布式查询引擎,其主要特点是支持了非常多的Connector,从而实现在一个平台上连接多个数据源

gydtep 发表于 2020-8-20 10:57:10

在使用过程中我觉得有点不好的地方有三点。一是因为Presto基于内存计算,所以在资源紧张的情况下经常Crash导致任务失败。

gydtep 发表于 2020-8-20 12:49:58

Parquet和ORC是两种比较应用比较多的列式存储格式,列式存储不同于传统关系型数据库中行式存储的模式,这种主要的差别可能由于联机事务处理(OLTP)和联机分析处理(OLAP)的需求场景不同所造成的。

gydtep 发表于 2020-8-20 14:53:25

并且Zeppelin有了用户的概念,使得多人协同工作更加方便。Zeppelin支持了非常多的数据源,通过该平台,可以调用Hive、Cassandra、R、Kylin、Flink、Spark、ElasticSearch、HBase、Python、Shell等等。

gydtep 发表于 2020-8-20 17:07:15

流量分析只比互联网诞生晚几年,作为一个生态,互联网需要有人提供服务,同时也需要有人消费服务,而在互联网上经营服务跟在线下经营五金店一样

gydtep 发表于 2020-8-20 21:43:20

1996年,专业的互联网市场营销团队开始出现在一些大公司的组织架构中,他们可以熟练使用Analog这款免费工具,然而免费的工具在没有营收的支撑下总是难以满足高阶用户的需求。

gydtep 发表于 2020-8-21 09:16:36

服务端日志分析已经不能精确地洞察用户行为。此时一种新的用户行为追踪技术诞生,叫做Javascript Tagging。

gydtep 发表于 2020-8-21 13:13:43

随着上网的普及,提供上网内容的ISP也越来越多,但以复制海外的模式为主,美国出现什么新网站,中国会很快拷贝过来,一开始目标肯定是精英,
页: 236 237 238 239 240 241 242 243 244 245 [246] 247 248 249 250 251 252 253 254 255
查看完整版本: 阿里云服务器1折起购,先领券再购买!