gydtep 发表于 2020-8-19 15:20:49
AM将数据和程序分发到对应节点上处理,如果某个Container中的任务执行失败了,AM会重新向RM申请新的Container。gydtep 发表于 2020-8-19 16:56:21
Spark是由加州大学伯克利分校推出的分布式计算引擎,在Spark的官方主页上有一张和Hadoop的性能对比图,姑且不谈这张图中数据的准确性,gydtep 发表于 2020-8-19 21:46:15
Presto是由facebook公司开发的一款分布式查询引擎,其主要特点是支持了非常多的Connector,从而实现在一个平台上连接多个数据源gydtep 发表于 2020-8-20 10:57:10
在使用过程中我觉得有点不好的地方有三点。一是因为Presto基于内存计算,所以在资源紧张的情况下经常Crash导致任务失败。gydtep 发表于 2020-8-20 12:49:58
Parquet和ORC是两种比较应用比较多的列式存储格式,列式存储不同于传统关系型数据库中行式存储的模式,这种主要的差别可能由于联机事务处理(OLTP)和联机分析处理(OLAP)的需求场景不同所造成的。gydtep 发表于 2020-8-20 14:53:25
并且Zeppelin有了用户的概念,使得多人协同工作更加方便。Zeppelin支持了非常多的数据源,通过该平台,可以调用Hive、Cassandra、R、Kylin、Flink、Spark、ElasticSearch、HBase、Python、Shell等等。gydtep 发表于 2020-8-20 17:07:15
流量分析只比互联网诞生晚几年,作为一个生态,互联网需要有人提供服务,同时也需要有人消费服务,而在互联网上经营服务跟在线下经营五金店一样gydtep 发表于 2020-8-20 21:43:20
1996年,专业的互联网市场营销团队开始出现在一些大公司的组织架构中,他们可以熟练使用Analog这款免费工具,然而免费的工具在没有营收的支撑下总是难以满足高阶用户的需求。gydtep 发表于 2020-8-21 09:16:36
服务端日志分析已经不能精确地洞察用户行为。此时一种新的用户行为追踪技术诞生,叫做Javascript Tagging。gydtep 发表于 2020-8-21 13:13:43
随着上网的普及,提供上网内容的ISP也越来越多,但以复制海外的模式为主,美国出现什么新网站,中国会很快拷贝过来,一开始目标肯定是精英,