阿里云服务器1折起购，先领券再购买！ - 第246页 - IDC信息交流 - 落伍者

gydtep 发表于 2020-8-19 15:20:49

AM将数据和程序分发到对应节点上处理，如果某个Container中的任务执行失败了，AM会重新向RM申请新的Container。

gydtep 发表于 2020-8-19 16:56:21

Spark是由加州大学伯克利分校推出的分布式计算引擎，在Spark的官方主页上有一张和Hadoop的性能对比图，姑且不谈这张图中数据的准确性，

gydtep 发表于 2020-8-19 21:46:15

Presto是由facebook公司开发的一款分布式查询引擎，其主要特点是支持了非常多的Connector，从而实现在一个平台上连接多个数据源

gydtep 发表于 2020-8-20 10:57:10

在使用过程中我觉得有点不好的地方有三点。一是因为Presto基于内存计算，所以在资源紧张的情况下经常Crash导致任务失败。

gydtep 发表于 2020-8-20 12:49:58

Parquet和ORC是两种比较应用比较多的列式存储格式，列式存储不同于传统关系型数据库中行式存储的模式，这种主要的差别可能由于联机事务处理（OLTP）和联机分析处理（OLAP）的需求场景不同所造成的。

gydtep 发表于 2020-8-20 14:53:25

并且Zeppelin有了用户的概念，使得多人协同工作更加方便。Zeppelin支持了非常多的数据源，通过该平台，可以调用Hive、Cassandra、R、Kylin、Flink、Spark、ElasticSearch、HBase、Python、Shell等等。

gydtep 发表于 2020-8-20 17:07:15

流量分析只比互联网诞生晚几年，作为一个生态，互联网需要有人提供服务，同时也需要有人消费服务，而在互联网上经营服务跟在线下经营五金店一样

gydtep 发表于 2020-8-20 21:43:20

1996年，专业的互联网市场营销团队开始出现在一些大公司的组织架构中，他们可以熟练使用Analog这款免费工具，然而免费的工具在没有营收的支撑下总是难以满足高阶用户的需求。

gydtep 发表于 2020-8-21 09:16:36

服务端日志分析已经不能精确地洞察用户行为。此时一种新的用户行为追踪技术诞生，叫做Javascript Tagging。

gydtep 发表于 2020-8-21 13:13:43

随着上网的普及，提供上网内容的ISP也越来越多，但以复制海外的模式为主，美国出现什么新网站，中国会很快拷贝过来，一开始目标肯定是精英，

页: 236 237 238 239 240 241 242 243 244 245 [246] 247 248 249 250 251 252 253 254 255

落伍者's Archiver