Spark的一点小总结 发表于 2018-01-03 | 分类于 大数据 | 阅读次数:前言Spark应用类似于MR作业。在MR中,最高级的计算单元是作业。系统读取数据,map,shuffle,reduce,然后写回存储。在Spark中,最高级的计算单元是应用,应用可以运行一系列作业或者是并行作业。一个Spark的作业可以由多个阶段组成。Spark依赖driver进程管理工作流和安排任务。 阅读全文 »
管理YARN服务 发表于 2018-01-02 | 分类于 大数据 | 阅读次数:前言关于YARN,在实际工作中我们做得最多的是集群调优,也就是将计算资源合理分配。本文将会给出资源分配的思路。 阅读全文 »
Ansible部署CDH 发表于 2017-12-30 | 分类于 大数据 | 阅读次数:部署准备本次部署采用ansible,以及CDH(cloudera hadoop)。由于作为例子,仅展示最小化的集群部署(六个节点)。详细部署方式可以参考官方文档。 点击这里 阅读全文 »