Spark的一点小总结

发表于 2018-01-03 | 分类于大数据 | 阅读次数:

前言

Spark应用类似于MR作业。在MR中，最高级的计算单元是作业。系统读取数据，map，shuffle，reduce，然后写回存储。在Spark中，最高级的计算单元是应用，应用可以运行一系列作业或者是并行作业。一个Spark的作业可以由多个阶段组成。Spark依赖driver进程管理工作流和安排任务。

阅读全文 »

管理YARN服务

发表于 2018-01-02 | 分类于大数据 | 阅读次数:

前言

关于YARN，在实际工作中我们做得最多的是集群调优，也就是将计算资源合理分配。本文将会给出资源分配的思路。

阅读全文 »

管理HDFS服务

发表于 2018-01-01 | 分类于大数据 | 阅读次数:

前言

这篇文章主要记录一下我管理HDFS集群的时候遇到一些坑的填坑办法，用来提醒自己，也希望启迪他人。😄

阅读全文 »

Ansible部署CDH

发表于 2017-12-30 | 分类于大数据 | 阅读次数:

部署准备

本次部署采用ansible，以及CDH(cloudera hadoop)。由于作为例子，仅展示最小化的集群部署（六个节点）。详细部署方式可以参考官方文档。点击这里

阅读全文 »

0%