学而时习之


  • 首页

  • 分类

  • 归档

  • 搜索

Spark的一点小总结

发表于 2018-01-03 | 分类于 大数据 | 阅读次数:

前言

Spark应用类似于MR作业。在MR中,最高级的计算单元是作业。系统读取数据,map,shuffle,reduce,然后写回存储。在Spark中,最高级的计算单元是应用,应用可以运行一系列作业或者是并行作业。一个Spark的作业可以由多个阶段组成。Spark依赖driver进程管理工作流和安排任务。

阅读全文 »

管理YARN服务

发表于 2018-01-02 | 分类于 大数据 | 阅读次数:

前言

关于YARN,在实际工作中我们做得最多的是集群调优,也就是将计算资源合理分配。本文将会给出资源分配的思路。

阅读全文 »

管理HDFS服务

发表于 2018-01-01 | 分类于 大数据 | 阅读次数:

前言

这篇文章主要记录一下我管理HDFS集群的时候遇到一些坑的填坑办法,用来提醒自己,也希望启迪他人。😄

阅读全文 »

Ansible部署CDH

发表于 2017-12-30 | 分类于 大数据 | 阅读次数:

部署准备

本次部署采用ansible,以及CDH(cloudera hadoop)。由于作为例子,仅展示最小化的集群部署(六个节点)。详细部署方式可以参考官方文档。 点击这里

阅读全文 »
1…456
LEUNGUU

LEUNGUU

24 日志
12 分类
GitHub E-Mail
© 2018 LEUNGUU | 23.6k
Hosted by GitHub Pages
0%