回忆录(大数据篇)

互联网生涯开始了

刚毕业的时候我在一家外包公司,驻点在家乡的移动公司工作。每天除了做excel表格和催工程单之外,我找不到一点做技术的感觉。但是当时的我对大数据可是满怀热情,通过网络课程等途径自学了许多大数据的知识。还记得当时经常上dataguru论坛,听dataguru的课程,听tiger老师讲授hadoop的各种知识。

初识hadoop

对hadoop生态圈形成概念并开始动手操作是在听dataguru的tiger老师课程的时候。那时候很认真听每一节课,从hadoop的原理到动手搭建伪分布式集群,都认认真真一步一步按照老师的讲法来操作。这个过程中也算是开始熟悉了shell命令,为之后的运维工作打下了一个基础吧,同时还有一个东西我要推荐的,就是Packt这个出版社。它真的是技术人的福音!它出版的书籍可操作性强,条理清晰,贴近前沿。

大数据运维

突然由于项目被取消了,我毕业后的第一份工作也结束了。其实当时的我对于被遣散其实是有一点点喜悦的,因为感觉终于可以离开这个不适合我的地方了。我觉得凭借着我自学的知识以及对大数据的热情,我肯定可以找到一个可以让我大展身手的地方。终于,经过努力,我通过面试进了a公司,岗位正是大数据运维。

社区版和企业版

到了a公司之后发现其实自己之前学到的东西只是冰山一角。真正的企业里面使用的大数据集群要求要比我学到的那些要高出很多。a公司也算是一个中型互联网公司,大数据集群也有过百节点。不过,自学的东西也算是一个基础,正是有了这个基础,我才可以更好更快地把公司的那套集群掌握。
接下来我将会讲述我在这整个过程里面所学到的东西。

HDFS和YARN的架构

Hbase架构

Hive架构

好了,架构就暂时说到这里,我们看看一些安装经验。之前在a公司的时候我们大数据运维组采用了两种部署方式,第一种是利用saltstack,另一种是利用ansible。ansible的方式是我写的,所以在这里我说一下ansible如何自动化部署CDH集群。

ansible部署CDH

除了部署之外,日常最多的工作就是维护集群稳定,并且实现来自产品,研发等的需求。现在分享一下日常的一些维护小经验。

管理HDFS服务

管理YARN服务

Hbase的一点小总结

Spark的一点小总结

您的支持将鼓励我继续创作!
0%