Hadoop版本选型

Author Avatar
山小杰 11月 05, 2017
  • 在其它设备中阅读本文章

简介

说到大数据,首先得说一说Hadoop,这个Apache旗下的一个顶级项目,一个分布式的存储、计算系统,适用于超大数据量的存储与计算。
Hadoop可以说是大数据生态圈的代名词,有很多基于Hadoop集成开发出来的衍生项目,所以面对众多的Hadoop产品,选择一个合适的产品尤为重要。

除了原生Hadoop之外,比较受欢迎的开源的可以免费使用的第三方发行版Hadoop有:

所以这篇文章就简单介绍一下原生Hadoop和第三方发行版Hadoop的区别

Apache Hadoop原生版本优缺点

优点:

  • 完全开源免费
  • 社区活跃,版本更新快
  • 文档、资料详实
  • 自由度高,可定制性强

缺点:

  • 集群部署、安装、配置复杂。通常部署集群需要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
  • 对集群的监控,运维,需要安装第三方监控软件,运维难度较大。
  • 组件选择与搭配困难。在Hadoop生态圈中,组件的选择、使用,比如Hive,HBase,Spark等等,需要大量考虑兼容性、稳定性的问题。

第三方发行版Hadoop优缺点

优点:

  • 基于Apache协议,100%开源。
  • 比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例。
  • 提供了部署、安装、配置工具,大大提高了集群部署的效率。
  • 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。

缺点:

  • 自由度低,可定制性低
  • 由于是集成起来的Hadoop平台,考虑到稳定性和兼容性,所有组件版本相比原生版本都比较低,因此发行版Hadoop可能不具有原生版本的某些新功能、新特性。

总结

刚开始学习大数据的时候,最好是从原生Hadoop学起,因为必须要对Hadoop的安装、配置、启动有个大概了解。公司转入大数据行业初期可以考虑使用第三方发行版Hadoop,因为部署、管理、运维方便,稳定性、兼容性强。后期如果觉得第三方发行版不能满足功能需要,或者需要定制个性化功能的话,可以再去考虑Apache原生版本Hadoop,自己进行集成开发。

对于第三方发行版Hadoop,我只用过CDH,觉得还是蛮好用的。特别是调整集群参数的时候,有一个管理工具(Cloudera Manager)是真的方便,原生版本还要手动修改配置文件,再手动分发到其他节点,很容易出差错。

简单体验过国内上海某公司的发行版Hadoop(?DH),觉得不如CDH好用,而且收费不开源。有一个社区版,没体验过,不知道跟商业版有什么区别。

HDP没用过,不做评价,只知道可以使用Apache旗下的一个集群管理工具(Ambari)来部署和管理。

OVER