CDH6集群中安装StreamSets

Author Avatar
山小杰 1月 03, 2020
  • 在其它设备中阅读本文章

简介

StreamSets(StreamSets Data Collector)是一款开源的强大的实时数据采集和ETL工具,具有易于使用的用户界面,甚至于不需要写任何代码,只需要做一些拖拽和配置即可完成复杂的Pipeline(数据管道)设计。
类似于我们所熟知的ETL工具Kettle,StreamSets也具有很多的组件,其组件可分为三大类,分别对应数据的采集、处理和落地:

  • Origin(数据源)
  • Processor(处理器)
  • Destination(目的地)

StreamSets有多种安装方式,可以使用tar包、rpm包、Cloudera Parcels等方式进行安装。由于我所使用的集群为CDH,故本文就只简单介绍一下StreamSets在CDH集群中的安装配置过程,在后续的文章中我会使用一些例子来介绍StreamSets具体的使用。

环境说明:

Linux版本:CentOS 7.7
CDH版本:CDH 6.3.1
StreamSets版本:3.12.0

相关链接:

StreamSets 下载页面
StreamSets Github页面
StreamSets 官网

安装文件准备

进入下载页面,默认最先展示的即为最新版本,找到Cloudera Parcels下面对应操作系统版本的下载链接,下载3个文件即可:
download
分别为:

parcel包:STREAMSETS_DATACOLLECTOR-3.12.0-el7.parcel
校验文件:STREAMSETS_DATACOLLECTOR-3.12.0-el7.parcel.sha
csd文件:STREAMSETS-3.12.0.jar

文件下载完成后将parcel包和校验文件上传至CDH管理节点上的parcel本地存储库目录下,通常该目录默认为:/opt/cloudera/parcel-repo。将csd文件上传至CDH管理节点上的/opt/cloudera/csd目录下,然后将这几个文件的所有者修改为cloudera-scm:cloudera-scm
parcel
csd

最后重启一下cloudera-scm-server服务即可在CM的WEB界面上看到StreamSets的Parcel包,默认为未分配/未激活状态,手动分配激活一下即可。
# systemctl restart cloudera-scm-server
img

StreamSets安装

如果上面的步骤都没有出错的话,已经可以在集群的添加服务列表中看到StreamSets选项了,勾选StreamSets,继续:
img
分配主机:
img
修改配置(最好还是修改一下默认目录):
img
后续下一步下一步即可安装成功,可在CM首页看到StreamSets服务项:
img
安装完成后即可访问StreamSets的web界面的,默认端口为:18630,默认用户密码为:admin/admin。
img

StreamSets配置项

  • 修改java最大堆内存
    默认为1G内存,可根据实际应用场景修改,前往CM网页StreamSets的服务配置页搜索sdc-env.sh,在sdc-env.sh 的 Data Collector 高级配置代码段(安全阀)配置项中添加export SDC_JAVA_OPTS="-Xmx3072m -Xms3072m"
  • 修改最大batch大小
    表示每次从数据源读取一批数据的最大记录数,默认最大batch大小为1000,可根据实际情况进行调整,前往CM网页StreamSets的服务配置页搜索maxBatchSize,修改Max Batch Size (Running)的值为合适大小。
    img
    其余配置项可参考官方配置文档
    配置修改完成后重启服务生效。

本章完