MRS集群配置Kettle on Spark

举报
小玛 发表于 2019/05/24 11:18:31 2019/05/24
【摘要】 本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。

本文将介绍如何通过在Linux的机器上,执行kettle脚本,在MRS集群中,运行Spark程序。


按照本文操作,你需要:

  1. 一个MRS集群

  2. (可选)集群外的一个Linux节点(与MRS集群在相同VPC,相同安全组规则下)


1. 下载Kettle,在windows上图形界面上编辑得到一个xml模板


首先,可以从这个链接下载Kettle。

https://nchc.dl.sourceforge.net/project/pentaho/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip 


下载后,解压,运行

pdi-ce-7.1.0.0-12\data-integration\Spoon.bat

这样会打开kettle的图形化界面。


点击文件-新建-作业,创建一个新的作业。


从左边的核心对象-通用中,拖入一个START节点。

image.png


再拖入一个Spark Submit节点。

image.png


将鼠标悬停在START按钮上几秒后,会弹出一个选项菜单,点击下图按钮,将START和Spark Submit连接起来

image.png


image.png


双击Spark Submit,编辑Spark作业信息。

image.png


填入的内容分别是:

Spark Submit Utility: /opt/client/Spark/spark/bin/spark-submit

Master URL: yarn-client

Class: org.apache.spark.examples.SparkPi

Application Jar: /opt/client/Spark/spark/examples/jars/spark-examples_2.11-2.2.1-mrs-1.8.0.jar (请根据集群版本调整)


Arguments: 100


这样,就完成了整个作业的配置,文件-保存,保存为test,会生成一个test.kjb文件。

image.png


2. 在Linux上部署、运行

2.1 下载MRS客户端

如果在MRS master节点上部署Kettle,则不需要重新安装客户端,MRS master节点默认在/opt/client目录下安装好了客户端。


如果在集群外Linux节点上部署Kettle,需要先在该节点上安装MRS客户端,具体请参考https://support.huaweicloud.cn/eu-west-0-usermanual-mrs/mrs_01_0091.html


假设我们最后也将客户端安装在了/opt/client目录下。


2.2 部署、配置Kettle


将下载的pdi-ce-7.1.0.0-12.zip包也传到linux节点,假设传到了/root/用户目录下。


执行命令解压

unzip pdi-ce-7.1.0.0-12.zip


执行命令,将集群的配置拷贝到Kettle的对应目录

yes | cp /opt/client/Spark/spark/conf/*-site.xml /root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25/


将前面保存好的test.kjb传到linux节点,传到/root/test.kjb.


source MRS的环境变量, 里面会设置JAVA_HOME和SPARK_HOME

source /opt/client/bigdata_env


设置HADOOP_CONF_DIR

export HADOOP_CONF_DIR=/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25


执行命令,即可运行Spark程序

/root/data-integration/kitchen.sh -file /root/test.kjb


可以看到执行成功,打印出了π的计算结果。

image.png


之前填入的参数,都可以在生成的test.kjb文件中手动修改。


参考

在Kettle(PDI)跑Apache Spark作业


在centos7下设置kettle定时任务


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。