- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

MRS集群配置Kettle on Spark

小玛发表于 2019/05/24 11:18:31 2019/05/24

【摘要】本文将介绍如何通过在Linux的机器上，执行kettle脚本，在MRS集群中，运行Spark程序。

本文将介绍如何通过在Linux的机器上，执行kettle脚本，在MRS集群中，运行Spark程序。

按照本文操作，你需要：

一个MRS集群
（可选）集群外的一个Linux节点（与MRS集群在相同VPC，相同安全组规则下）

1. 下载Kettle，在windows上图形界面上编辑得到一个xml模板

首先，可以从这个链接下载Kettle。

https://nchc.dl.sourceforge.net/project/pentaho/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip

下载后，解压，运行

pdi-ce-7.1.0.0-12\data-integration\Spoon.bat

这样会打开kettle的图形化界面。

点击文件-新建-作业，创建一个新的作业。

从左边的核心对象-通用中，拖入一个START节点。

再拖入一个Spark Submit节点。

将鼠标悬停在START按钮上几秒后，会弹出一个选项菜单，点击下图按钮，将START和Spark Submit连接起来

双击Spark Submit，编辑Spark作业信息。

填入的内容分别是：

Spark Submit Utility: /opt/client/Spark/spark/bin/spark-submit

Master URL: yarn-client

Class: org.apache.spark.examples.SparkPi

Application Jar: /opt/client/Spark/spark/examples/jars/spark-examples_2.11-2.2.1-mrs-1.8.0.jar (请根据集群版本调整）

Arguments: 100

这样，就完成了整个作业的配置，文件-保存，保存为test，会生成一个test.kjb文件。

2. 在Linux上部署、运行

2.1 下载MRS客户端

如果在MRS master节点上部署Kettle，则不需要重新安装客户端，MRS master节点默认在/opt/client目录下安装好了客户端。

如果在集群外Linux节点上部署Kettle，需要先在该节点上安装MRS客户端，具体请参考https://support.huaweicloud.cn/eu-west-0-usermanual-mrs/mrs_01_0091.html

假设我们最后也将客户端安装在了/opt/client目录下。

2.2 部署、配置Kettle

将下载的pdi-ce-7.1.0.0-12.zip包也传到linux节点，假设传到了/root/用户目录下。

执行命令解压

unzip pdi-ce-7.1.0.0-12.zip

执行命令，将集群的配置拷贝到Kettle的对应目录

yes | cp /opt/client/Spark/spark/conf/*-site.xml /root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25/

将前面保存好的test.kjb传到linux节点，传到/root/test.kjb.

source MRS的环境变量，里面会设置JAVA_HOME和SPARK_HOME

source /opt/client/bigdata_env

设置HADOOP_CONF_DIR

export HADOOP_CONF_DIR=/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25

执行命令，即可运行Spark程序

/root/data-integration/kitchen.sh -file /root/test.kjb

可以看到执行成功，打印出了π的计算结果。

之前填入的参数，都可以在生成的test.kjb文件中手动修改。

参考

在Kettle(PDI)跑Apache Spark作业

在centos7下设置kettle定时任务

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

MRS集群配置Kettle on Spark

1. 下载Kettle，在windows上图形界面上编辑得到一个xml模板

2. 在Linux上部署、运行

2.1 下载MRS客户端

2.2 部署、配置Kettle

参考

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品