【玩转华为云】MapReduce服务初体验
大数据是人类进入互联网时代以来面临的一个巨大问题:社会生产生活产生的数据量越来越大,数据种类越来越多,数据产生的速度越来越快。传统的数据处理技术,比如说单机存储,关系数据库已经无法解决这些新的大数据问题。为解决以上大数据处理问题,Apache基金会推出了Hadoop大数据处理的开源解决方案。Hadoop是一个开源分布式计算平台,可以充分利用集群的计算和存储能力,完成海量数据的处理。企业自行部署Hadoop系统有成本高,周期长,难运维和不灵活等问题。
针对上述问题,华为云提供了大数据MapReduce服务(MRS),MRS是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算、存储优势及大数据行业经验,为客户提供高性能、低成本、灵活易用的全栈大数据平台,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力,帮助企业快速构建海量数据信息处理系统,并通过对海量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。
1. MapReduce服务开通
打开MapReduce:https://console.huaweicloud.cn/mrs
点击同意授权
什么是MapReduce服务?大数据MapReduce服务(MRS)是一个在华为云上部署和管理Hadoop系统的服务,一键即可部署Hadoop集群。MRS提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件,并具备在后续根据业务需要进行定制开发的能力。
在左上角选择购买集群
选择自定义购买
填写完规格选取后点击下一步
默认如下配置,如果没有创建私有云,可以点击“查看虚拟私有云”,进入虚拟私有云界面,点击“创建虚拟私有云”,所有参数默认,点击“立即创建”即可。回到购买集群页面,点击刷新按钮,即可选中创建的虚拟私有云。
按照下图配置继续操作
输入完密码后点击确认授权并立即购买。
创建大概需要10-20分钟
2. 购买弹性公网IP
进入弹性公网Ip控制台https://console.huaweicloud.cn/vpc
点击右上角购买弹性公网Ip
点击立即购买
可以看到我们创建的公网Ip
回到MapReduce控制台,点击前往MRS页面
3. 使用公网IP登录MRS Manger界面
4.利用MapReduce做单词统计
4.1 下载实验数据
在linux服务器下输入下面指令
wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/wordcount
wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/mapreduce/hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar
4.2 将数据和代码上传到OBS
什么是OBS?对象存储服务是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括:创建、修改、删除桶,上传、下载、删除对象等。
4.2.1 创建OBS桶
打开对象存储控制台https://console.huaweicloud.cn/console/?agencyId=09b9d12f5200f3af1f9ac007869a4ffc®ion=MOS&locale=zh-cn#/obs/manager/buckets
点击创建桶
选择好对应规格后立即创建
创建完成后点击桶名称进入对象存储服务,点击左侧栏"对象",进入到对象管理页面,再点击“新建文件夹”创建一个名为“input”的文件夹
创建完成后,点击“input”文件夹名字进入到“input”文件夹,然后点击“上传对象”按钮弹出窗口(上传方式默认),点击“添加文件”将下载的“wordcount”(选择“Home”位置可看到下载的该文件)文件文档,点击“上传”到“input”文件夹中。
点击“返回上一级”,使用同样的方法,新建一个名为“jar”的文件夹,然后点击名称进入,并将“hadoop-mapreduce-examples-3.1.1-mrs-2.0.jar”上传到jar文件夹中
4.2.2 提交mapreduce作业,进行单词统计
切回浏览器的集群管理页面,选择“作业管理”
① 作业类型:MapReduce;
② 作业名称:MapReduce;
③ 执行程序路径:点击"OBS",选择“obs-xxxx”->“jar”->“hadoop-xxx”文件夹并确定;
④ 执行程序参数:wordcount;
数据输入路径:点击"OBS",选择“obs-xxxx”->“input”文件夹并确定;
数据输出路径:直接输入"/user/wordcount/";
说明:每个参数之间需要添加空格。
⑤ 日志路径:默认点击“确定”完成添加,等待程序执行成功
4.2.3 使用hdfs命令行客户端查询计算结果
在MRS Manager页面的地址栏,复制弹性IP地址
登录弹性公网IP
ip地址为弹性公网Ip
用户名为root
密码为自己设置的密码
至此,产品体验结束,实验完成。
3.遇到的问题
3.1绑定公网IP后无法访问
在绑定公网Ip后还是无法打开MRS管理页面
解决方法:MRS管理页面的端口为9022,还需要在安全组放开对应端口号可以实现正常访问
3.2 本地无法直接下载linux指令文件
为了更好的完成产品体验并提交体验报告,除了在沙箱实验中体验实验外,我还进行了实际操作进行体验,但是有部分体验功能需要在linux服务器中进行
为了下载通过linux指令下载的文件,我通过在沙箱实验中的linux服务器将文件下载下来后,我通过邮箱的方式发送到我的本地电脑,再上传到obs桶
4.建议
本次实验流程相对比较顺利,而且在官方文档还有视频说明,建议较少,已经做得很棒了
4.1 沙箱实验选取建议
本次是为了体验MRS服务,但是单词统计实验只让我们体验到了购买流程,MRS的大部分功能没有得到展现,希望可以更进一步的介绍该平台的主要使用功能。
4.2 软件更新问题
由于改MRS功能集成项目很多,希望可以及时更新每一个组件,提高性能
- 点赞
- 收藏
- 关注作者
评论(0)