21天晋级大数据-DAY16 海量数据云上数据仓库在线分析(一)
一.主要完成作业二
作业2:根据下面提供的资料与提示,进行Dota2比赛分析
(1)下载数据
https://www.kaggle.com/devinanzelmo/dota-2-matches
(2)(https://support.huaweicloud.cn/devg-dws/import_from_obs_0001.html )根据导入指导,将数据导入以创建好的数据仓库
(3)用户可根据自己的爱好,对dota2的比赛数据进行分析,步骤可以参照第
一天的操作文档。不强制要求将所有的表上传并分析,用户可根据自己的实际
情况,上传几张表即可。
1、 创建OBS桶:
obs-hfdota/
华北一
公共
2、导入数据到OBS桶中:
dota2的比赛数据较大,可解压后上传几个样表即可。
3、在DWS集群中创建数据库:
第一部分像DAY15中那样,在DataStudio中分析。Tableau分析放在第二部分。
create database dota encoding 'utf8' template template0;
4、数据库中创建表:
操作文档第一、二行错误,需要将day15的“traffic_data”修改为“dota_data”:
create schema dota_data;
set current_schema=dota_data;
drop table if exists DOTA;
CREATE TABLE DOTA
(
ability_id VARCHAR(20),
ability_name VARCHAR(50)
)
with (orientation = column, COMPRESSION=MIDDLE) distribute by hash(ability_id);
5、 创建外表;
注意copy的pdf中含有空格,“DOTA _OBS”需要手工删除。
create schema tpchobs;
set current_schema = 'tpchobs';
drop FOREIGN table if exists DOTA_OBS;
CREATE FOREIGN TABLE DOTA_OBS
(
like dota_data.DOTA
)SERVER gsmpp_server
OPTIONS
(
encoding 'utf8',
location 'obs://obs-xxdota/ability_upgrades.csv',
format 'text',
delimiter ',',
access_key 'XXXXXXXXXXXXXXXI‘,
secret_access_key 'XXXXXXXXXXXXXXXXX',
chunksize '64',
IGNORE_EXTRA_DATA 'on'
);
6导入数据
操作文档漏了数据导入,需要创建了外表之后,还要执行导入数据语句:
insert into dota_data.DOTA select * from tpchobs.DOTA_OBS;
待数据导入成功后再执行下步查询
7、查询数据样例:
Analyze;
set current_schema = dota_data;
select count(*) from dota_data.DOTA;
select * from dota_data.DOTA;
- 点赞
- 收藏
- 关注作者
评论(0)