实战案例 | 数据清洗-ModelArts在数据处理上的应用技巧

举报
coldsheep 发表于 2020/08/07 16:51:54 2020/08/07
【摘要】 数据清洗案例数据清洗案例数据清洗场景数据准备创建任务参数设置开启任务查看清洗结果数据清洗场景用户数据中可能存在一些 ‘脏数据 ’,Modelarts提供了强大的数据清洗功能,通过用户自定义选择正样本,采用数据清洗后输出与正样本同类别的数据,丢弃掉用户不想要的数据如下操作步骤,以安全帽分类数据集为例,指导如何从数据处理模块中使用数据清洗功能。1.数据准备2.创建任务3.参数设置4.开启任务5....

数据清洗案例

在ModelArts平台里预置了很多数据处理能力,其中一项就是数据清洗。

如果用户想训练一个安全帽识别模型,用户去互联网上采集了很多公开的图片。但是这些公开的图片中包含了杂乱无章的图片,或者和安全帽很相似,但却不是用户想要的数据。那么用户就要从这些数据中清洗出一些 ‘脏数据 ’,从而获取用户真正想要的数据。
Modelarts提供了强大的数据清洗功能,通过用户自定义选择正样本,自定义选择负样本,采用数据清洗聚类、异常检测、相似度计算、特征提取器等算法后输出与正样本同类别的数据,丢弃掉用户不想要的数据,从而完成数据清洗的目的。

以安全帽分类数据集为例,指导如何从数据处理模块中使用数据清洗功能。

1 准备工作

参考  准备工作 ,完成ModelArts准备工作。包括ModelArts全局配置和OBS相关操作。

2 数据准备

2.1 下载数据集

本案例采用的数据集包含各种安全帽图片和一些不含安全帽的图片点击 数据集下载可以下载数据到本地,dataset-clean文件夹下有三个目录,small_google_hat_data是包含各种安全帽和不含安全帽图片的数据集,small_hat是包含正样本即安全帽图片的数据集,critic_small_hat是包含安全帽图片的负样本数据集。

2.2 上传数据至OBS

使用OBS客户端上传本地的数据集文件夹至一个"华北-北京四"区域的OBS桶,数据存放在自定义的目录下。

2.3 创建数据集

登陆华为云ModelArts平台 ModelArts创建数据集,切换区域到“华北-北京四”。

点击页面上的 创建数据集 按钮,创建一个叫dataset-helmet-725 的数据集,创建数据集页面填写示例:


create_dataset数据集输入位置即small_google_hat_data文件夹存放在OBS中的目录

创建完成后可以预览,可以看到有一些非安全帽的图片。

dataset_clean_in

2.4 发布数据集

创建完成后回到数据集创建页面,点击发布按钮,发布训练集。数据集发布之后,就可以在后面的步骤中使用了。

dataset_clean_in

3 创建任务

创建数据处理任务,选择 数据清洗 算法。

create_task

4 参数设置

设置参数,其中 prototype_sample_path 为图像正样本目录,存放用户想要保留的类别的图像,例如用户想要保留 dataset-helmet-725 数据集中包含各类安全帽的图片,则指定存放了少量安全帽图片的obs路径作为正样本目录,另外 criticism_sample_path 为负样本目录,是存放了少量不含安全帽图片的obs路径,n_cluster 是数据样本的种类数,若事先知道数据集样本的类别数,可指定数值,否则默认为auto,checkpoint_path 是存放特征提取器的目录,当前仅支持resnet_v1_50做特征提取。其它参数若没有特殊要求都可保持默认值。

para

存放了正样本安全帽图片的obs目录:

sample

存放了负样本图片的obs目录:

critic_sample

5. 开启任务

数据清洗的输入、输出都可以指定为数据集或obs目录形式。例如选择 dataset-helmet-725 分类数据集作为输入,清洗过后的数据保存到 dataset-helmet-725 的新版本中。确定了输入、输出后,点击 创建 开启数据清洗任务

start_task

等待几分钟任务完成

finished

6. 查看清洗结果

最后查看经过数据清洗后导出的数据集新版本,可以看到保留下来的都是包含各类安全帽的图片,不包含安全帽的图片都被过滤掉了,可以清洗出用户想要的数据。

dataset_clean_out



ModelArts数据处理相关博客:

1. 数据处理简介:https://bbs.huaweicloud.cn/blogs/193413 

2. 数据增强:https://bbs.huaweicloud.cn/blogs/189148  使用数据增强,解决数据不足和数据集不均衡的情况

3. 数据生成域迁移:https://bbs.huaweicloud.cn/blogs/193405  数据风格变换:ModelArts的数据域迁移功能

4. 数据校验:https://bbs.huaweicloud.cn/blogs/193412   数据校验--给你的数据做个体检吧

5. 数据去重:https://bbs.huaweicloud.cn/blogs/193420  数据去重---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验

6. 数据清洗:https://bbs.huaweicloud.cn/blogs/193421  数据清洗---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验

7. 难例筛选:https://bbs.huaweicloud.cn/blogs/193422  如何加速AI模型迭代:Modelarts的难例筛选功能



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。