实战案例 | 数据清洗-ModelArts在数据处理上的应用技巧
在ModelArts平台里预置了很多数据处理能力,其中一项就是数据清洗。
如果用户想训练一个安全帽识别模型,用户去互联网上采集了很多公开的图片。但是这些公开的图片中包含了杂乱无章的图片,或者和安全帽很相似,但却不是用户想要的数据。那么用户就要从这些数据中清洗出一些 ‘脏数据 ’,从而获取用户真正想要的数据。
Modelarts提供了强大的数据清洗功能,通过用户自定义选择正样本,自定义选择负样本,采用数据清洗聚类、异常检测、相似度计算、特征提取器等算法后输出与正样本同类别的数据,丢弃掉用户不想要的数据,从而完成数据清洗的目的。
以安全帽分类数据集为例,指导如何从数据处理模块中使用数据清洗功能。
1 准备工作
参考 准备工作 ,完成ModelArts准备工作。包括ModelArts全局配置和OBS相关操作。
2 数据准备
2.1 下载数据集
本案例采用的数据集包含各种安全帽图片和一些不含安全帽的图片点击 数据集下载可以下载数据到本地,dataset-clean文件夹下有三个目录,small_google_hat_data是包含各种安全帽和不含安全帽图片的数据集,small_hat是包含正样本即安全帽图片的数据集,critic_small_hat是包含安全帽图片的负样本数据集。
使用OBS客户端上传本地的数据集文件夹至一个"华北-北京四"区域的OBS桶,数据存放在自定义的目录下。
2.3 创建数据集
登陆华为云ModelArts平台 ModelArts创建数据集,切换区域到“华北-北京四”。
点击页面上的 创建数据集 按钮,创建一个叫dataset-helmet-725 的数据集,创建数据集页面填写示例:
数据集输入位置即small_google_hat_data文件夹存放在OBS中的目录
创建完成后可以预览,可以看到有一些非安全帽的图片。
2.4 发布数据集
创建完成后回到数据集创建页面,点击发布按钮,发布训练集。数据集发布之后,就可以在后面的步骤中使用了。
3 创建任务
创建数据处理任务,选择 数据清洗 算法。
4 参数设置
设置参数,其中 prototype_sample_path 为图像正样本目录,存放用户想要保留的类别的图像,例如用户想要保留 dataset-helmet-725 数据集中包含各类安全帽的图片,则指定存放了少量安全帽图片的obs路径作为正样本目录,另外 criticism_sample_path 为负样本目录,是存放了少量不含安全帽图片的obs路径,n_cluster 是数据样本的种类数,若事先知道数据集样本的类别数,可指定数值,否则默认为auto,checkpoint_path 是存放特征提取器的目录,当前仅支持resnet_v1_50做特征提取。其它参数若没有特殊要求都可保持默认值。
存放了正样本安全帽图片的obs目录:
存放了负样本图片的obs目录:
5. 开启任务
数据清洗的输入、输出都可以指定为数据集或obs目录形式。例如选择 dataset-helmet-725 分类数据集作为输入,清洗过后的数据保存到 dataset-helmet-725 的新版本中。确定了输入、输出后,点击 创建 开启数据清洗任务
等待几分钟任务完成
6. 查看清洗结果
最后查看经过数据清洗后导出的数据集新版本,可以看到保留下来的都是包含各类安全帽的图片,不包含安全帽的图片都被过滤掉了,可以清洗出用户想要的数据。
ModelArts数据处理相关博客:
1. 数据处理简介:https://bbs.huaweicloud.cn/blogs/193413
2. 数据增强:https://bbs.huaweicloud.cn/blogs/189148 使用数据增强,解决数据不足和数据集不均衡的情况
3. 数据生成域迁移:https://bbs.huaweicloud.cn/blogs/193405 数据风格变换:ModelArts的数据域迁移功能
4. 数据校验:https://bbs.huaweicloud.cn/blogs/193412 数据校验--给你的数据做个体检吧
5. 数据去重:https://bbs.huaweicloud.cn/blogs/193420 数据去重---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
6. 数据清洗:https://bbs.huaweicloud.cn/blogs/193421 数据清洗---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
7. 难例筛选:https://bbs.huaweicloud.cn/blogs/193422 如何加速AI模型迭代:Modelarts的难例筛选功能
- 点赞
- 收藏
- 关注作者
评论(0)