【华为云-上云之路】手把手教你用ModelArts实现猫狗数据集的智能标注

举报
看那个码农 发表于 2020/05/14 11:50:21 2020/05/14
【摘要】 手把手教你用ModelArts实现猫狗数据集的智能标注

华为云华为公司倾力打造的云战略品牌,2011年成立,致力于为全球客户提供领先的公有云服务,包含弹性云服务器、云数据库、云安全等云计算服务,软件开发服务,面向企业的大数据和人工智能服务,以及场景化的解决方案。

image.png


华为云用在线的方式将华为30多年在ICT基础设施领域的技术积累和产品解决方案开放给客户,致力于提供稳定可靠、安全可信、可持续创新的云服务,做智能世界的“黑土地”,推进实现“用得起、用得好、用得放心”的普惠AI。华为云作为底座,为华为全栈全场景AI战略提供强大的算力平台和更易用的开发平台。

image.png

ModelArts华为云产品中面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。


image.png


手把手教你用ModelArts实现

猫狗数据集的智能标注

本期实验,我们将结合前面几期推文实验内容介绍如何使用ModelArts进行数据集的数据智能标注过程。


image.png


用ModelArts实现猫狗数据集的智能标注实验流程


1.准备实验环境与工具

2.准备数据

3.创建数据集

4.据标

5.将标注好的数据集导入OBS桶

6.OBS桶的文件下载到本地电脑


1.1密钥准备


首先需要进入华为云官方网站

https://www.huaweicloud.cn/


image.png


点击页面的“控制台”切换至控制台界面,在账号名称的下拉菜单中点击“我的凭证”,进入创建管理访问密钥(AK/SK)的界面。位置如下图所示:


image.png


什么是访问密钥?

访问密钥即AK/SK(Access Key ID/Secret Access Key),是您通过开发工具(API、CLI、SDK)访问华为云时的身份凭证,不能登录控制台。系统通过AK识别访问用户的身份,通过SK进行签名验证,通过加密签名验证可以确保请求的机密性、完整性和请求者身份的正确性。


选择访问密钥”,点击“新增访问密钥


image.png


1.2创建OBS桶和目录


进入方式,“控制台”->“服务列表”->“存储”->“对象存储服务”,页面右上角点击“创建桶”按钮进入创建页面。


image.png


什么是OBS?
对象存储服务(Object Storage Service,OBS)是一个基于对象的海量存储服务,为客户提供海量、安全、高可靠、低成本的数据存储能力,包括:创建、修改、删除桶,上传、下载、删除对象等。


1.3 OBS桶设置


OBS桶设置参数如下:

区域:华北-北京四桶名称:自定义(注意:此名称会在后续步骤使用)根据自己的命名习惯,我将此处的桶名称取为dogcat-modelart存储类别:标准存储桶策略:私有归档数据直读:关闭多AZ:开启 点击"立即创建",完成创建


image.png


1.4创建文件夹


点击刚刚创建的桶,进入详情页

image.png


左侧栏选择“对象”,点击“新建文件夹”,在弹出的新建窗口中:


文件夹名称:自定义此名称会在后续步骤中使用)根据自己的命名,我将此处的文件夹名称取为dogcat-data 点击“确定”完成添加

image.png


1.5服务授权


由于创建自动学习项目需要使用数据管理功能,在开始使用前,需为数据管理模块获取访问OBS权限。

在ModelArts管理控制台,进入“数据管理->数据集”页面,单击“服务授权”


image.png


由具备授权的账号“同意授权”后,即可正常使用:


image.png


1.6下载安装并登录OBS Browser+


由于OBS Browser快下线了,所以本次实验关于对象存储服务操作中我们用到的新工具OBS Browser的升级版OBS Browser+


OBS Browser+是一款用于访问和管理对象存储服务(Object Storage Service,OBS)的图形化工具,支持完善的桶管理和对象管理操作。OBS Browser+的图形化界面可以非常方便地让用户在本地对OBS进行管理,例如:创建桶、上传下载文件、浏览文件等。


该工具在华为云主页“开发者->资源工具->开发工具”处

image.png


双击点进去后是下面的页面


image.png


在开发工具的业务工具处,根据自己电脑配置下载OBS Browser+:


image.png


此为下载完成打开后的OBS Browser+工具界面:



image.png


填入步骤1.1下载得到的Access Key IdSecret Access Key密钥

即可登录刚刚在华为云云端创建的OBS桶:


image.png


此时可以借助OBS Browser+从云端创建的OBS桶中上传和下载文件:


image.png


2.1准备数据


ModelArts在公共OBS桶中提供了猫狗数据集

命名为dog_and_cat_200

本文的实验将使用此数据集进行数据智能标注。


关于数据集的下载您可以在华为云网页:


https://github.com/huaweicloud/ModelArts-Lab/tree/master/train_inference/image_recognition#%E5%9B%BE%E5%83%8F%E5%88%86%E7%B1%BB%E7%BB%BC%E5%90%88%E5%BA%94%E7%94%A8%20

进行猫狗数据集下载,数据集文件的大小不大,只有4.2M,小猫和小狗的图片各100张。


image.png


或本微信公众号后台回复“猫狗”即可一键获取猫狗分类数据集:


image.png


2.2数据解压


在本地电脑平台,解压下载的“dog_and_cat_20.tar”压缩包


例如,解压至本地“dog_and_cat_20”文件夹下


image.png


2.3数据上传


点击打开刚刚下载安装好的OBS Browser+工具进行对象存储服务:

进入步骤1创建好的OBS桶dogcat-data文件夹中:


image.png


点击上传”,选择刚才下载的本地猫狗数据集中的文件夹,点击“确定”即可完成上传。


image.png

image.png



利用OBS Browser+工具将数据上传至华为云云端的速度很快,在华为云云端很快就可以看见刚刚上传的本地电脑的猫狗数据集:


image.png


3.创建数据集


进入ModelArts管理控制台主页,单击左侧导航栏“数据管理”,再点击数据集


image.png


添加步骤1保存的访问密钥文件中的密钥:


image.png


在“数据集”栏中单击“创建数据集”


image.png


在“创建数据集”页面中,填写“数据集名称

dataset-dogcat
选择“数据集输入位置”猫狗数据集OBS路径为“/dogcat-modelart/dogcat-data/dog_and_cat_200/dog_and_cat_200/”
“数据集输出位置”选择一个空目录如“/dogcat-modelart/dogcat-data/dog_and_cat_200/output/”
标注场景选择图像分类,添加标签集dog和cat


image.png


点击创建即可创建数据集:


image.png



4.数据标注


本次实验的数据标注,我们将在dog和cat两个标签手动标注各30张标签的基础上进行智能标注,将剩下的各70张图片智能标注好。

点击创建好的数据集dataset-dogcat,点击进去:

image.png


选择右上的“开始标注”


此页面可以可视化的看见数据集中图片数量,标注和未标注的图片数量,以及标签统计。


此外在此处右上方还可选择创建团队标注任务,可以多人实时进行线上标注,大大提高了标注工作效率。

image.png



数据标注,针对图像分类项目,即在已有数据集图像中,标注出不同类别物体,并为其打上标签。标注好的数据用于模型训练。


猫狗数据集中,所有的数据都未标注,用户可以先选择未标注数据进行手动标注,待两个标签的数据各标了30张的时候,可以启用智能标注。


image.png


数据集创建时,会自动执行数据源同步操作。由于数据源同步需要一定时间,如果出现同步失败,可单击“同步数据源”手动执行。


image.png


单击“未标注”页面,此页面展示所有未标注的图片数据。由于之前创建数据集时我们已经创建好dog和cat标签,此时我们可以直接根据图片物体的类别将图片标注。


image.png


以“dog”数据标注为例子,本文我们将操作一遍“dog”数据标注的过程:


image.png


1.在未标注图片中找到30张dog的图片,并勾选图片左上的小勾√。

2.勾选完之后在右侧标签名处,找到dog的标签名,即可实现一次标注。


image.png


我们用相同的办法再手动标注30张猫的图片,最后手动标注好了猫狗各30张图片:


image.png


我们将启用智能标注,对剩下的数据进行标注:


image.png


点击“待确认”,进入新页面后,点击“启动智能标注


image.png


配置好智能标注的任务信息,点击“提交”:


image.png


数据集开始进行图像标签的智能标注:


智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作,为用户节省70%以上的标注时间

image.png


智能标注作业运行过程预计3到5分钟左右即可智能标注好标签,但是存在一部分利用机器智能标注没有标注正确的难例标签:


image.png



我们需要人工仔细确认每张图片智能标注的结果。


对智能标注结果进行分类,依次处理每个类别。点击类别下拉框,选择其中一类,比如cat,如下图所示:
image.png
人工确认每张图片,如果是cat,就选择图片(可以多选),然后点击按钮“将选中的图片确认为已标注”,接纳标注结果。
image.png

注意,不是cat的图片,不要进行选择,后面步骤将会处理。如下图:
image.png
cat类别的图片确认完之后,按照相同的方式处理dog类别:

image.png

对于智能标注错误的结果,我们再次点击“启动智能标注”按钮,使用智能标注再次给这些图片标注。


image.png


原理是:由于训练数据量增加,标注的精度会大大增加。

等待第二次的智能标注作业运行完成。


再次利用上述步骤处理智能标注后的图片

依据之前处理智能标注结果的流程,处理第二次的智能标注作业。

image.png

多次重复上述过程,直到完成所有图片的标注,标注好各200张正确的猫狗图片。

image.png


返回数据集概况页面,选择右方的“发布

image.png


设置好数据集的名称和格式以及训练验证比例:

image.png


点击确定后,等几秒钟即可发布成功:


image.png


5.1将标注好的数据集导入OBS桶

将标注好的dataset-dogcat数据集导入OBS桶中,选择此数据集右侧的“更多”选项。

选择“导入”选项:



image.png


选择导入的OBS桶路径,

/dogcat-modelart/dogcat-data/dog_and_cat_200/train/


image.png


即可将标注好的数据集导入OBS桶的文件夹中


image.png


6.将OBS桶的文件下载到本地电脑


由于对象存储服务的管理控制台不能直接将OBS桶中文件夹下载到本地,需要借助OBS Browser+进行下载


image.png


选择需要下载的数据集文件,即下载至本地电脑:


image.png


至此实验全部完成。


最后大家使用的云端资源记得全部删除如对象存储服务创建的桶,文件夹;ModelArts创建的数据集,部署的模型等都需要删除,并停用访问密钥,以免造成不必要的花费。


通过对实验结果的比对,可以看出利用

[华为云ModelArts]数据集智能标注的工作效率是很棒的,六个字总结就是-高效,快捷,省心


正因我们国家有许多像华为这样强大的民族企业在国家背后默默做支撑,做奉献。我们国家才能屹立于世界民族之林。

华为,中国骄傲!中华有为!


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。