华为云2020 AI实战营 第八章 语音识别 打卡指南(完结篇)
其实最后一周的打卡略显简单,写一篇博客好像有点注水的味道,但是毕竟2篇写下来了,就勉为其难将领手表的活动进行到底吧!毕竟七夕来了,总要结束AI实战训练营这一光辉的旅程,走向atlas 200DK或者HiLens或者AIoT这些更精准的AI应用。。。
安利一下前几次打卡指南:
华为云2020 AI实战营 第六章 视频分析 打卡指南 https://bbs.huaweicloud.cn/blogs/191703
华为云2020 AI实战营 第七章 NLP 打卡指南 https://bbs.huaweicloud.cn/blogs/194290
一、课程打卡
课程内容为《8.4 课程打卡》,打卡的方法如下:
下载课程中提供的pdf文件。点击每个章节后,将右边红色的下载文档按钮都按一下。
将会得到以下的pdf:
课程打卡就打开 8.4 课程打卡.pdf 文件看说明吧:
惯例打开 https://nbviewer.jupyter.org/ 然后在URL输入:https://nbviewer.jupyter.org/github/huaweicloud/ModelArts-Lab/blob/master/notebook/DL_speech_recognition/DFCNN和Transformer模型完成中文语音识别.ipynb
然而这次并不行,因为如果你真这样输入,你就会得到以下画面:
你要做的事情就是直接在浏览器输入这个地址,打开这个页面:
下面的事情就是一步步的按照手册来。记得有几点需要注意的:
选Notebook参数的时候,可以直接选择那个 8核64G的,别选免费的,这样你的命令执行会快很多。(记得选择一小时后停止)
另外,创建的是TensorFlow 1.13.1开发环境。(这点跟第二个实验有区别,需重点注意!!!)
然后一般情况下,你从头做到尾,也不会出啥问题。直接就到结果了。
记得把Notebook的标题改为你的 华为云用户名,就可以截图回帖拿积分了。
二、作业1打卡
作业 1的打卡是在8.1节的基础上,所以你需要打开 8.5和8.1两个pdf文件。你可以先根据8.1的要求将案例跑完,然后再做打卡实践作业。
具体方法如下:
打开 https://nbviewer.jupyter.org/ 在url栏输入地址:https://github.com/huaweicloud/ModelArts-Lab/blob/master/notebook/DL_sound_introduction/语音和语音识别介绍.ipynb
放心,这次可以直接打开
然后你继续创建Notebook(方式跟课程一样)(记得选择一小时后停止)
注意这里,创建的是TensorFlow 1.8的开发环境。(手工加红加粗)
接着也只有12个语句,复制粘贴执行即可。这个不需要没多少时间。
这些语句运行完之后,你可以看 8.5的作业说明了:
你可以选择test1.wav文件。然而,作为一个想挑战自己的你,应该自己录个文件上传。
你可以选择用手机或者电脑的录音机录制好WAV文件,如果录制的是MP3格式的,还可以选择用格式工厂将其转换为WAV格式的。
然后,你在Notebook页面中选择上传,将wav文件传到Notebook:
继续在提供的界面上执行以下语句:
记得把文件名改为你自己定的文件名:news.wav
源文件15秒,目的文件19秒。果然是变声了。。。(笔者会传上附件)
好了,简单吧。你就拿着这个界面截图回帖就可以拿到2个积分了。记得将Notebook名称改为你的华为云ID.
三、作业2打卡
作业 2的打卡是在8.2节的基础上,所以你需要打开 8.5和8.2两个pdf文件。
你可以按照8.2的链接打开RL :
https://github.com/huaweicloud/ModelArts-Lab/tree/master/ExeML/ExeML_Sound_Classification
然而你会发现很多图片都无法显示,像这样:
你也可以试下nbviewer,
但是你也会遇到这样:
你再点开readme,就会变成这样:
是的,它又回去了。
当你手足无措的时候,你会发现,你该好好看视频了。。。(对了,听说好多人都是直接打卡不看视频的,好像不看视频也能打卡,这个学习好像有点水。。。。)
视频上拥有你想知道的一切。。。。。按照视频来吧:点击自动学习,创建声音分类项目。。。
选择数据集来源:obs的train文件夹:
选择输出目录:obs的trainout文件夹
开始创建:
准备音频文件:
根据那个打不开图片的github提供的链接:
下载 猫狗虎鸟叫的音频文件:
根据 8.5文档的链接
下载小猪叫的音频文件:
https://modelarts-labs-bj4.obs.cn-north-4.myhuaweicloud.com/ExeML/ExeML_Sound_Classification/pig.zip
下载完之后记得解压。
在项目内添加各类音频:记住前4类只需要添加 train下的文件即可。test目录下用于测试,不要在这个时候上传。
另外记住由于系统限制,每次传输不能大于8M,所以如果文件多了,你就先删掉几个,下次再传。
然后对音频进行标注,简单点,就是将各名称开头的文件标注成那个名称的标签,如birdxxx标注为bird等等。
标注完毕后,点击右上角的红色按钮:开始训练。
你可以选择免费的
也可以选择收费的:
感觉都差不多。
确定后,也许训练作业会排队:
当训练完成之后,
你可以点击左上角方框中的部署按钮:
然后耐心等待部署结束:
当版本为运行中时,你就可以在中间的页面上传 猪叫的音频。然后点击预测,右边就会显示pig的结果。如上图所示。
拿着这张图片回帖,就可以拿到最后的2分了。
好了,终于到了2020 AI实战营的终了,让我们感谢实战营的 01老师,倪老师以及AI相关的各类小助手在实战营期间给予我们的帮助。
另外希望GT手表能够早日到手。
(全文完,谢谢阅读!)
- 点赞
- 收藏
- 关注作者
评论(0)