基于ModelArts的昇腾CANN的TensorFlow模型迁移性能优化分析丨【我的华为云体验之旅】
在使用ModelArts做基于昇腾CANN的TensorFlow模型迁移时,有遇到性能瓶颈,在参考了文档和最近进行了CANN训练营第四期 第一课 你为什么这么慢 课程学习,总结如下:
迁移工作基本上基于ModelArts进行,使用的是提供的基于Ascend 910的NoteBook开发,这里有一些关于ModelArts和CANN的建议:
1. 相对GPU来说,ModelArts的Ascend 910训练平台的感受,以下主要是针对CANN这块说明:
首先来说,训练方面没有感受到有什么不同。
但在报错方面,感觉报错时打印信息不太友好,比如GPU在自身报错,而非框架问题报错时,会有一些比较容易读懂的信息打印,而CANN基本是Error + 数字,没有什么方便开发者读懂的信息比较麻烦,个人感觉很难定位问题,如图所示,分别为GPU和Ascend 910报错:
GPU报错截图:
Ascend 910报错截图:
最后是ModelArts上对官方推出的Auto Tune和Profiling的支持不太好,比如暂时无法用Auto Tune的RL模式,因为没有root权限,影响Auto Tune的使用。而且好像不支持解析Profiling数据。
2. OBS有时候不稳定。
OBS与NoteBook的交互有时候出问题,无法传输文件,我因此提过工单,当时确实不行,工程师测试也确实如此,但后来再测试就行了,可能是重启后节点发生改变就行了,感觉不太稳定啊。
3. 建议在B站直播的时候,视频的清晰度能高一些,PPT中的代码和框图中的字看不清楚,放大后也看不清楚,影响观感和理解。
最后,就是一点希望了,希望能提供针对平台的性能调优和精度调优工具配置脚本和产品文档相结合的方式,而不是直接仅给产品文档链接了,产品文档感觉不清楚,与具体平台差异很大,需要探索一阵子,才能配置好。而且文档缺乏正确配置运行后的效果提示,开发者有时候无法通过运行知道是否正确运行了,建议加些提示。希望在仓库提交的issue能多回复,多交流,即使暂未找到办法,也回复一下,方便解释沟通了解进度,不仅仅是在未找到办法前就一直搁置。
【我的华为云体验之旅】有奖征文火热进行中:https://bbs.huaweicloud.cn/blogs/306271
- 点赞
- 收藏
- 关注作者
评论(0)