训练自定义镜像迁移策略
1. 专属池+SFS使用
a. 使用ECS节点挂载SFS,通过scp或者OBS中转来进行数据导入
b. 训练任务直接使用硬盘挂载能力,可以做到无缝迁移
2. 公共池
a. 需要客户自己构建数据代码下载,模型结果上传的能力
b. 镜像构建途径:
i. 基于ModelArts的自定义基础镜像:https://bbs.huaweicloud.cn/blogs/186057,https://support.huaweicloud.cn/engineers-modelarts/modelarts_23_0217.html
ii. 基于客户自己的容器镜像进行改造:https://bbs.huaweicloud.cn/blogs/281792
iii. 基于Notebook构建,保存镜像:https://bbs.huaweicloud.cn/blogs/334818 (使用新版训练自带的OBS同步)或https://bbs.huaweicloud.cn/blogs/285689 (老版训练使用obsutil自主下载)
c. OBS交互途径:
i. OBSutil:shell脚本方式
1) 安装参考:https://bbs.huaweicloud.cn/blogs/281373
2) 容器中使用参考:https://bbs.huaweicloud.cn/blogs/281792
ii. MoXing:python代码方式
1) 使用限制:因为需要MoXing的软件包,所以需要基于Notebook或训练自定义基础镜像构建
2) 使用方法:https://support.huaweicloud.cn/moxing-devg-modelarts/modelarts_11_0005.html
3. 镜像构建&调测指南:https://bbs.huaweicloud.cn/blogs/285590
4. 训练任务环境变量说明:https://bbs.huaweicloud.cn/blogs/285690
5. 迁移实战场景的小tips:https://bbs.huaweicloud.cn/blogs/298131
- 点赞
- 收藏
- 关注作者
评论(0)