ModelArts Server资源配置指南
1. 配置介绍
本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。
2. 网络配置
网络配置包括从外部用ssh登录的方式访问裸金属服务器, 以及从裸金属服务器内实现对公网的访问能力。
https://bbs.huaweicloud.cn/blogs/400976
当然,用户也可以直接在服务器上购买和绑定华为云弹性IP实现上述尝尽的诉求。
3. 存储配置
Server存储推荐使用SFS和OBS. https://bbs.huaweicloud.cn/blogs/400972
关于云硬盘EVS, 目前部分机型不支持挂载EVS盘(如V100), 因此在使用EVS云硬盘时需要确认当前裸金属机型是否支持挂载。
4. 软件环境安装
针对不同的GPU机型给出相关的装机解决方案,可以按照如下匹配:
(1) V100 Euler装机指南: https://bbs.huaweicloud.cn/blogs/401230
(2) Ant8和Ant1 Ubuntu装机指南: https://bbs.huaweicloud.cn/blogs/398214
(3) NVIDIA驱动选择指南: https://bbs.huaweicloud.cn/blogs/398209
5. 监控配置
提供两种裸金属服务器的监控指南
(1). 华为云CES服务官方监控方案: https://bbs.huaweicloud.cn/blogs/399007
(2). NVIDIA官方推荐的DCGM监控方案: https://bbs.huaweicloud.cn/blogs/399818
6. 服务器配置验证
(1). 通过PyTorch验证NVIDIA驱动环境的有效性: https://bbs.huaweicloud.cn/blogs/398211
(2). 针对Ant1和Ant8使用NCCL验证服务器性能和软件环境指南:https://bbs.huaweicloud.cn/blogs/398214
(3). 针对Ant1和Ant8验证RoCE网卡的连通性和性能指南: https://bbs.huaweicloud.cn/blogs/398212
- 点赞
- 收藏
- 关注作者
评论(0)