[昇腾]Atlas800(鲲鹏920+昇腾Snt9处理器)训练服务器硬件指南
1. Atlas 800训练服务器三维视图
Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+昇腾Snt9处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模型开发和AI训练服务场景。
硬件三维视图请阅: https://info.support.huawei.cn/computing/server3D/res/server/atlas8009000Liquid/index.html?lang=cn
2. Atlas 800训练服务器 HCCN Tool
本文档主要描述集群网络工具hccn_tool对外接口说明书,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。
https://support.huawei.cn/enterprise/zh/doc/EDOC1100251951
3. Atlas 800训练服务器备件查询助手
本文档可以帮助你查询服务器的所有部件、规格描述,数量等详细信息; 结合第一章节的三维视图,能够让你全面了解Atlas800.
https://info.support.huawei.cn/computing/spareparts/#/spareparts
打开后请输入SN编码(该服务器的某编码): 2102313LNR10P5100077 , 若失效可以提工单至华为云ModelArts查询.
4. 附Atlas 800训练服务器的网卡配置问题
问题1: 机头网卡配置是什么?
(1) 四个 2*100GE网卡,是RoCE网卡,插在NPU板;
(2) 一个 4*25GE/10GE, 是Hi1822网卡,插在主板上的;
问题2: ifconfig能看到的网卡信息详解
(1) 能看到主板上的网卡信息,也就是VPC分配的私有IP;
(2) 如若要看RoCE网卡的命令需要执行hccn_tools命令查看;参考第二节给的链接详情;
问题3: NPU上的网卡在哪里可以看到, 会健康检查吗?
回答: 8*NPU的网卡就是机头上配置的四个2*100GE网卡; 华为云有网卡健康状态监控机制;
- 点赞
- 收藏
- 关注作者
评论(0)