GPU A系列裸金属服务器RoCE性能带宽测试指导

举报
modelarts-dev-server 发表于 2023/05/06 14:23:02 2023/05/06
【摘要】 裸金属服务器RoCE网卡性能测试.

前置条件: A系列裸金属服务器已经安装了IB驱动.

网卡设备名称可以使用ibstatus或者ibstat获取.

华为云裸金属服务器使用ubuntu20.04操作系统默认已经安装IB驱动.

1. ib_write_bw测试RoCE网络带宽

1.1 测试单机网卡间带宽

服务器上打开两个终端窗口进行测试

窗口1: 服务器从mlx5_0网卡接收数据

ib_write_bw -d mlx5_0

窗口2:服务器从mlx5_1网卡向服务器mlx5_0网卡发送数据

ib_write_bw  -d mlx5_1 -F 127.0.0.1 --report_gbits

 执行结果如下:

ROCE单机.PNG

1.2 测试双机单网卡间带宽

服务器A:  服务端从mlx5_0网卡接收数据

ib_write_bw -a -d mlx5_0

服务器B:  客户端向服务端mlx5_0网卡发送数据,-F参数代表服务端IP地址,即服务器A IP

ib_write_bw -a -F 192.168.0.100  -d mlx5_0 --report_gbits

服务器A执行结果:

cke_2751.png

服务器B执行结果:

cke_3546.png

2. nccl-test测试带宽

2.1 测试单机8卡NVLINK网络带宽

测试命令如下,nccl单机8卡测试

/root/nccl-tests/build/all_reduce_perf -b 8 -e 1024M -f 2 -g 8

测试结果如下

1017nccl单机.PNG

2.2 测试双机8卡RoCE网络带宽

双机nccl测试前需要配置机器间免密登录:

#一直yes,生成公钥和私钥
ssh-keygen
#输入另一台机器ip地址及密码,配置免密
ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.1
#测试免密
ssh root@192.168.1.1

配置host文件

#主机私有Ip  单节点进程数
192.168.20.1 slots=1
192.168.20.2 slots=1

执行双机测试命令

mpirun --allow-run-as-root --hostfile hostfile -mca btl_tcp_if_include eth0 -mca btl_openib_allow_ib true -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -x NCCL_ALGO=RING -x NCCL_IB_HCA=^mlx5_bond_0 -x LD_LIBRARY_PATH -x NCCl_IB_QPS_PER_CONNECTION=4 /root/nccl-tests/build/all_reduce_perf -b 8 -e 11g -f 2 -g 8

测试参数参考下图

解释.png

测试命令结果

1017nccl多机.PNG

3. 常用查看命令

show_gids:查看RoCE网卡相关信息

showgids.PNG

ibdev2netdev:查看网卡对应关系及状态

ibdev.PNG

nvidia-smi topo -m: 查看GPU节点内连接关系

topoGPU.PNG

nvidia-smi topo -p2p r: 查看GPU节点间IB通信支持状态


gpuib.PNG

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。