GPU A系列裸金属服务器RoCE性能带宽测试指导
【摘要】 裸金属服务器RoCE网卡性能测试.
前置条件: A系列裸金属服务器已经安装了IB驱动.
网卡设备名称可以使用ibstatus或者ibstat获取.
华为云裸金属服务器使用ubuntu20.04操作系统默认已经安装IB驱动.
1. ib_write_bw测试RoCE网络带宽
1.1 测试单机网卡间带宽
服务器上打开两个终端窗口进行测试
窗口1: 服务器从mlx5_0网卡接收数据
ib_write_bw -d mlx5_0
窗口2:服务器从mlx5_1网卡向服务器mlx5_0网卡发送数据
ib_write_bw -d mlx5_1 -F 127.0.0.1 --report_gbits
执行结果如下:
1.2 测试双机单网卡间带宽
服务器A: 服务端从mlx5_0网卡接收数据
ib_write_bw -a -d mlx5_0
服务器B: 客户端向服务端mlx5_0网卡发送数据,-F参数代表服务端IP地址,即服务器A IP
ib_write_bw -a -F 192.168.0.100 -d mlx5_0 --report_gbits
服务器A执行结果:
服务器B执行结果:
2. nccl-test测试带宽
2.1 测试单机8卡NVLINK网络带宽
测试命令如下,nccl单机8卡测试
/root/nccl-tests/build/all_reduce_perf -b 8 -e 1024M -f 2 -g 8
测试结果如下
2.2 测试双机8卡RoCE网络带宽
双机nccl测试前需要配置机器间免密登录:
#一直yes,生成公钥和私钥
ssh-keygen
#输入另一台机器ip地址及密码,配置免密
ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.1.1
#测试免密
ssh root@192.168.1.1
配置host文件
#主机私有Ip 单节点进程数
192.168.20.1 slots=1
192.168.20.2 slots=1
执行双机测试命令
mpirun --allow-run-as-root --hostfile hostfile -mca btl_tcp_if_include eth0 -mca btl_openib_allow_ib true -x NCCL_DEBUG=INFO -x NCCL_IB_GID_INDEX=3 -x NCCL_IB_TC=128 -x NCCL_ALGO=RING -x NCCL_IB_HCA=^mlx5_bond_0 -x LD_LIBRARY_PATH -x NCCl_IB_QPS_PER_CONNECTION=4 /root/nccl-tests/build/all_reduce_perf -b 8 -e 11g -f 2 -g 8
测试参数参考下图
测试命令结果
3. 常用查看命令
show_gids:查看RoCE网卡相关信息
ibdev2netdev:查看网卡对应关系及状态
nvidia-smi topo -m: 查看GPU节点内连接关系
nvidia-smi topo -p2p r: 查看GPU节点间IB通信支持状态
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)