使用华为云SFS盘出现rpc_check_timeout:939 callbacks suppressed原因分析

举报
modelarts-dev-server 发表于 2023/06/16 18:56:23 2023/06/16
【摘要】 使用华为云GPU裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接,并发的读写数据,做大模型训练。 发现读取速度变慢,并且SFS客户端报错"rpc_check_timeout:939 callbacks suppressed".。

0. 问题描述

华为云SFS:  是一种高性能文件存储,可以在裸金属服务器中中通过网络协议挂载使用,支持NFS和CIFS的网络协议。

笔者在使用华为云GPU裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接,并发的读写数据,做大模型训练。 

但有时候发现读取速度变慢,并且SFS客户端报错"rpc_check_timeout:939 callbacks suppressed".  

笔者一度以为是SFS服务端性能不够或者故障,但是经过一系列沟通定位, 并不是这样的。现总结如下。

1. 原因分析

笔者根据SFS客户端日志分析出现问题的时间点发现,sfs盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;
当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核就会打印"rpc_check_timeout:939 callbacks suppressed".日志。这个日志只是说明某个 IO 处理时间超过 1 分钟了,不会造成数据丢失。客户端有重试机制,等峰值过去后,所有 IO 最终都会正确处理。
所以理论上,出现该错误日志, 并不会造成数据丢失, 只是SFS客户端I/O速度变慢或卡顿,但最终会争取处理。

2. 建议方案

1. 结合当前购买的SFS盘性能规划自己的业务, 建议不要跑到性能上限,这样业务体验也不好;

2. 可以多买几个 sfs turbo 实例,分担一下压力, 或者更换超高性能的SFS盘;

3. 建议一个SFS实例容量不要搞太大,同样的成本可以多买几个SFS实例

3. 附SFS不同产品的性能一览图

详情可参考: https://console.huaweicloud.cn/sfs/?locale=zh-cn&region=cn-north-4#/sfs/createturbo

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。