- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧【华为根技术】

Echo_Wish 发表于 2026/01/29 22:15:14 2026/01/29

【摘要】 AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧

AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧

很多人一聊 AI 训练优化，第一反应永远是：

模型是不是太大了？
batch size 要不要再调？
学习率是不是不对？

但你有没有认真想过一个问题：

你跑训练的操作系统，真的“配得上”你的算力吗？

我见过太多团队，
GPU 是 A100，CPU 是鲲鹏，网络是 200G，
结果训练吞吐却像在“踩刹车跑步”。

最后一查：
系统调度、IO、NUMA、文件系统，全是默认配置。

今天这篇，我就专门聊一个经常被忽略、但非常“底层”的话题：

如何用 openEuler，把 AI 训练流程真正跑顺。

一、先说结论：AI 训练慢，80% 卡在“系统层”

先给你一个现实认知：

AI 训练 ≠ 纯算力问题，而是“算 + IO + 调度”的系统工程。

在 openEuler 上，AI 训练流程通常会被这几件事卡住：

数据加载慢
CPU 调度不合理
NUMA 跨节点访问
磁盘 IO 被拖垮
GPU 在等数据，不是在算

好消息是：
这些问题，openEuler 都给你留了“后门”。

二、数据加载是第一杀手，先从 IO 下手

1️⃣ 别再用“默认 ext4 + 默认挂载”硬跑数据集了

训练数据动辄几百 GB，上 TB 的也不少。
openEuler 上我个人非常推荐：

XFS
合理的挂载参数

示例：

mount -t xfs -o noatime,nodiratime /dev/sdb /data

这两个参数的意义很简单：

训练只读数据
没必要频繁更新访问时间

👉 少一次磁盘写，就少一次性能浪费。

2️⃣ 数据集别“散着放”，顺序 IO 才是王道

AI 训练的数据访问模式是：

多线程
顺序读
大文件

如果你数据集是这种结构：

dataset/
 ├── 0001.jpg
 ├── 0002.jpg
 ├── ...

那 IO 放大非常严重。

我更建议在 openEuler 上：

提前打包
或使用 TFRecord / WebDataset

# 示例：顺序读取大文件
with open("train.bin", "rb") as f:
    while chunk := f.read(1024 * 1024):
        process(chunk)

系统层最喜欢“顺序 + 大块 IO”。

三、CPU 调度：别让数据加载拖死 GPU

这是我见过最常见、也最隐蔽的瓶颈。

1️⃣ CPU 核心不绑，性能就会漂

在多卡训练时：

数据加载线程
GPU driver
通信线程

如果被 Linux 调度器随意迁移，
cache 命中率会惨不忍睹。

openEuler 上，建议你：

taskset -c 0-31 python train.py

或者在容器里：

--cpuset-cpus="0-31"

一句话总结：

训练不是靠“抢 CPU”，而是靠“用好 CPU”。

2️⃣ NUMA 不处理，算力直接打折

在鲲鹏 + 多 GPU 的机器上，NUMA 是绕不开的。

你至少要做一件事：

numactl --cpunodebind=0 --membind=0 python train.py

否则你会看到这种现象：

GPU utilization 低
CPU utilization 高
系统 load 看着还挺忙

👉 实际上是在跨 NUMA 拿数据。

四、内存与缓存：openEuler 很“听话”，前提是你要告诉它

1️⃣ 提前预热 Page Cache

如果你的训练数据是固定的，我非常推荐你在训练前：

vmtouch -t /data/train_dataset

这一步的意义是：

把数据预读进内存
避免训练刚开始时疯狂 IO

在大模型训练中，这一步能明显减少前几个 epoch 的抖动。

2️⃣ 合理调大文件句柄和 mmap 限制

ulimit -n 1048576

很多 DataLoader “偶发卡死”，
不是代码问题，是系统资源限制太保守。

五、容器 + openEuler：别把宿主机优势浪费了

很多团队是：

openEuler 裸机
上面跑 Docker / Kubernetes

但默认配置下：

容器并不会“自动继承”你的系统优化。

你需要明确告诉系统：

CPU 绑核
HugePage
IO 调度策略

例如：

docker run \
  --cpuset-cpus="0-31" \
  --memory=128g \
  --shm-size=64g \
  my-train-image

openEuler 对 cgroup 的支持是非常扎实的，
前提是你真的用它。

六、我自己总结的一套 openEuler AI 训练“心法”

不谈标准答案，我说点个人经验。

1️⃣ 训练慢，先别改模型

先看三张图：

iostat
numactl
nvidia-smi

如果 GPU 在等数据，
你模型改得再优雅，都是白搭。

2️⃣ openEuler 的价值，不在“跑得起来”，而在“跑得稳”

很多人只关心：

“能不能跑？”

但真正线上训练关心的是：

10 小时后是否还稳
是否可预测
是否可复现

openEuler 在这方面，真的比很多发行版更“克制”。

3️⃣ AI 工程，本质是系统工程

最后这句话我想送给你：

AI 训练的上限，从来不只由模型决定，而是由系统决定。

你可以不懂内核，
但你不能忽视系统。

写在最后

如果你现在正被这些问题折磨：

GPU 利用率上不去
训练一会快一会慢
换机器结果完全不一样

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧【华为根技术】

AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧

一、先说结论：AI 训练慢，80% 卡在“系统层”

二、数据加载是第一杀手，先从 IO 下手

1️⃣ 别再用“默认 ext4 + 默认挂载”硬跑数据集了

2️⃣ 数据集别“散着放”，顺序 IO 才是王道

三、CPU 调度：别让数据加载拖死 GPU

1️⃣ CPU 核心不绑，性能就会漂

2️⃣ NUMA 不处理，算力直接打折

四、内存与缓存：openEuler 很“听话”，前提是你要告诉它

1️⃣ 提前预热 Page Cache

2️⃣ 合理调大文件句柄和 mmap 限制

五、容器 + openEuler：别把宿主机优势浪费了

六、我自己总结的一套 openEuler AI 训练“心法”

1️⃣ 训练慢，先别改模型

2️⃣ openEuler 的价值，不在“跑得起来”，而在“跑得稳”

3️⃣ AI 工程，本质是系统工程

写在最后

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧【华为根技术】

AI 训练慢，不一定是模型的锅：我在 openEuler 上榨干算力的那些实战技巧

一、先说结论：AI 训练慢，80% 卡在“系统层”

二、数据加载是第一杀手，先从 IO 下手

1️⃣ 别再用“默认 ext4 + 默认挂载”硬跑数据集了

2️⃣ 数据集别“散着放”，顺序 IO 才是王道

三、CPU 调度：别让数据加载拖死 GPU

1️⃣ CPU 核心不绑，性能就会漂

2️⃣ NUMA 不处理，算力直接打折

四、内存与缓存：openEuler 很“听话”，前提是你要告诉它

1️⃣ 提前预热 Page Cache

2️⃣ 合理调大文件句柄和 mmap 限制

五、容器 + openEuler：别把宿主机优势浪费了

六、我自己总结的一套 openEuler AI 训练“心法”

1️⃣ 训练慢，先别改模型

2️⃣ openEuler 的价值，不在“跑得起来”，而在“跑得稳”

3️⃣ AI 工程，本质是系统工程

写在最后

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品