高纯度云原生 AI!Volcano在KubeCon China 2024的技术分享

举报
云容器大未来 发表于 2024/08/19 09:31:32 2024/08/19
【摘要】 8 月 21 日至 23 日,深度探讨云原生 AI技术与应用!

8 月 21 日至 23 日,由云原生计算基金会(CNCF)和 Linux 基金会联合主办的KubeCon + CloudNativeCon + Open Source Summit + Al_dev China 2024 大会将在中国香港隆重举行。作为三大重量级会议组成的综合盛会,本届大会汇集全球顶尖开发者、行业领袖和技术专家,共同探讨云原生、开源及 AI 等领域的最新进展、核心技术及最佳实践。

Linux 基金会执行董事 Jim Zemlin、Linux 与 Git 的创始人 Linus Torvalds、CNCF 首席技术官 Chris Aniszczyk、CNCF 执行董事 Priyanka Sharma、LF AI & Data 基金会执行董事 Ibrahim Haddad、Linux 基金会研究员 Greg Kroah-Hartman 等 200 多位国际演讲嘉宾将亲临现场,分享各自领域的深刻见解和宝贵经验。

Volcano云原生批量计算社区将在本届大会上带来多个技术演讲、圆桌分享等精彩议程。Volcano 是业界首个云原生批量计算引擎,项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到广泛应用,完成对 Spark、Flink、Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、Mxnet、KubeGene、Ray 等众多主流计算框架的支持,并构建起完善的上下游生态。社区生产环境落地用户超过50+,吸引了900+全球TOP级企业贡献者。

聚焦云原生与AI的参会者们,和这么高纯度“云原生AI”属性的Volcano来一场淋漓尽致的现场探讨准没错!Volcano社区技术专家在本届大会上的精彩分享如下:

volcano kube.png


利用拓扑建模和拓扑感知调度加速LLM训练

演讲嘉宾:

William Wang, Huawei

时间:

2024年8月21日 下午 16:25 - 17:00

地点:

Level 1 | Hung Hom Room 7

议题简介:

在LLM训练和推断时代,瓶颈已经从计算转变为网络。许多高吞吐量和低延迟的互连技术被广泛使用,例如nvlink、nvswitch用于构建超级计算机,如nvidia超级Pod、谷歌多片、AWS放置组。 然而,Kubernetes尚未有效地解决拓扑意识问题,导致在资源配置不佳时性能较低。 本次演讲将探讨节点间通信和节点内部资源的互连。还将分析这两个拓扑因素如何影响AI工作负载的运行性能,特别是对于大型语言模型训练。

演讲内容包括:

  • 如何对底层资源(如NUMA、机架、超级计算机)建模拓扑

  • 如何使调度程序意识到拓扑并进行最佳调度

  • 如何协调拓扑感知调度与节点上的DRA


如何让 Volcano 激活下一波智能应用

演讲嘉宾:

Xuzheng Chang, Huawei

时间:

2024年8月22日 上午 11:50 - 12:25

地点:

Level 1 | Hung Hom Room 6

议题简介:

根据Gartner的预测,到2026年将有30%的新应用程序将使用人工智能技术。然而,人工智能应用的普及也面临挑战。 本次讲座将介绍这些挑战、解决方案,并展示如何利用Volcano实现智能应用。 Volcano是一个云原生批处理平台,也是CNCF的第一个容器批处理计算项目。它通过提供以下功能来优化人工智能和大数据:

  • 作业的全生命周期管理

  • 批处理工作负载的调度策略 - 支持异构硬件

  • 高性能工作负载的性能优化

今年,Volcano的贡献者取得了巨大进展,帮助用户解决智能应用的挑战。许多新功能正在开发中,以加速GPU/Ascend NPU训练效率,优化大规模集群的资源利用率,并提供细粒度调度。


Kubernetes调度社区碎片化现状及如何应对AI/ML工作负载带来的挑战

演讲嘉宾:

William Wang, Huawei

Kante Yin & QiuPing Dai, DaoCloud

Ren, Bytedance

Wang Jianyu, Alibaba

时间:

2024年8月22日 下午 14:40 - 15:15

地点:

Level 1 | Hung Hom Room 1

议题简介:

调度器是Kubernetes中最经常定制的组件之一,这归功于其可扩展性。然而,过多的调度器会导致用户决策瘫痪,这在过去的KubeCon中已经被广泛讨论过。为了帮助减轻用户的困惑,我们邀请了来自各个社区(Godel-Scheduler、Koordinator、Kubernetes SIG-Scheduling和Volcano)的四位维护者来介绍这些项目背后的背景和用例。 此外,本小组讨论将探讨上游Kubernetes和下游项目之间的差距,并尝试提炼出可以推送到上游的常见模式或功能,以避免重新实现轮子,以及什么应该保持松散定义以保留可扩展性。 此外,随着人工智能的兴起,在Kubernetes中调度AI工作负载面临着重大挑战,本小组讨论将探讨我们目前的状况以及我们未来的发展方向,以及合作的机会。


通过Volcano增强的智能基础设施优化LLM工作流程

演讲嘉宾:

Xuzheng Chang, Huawei

Xin Li, qihoo360

时间:

2024年8月23日 下午 10:35 - 11:10

地点:

Level 1 | Hung Hom Room 2

议题简介:

随着大型语言模型(LLMs)革新我们生活的各个方面,许多公司构建他们的云原生人工智能平台来训练和微调LLM。然而,管理大规模LLM训练和推理平台面临更为关键的挑战,如训练效率、容错性、资源碎片化、运营成本和机架和超级节点上的拓扑感知调度。在这场演讲上,演讲者将分享他们在使用基于Kubernetes的智能基础设施(由Volcano增强)管理数千个GPU并处理qihoo360中涉及数千个LLM训练和推理作业的月度工作负载的经验。本次演讲将涵盖:故障检测、快速作业恢复和自愈大幅提高效率。处理异构GPU上LLM训练的长时间停机。智能GPU工作负载调度以减少资源碎片化和成本。机架/超级节点上的拓扑感知调度以加速LLM训练。



小助手.jpg

扫码添加社区小助手

回复Volcano进交流群

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。