【MindSpore第七期两日集群营】使用Dataflow Fragment进行可扩展分布式训练

举报
张辉 发表于 2022/09/24 18:01:54 2022/09/24
【摘要】 MindSpore第七期两日集群营

打开 https://gitee.com/mindspore/reinforcement/tree/master/example/dqn

MindSpore Reinforcement 是MindSpore提供的强化学习框架,它把强化学习算法转换为一系列编译好的计算图,然后使用MindSpore框架在CPU、GPU或者昇腾芯片上高效运行。

MindSpore_RL_Architecture

要实现MindSpore Reinforcement的强化学习训练,需要先安装MindSpore,然后再安装MindSpore Reinforcement。他们之间的版本依赖有以下的关系:

当然,这次我们暂时不考虑自己去安装这些内容,而是利用MindSpore的羲和完成“运行强化学习DQN算法”的任务

打开 https://xihe.mindspore.cn/projects/VectorSL/MSRL_openday

cke_905.png

点击fork :

cke_1801.png

点击确定。

cke_3067.png

点击 训练-训练列表:

cke_4206.png

点击创建训练实例:

加载 train/config.json文件:

cke_6609.png

修改参数:500个episodes,训练中的eval间隔改为20一次

试试手工修改 https://xihe.mindspore.cn/projects/zhanghui_china/MSRL_openday/blob/train/trainDir/train.py

将原来的650改为500:

cke_11584.png

点击确认,保存:

cke_13612.png

修改该文件,将eval从10改为20

cke_14674.png

按确定后保存。

回到前面创建训练作业的窗口,点击创建。

cke_16777.png

系统会显示训练列表:此时可以看到训练已经开始了~~~

cke_17420.png

点击job名称 zhanghui_china-DQN,查看训练详情:

cke_20110.png

耐心等待,左边的日志会时不时的闪动,更新训练的进度:

cke_20582.png

cke_161.png

cke_510.png

cke_802.png

显示以上内容,就表示训练完毕了!

返回训练列表:

cke_1739.png

状态为Completed。

可见使用羲和,可以完全屏蔽掉安装的过程,仅需要fork项目后,调整适当的参数即可完成相关的强化学习算法的训练,真的是简单的爸爸和简单的妈妈为啥子做了一桌子菜——简单到家了。

朋友们,你们赶紧来试一试吧!

(全文完,谢谢阅读)

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。