各位老师同学,为充分利用北航杭研院的GPU服务器资源,我们中心基于微软开源的OpenPAI搭建了深度学习训练平台。
平台利用docker容器打包好常用的训练环境,提交任务时选择合适的容器镜像就可以执行训练任务,无需配置环境。而且,训练任务结束后会自动释放GPU卡,也不会存在GPU卡随意占用情况。
欢迎各位老师同学使用该平台做训练任务。
平台使用手册:https://openpai.readthedocs.io/zh_CN/latest/
平台地址:http://pai.ldmcbuaa.com/
需要注意,目前平台地址只能研究院内部访问,外部访问需要使用VPN。提供的测试账号只能使用集群的cpu资源,有需要使用GPU的老师同学可以联系我(guningbo@buaa.edu.cn)给开通账号。
杭州镜像仓库已经搭建好,各位可以将自己做的镜像放在本地仓库,这样拉取时候会快很多,dockerhub拉取镜像会有次数限制,拉取太过频繁后就会拉取失败,所以建议各位使用本地镜像仓库。
仓库地址:https://harbor.acbot.net/
登录用户可以使用ldmc 密码 LDMCldmc1234
最近使用集群的同学越来越多,为了保证各位提交的任务能够快速响应,我在集群里添加了如下规则,集群中运行任务的平均GPU利用率连续1个小时低于10%,系统则自动停止该任务。各位同学也多学学代码优化的技巧。
nfs存储地址:192.168.131.186:/data
用户名:smbuser
密码:smbpwd