353
社区成员
众所周知,深度学习里模型的训练非常需要GPU显卡资源,目前 GPU 云服务器市场,有免费的,也有付费的。
免费的诸如Colab、毕昇、九天,但是Colab对使用有限制,非常容易断线封号,毕昇需要算力豆而且算力豆的获取越来越少,九天则是在不久前停止了新人300小时白嫖福利(估计玩不起了)。而付费的平台,一般是按小时计费,以 NVIDIA Tesla T4 为例,我查找了目前某源云、某池云、智某云、某里云的收费分别为3~6元每小时,包月的话是2000+每月,而更高级的V100更是贵的要死,训练一个模型就大概花费上千,这让人捉襟见肘。
最近有个腾讯云年末的GPU服务器的活动,挺划算的,分享给诸位:
本来腾讯云的GPU云服务器也是非常贵的,无论是按时还是按月租都是比较大的花销,不过最近出了个年末活动,活动链接:腾讯云GPU实验室活动
活动一:30块钱15天的T4显卡(16G)、60块钱15天的V100显卡(32G)、70块钱15天的V100显卡高配版(32G+内存40G+10核),
提示:
如果是短期实验可以买这个,15天内赶紧做完,到期前一定要记得把模型下载到本机;
如果是长期实验,建议你直接买下面的那款包月服务,因为这个体验套餐续费是优惠很低的(3000元/月);
这个秒杀活动十二月每天都有,上午十点到十一点容易买到,个人觉得优先抢第一款的T4,次优先抢第二款的V100;如果第一款第二款被抢完了,还可以点击链接:腾讯云秒杀活动-秒杀专区右边两个也可以抢到;
活动二:120块钱一个月的T4显卡,220块钱一个月的V100显卡,240块钱一个月的V100显卡高配版,(最多可订6个月的)
提示:如果你的模型对显存要求低于15GB,购买第三款T4,如果高于15GB,购买第一或第二款;(个人觉得第二款性价比最高)
近几个月有大量实验需求,建议购买3个月或者6个月;
可以几个人买了一起用。
在比较了多家GPU深度学习平台后,我发现这次的活动是非常划算的,大家也可以网上看一下对比多家,这确实是我见到目前最低的GPU核时购买方案,提供的配置有三种,我整理了一份表格如下:
型号 |
GPU |
显存 |
CPU核数 |
内存 |
内网带宽 |
体验版价格(15天) |
包月价格 |
GN7 |
T4 |
16G |
8 |
32 |
3Gps |
2.00元/天 |
120元/月 |
GN10X |
V100 |
32G |
10 |
32 |
3Gps |
4.00元/天 |
220元/月 |
GN10Xp |
V100 |
32G |
10 |
40 |
3Gps |
4.66元/天 |
240元/月 |
要注意的是,一个平台拥有的GPU服务器数量总是有限的,如果卖完了,活动估计就提前结束了,或者就得等别人租期到了之后才会继续推出。
我们进入页面后可以看到,体验套餐限时秒杀活动第一个T4是8核16GB显存(一定要注意,活动页面写的32G指的是内存,如果你的实验需要15GB+的显存,T4是跑不起来的),第二个V100是8核32GB显存,第三个V100也是32GB显存,不过CPU核心有10个,硬盘速度也快一点,每个时段的量都不多,需要抢,我的模型不大所以我以T4来展示
这里选择地域(选新加坡优先),预装镜像(一般Pytorch1.9,TF同学可以选择TensoFlow),其他选择默认,数据盘可以先不选,系统初始有100G的空间。
购买成功后,进入控制台=>云服务器=>实例,可以看到我们的服务器创建成功,时长为半个月,然后也给了ip地址供我们平台外连接使用。
我们点击右端登录,即可在浏览器内直接打开web shell登录页面,输入账号密码(站内信里会告诉你)即可登录服务器:
进入终端后,我们直接使用一个nvidia-smi查看,确实是T4显卡的配置,显存15109MB,足以跑起来大多数实验:
我的朋友购买了第三个选项,也确实验证是V100显卡32GB显存:
有了足量的显卡资源,就可以进行实验了!
腾讯云仅仅为我们提供了终端页面,体验起来不如九天毕昇,但是既然给了我们ip地址和密码,我们就可以通过各种工具(MobaXterm、堡塔、PuTTY、Xshell、Pycharm工具等等)连接到服务器。
我比较习惯于使用MobaXterm,首先点击左上角的new session:
新建一个SSH连接,如果需要大量传文件可以新建一个FTP连接:
Remote Host填服务器的IP地址,然后点击ok,进入终端后,输入用户名和密码(也就是站内信发给你的那个),就可以连接上服务器啦,如下可以看到服务器的文件目录和终端:
我们使用conda env list,可以看到系统已经有一个名为base的虚拟环境,输入conda list可以看到base环境为我们预装了torch1.9和torchvision0.10.0,不用再费劲装Pytorch的基础环境了。
有了这些,我们后续可以选择在此环境上进行实验,也可以新建虚拟环境,然后导入代码和数据集训练,这里就不再赘述。
在终端输入:wget -O install.sh
http://download.bt.cn/install/install-ubuntu_6.0.sh
&& sudo bash install.sh ed8484bec
输入Y,确认安装宝塔,等待片刻,显示这样就是成功了!
本机可以访问外网地址,然后输入当前给的username和password就可以成功登陆到宝塔面板了:
使用宝塔,测试一下文件的上传和下载速度:
上传了bird数据集,上传速度为1.40+MB/s,Bird数据集在主要是我本机的上行网速和硬盘读取速度不够,估计你们还能更高(一般可能3MB/s+),实测在18分钟内上传完毕。
右键点击就可以进行下载,在下载时可以自动调浏览器下载器或者迅雷下载,下载速率1.1+MB/s,同样受本机的网速和服务器的带宽影响。
接着测试了各种Python包
的下载速度,通过清华镜像源
下载的网速基本保持在 5MB/s
左右,使用起来比九天毕昇要流畅许多。
使用过程中可以在评论区留言,我会在此回答...
Q1:提示 NoWritableEnvsDirError: No writeable envs directories configured
A1:sudo
chmod
a+w .conda
Q2:宝塔页面打不开,显示404.
A2:检查是否打开了8888、888、443等端口,如果已经打开了还是显示404,重启机器就好了。