选择GPU设备考虑的因素
_梦魇花葬 2014-06-29 02:43:03 在GPU机器中,每个GPU无疑是任何设计中需要考虑的因素。GPU的更新换代大约每12~24个月一次,比CPU端的更新略快。到目前为止,我们已经看到GPU的性能大约每18~24个月增加一倍,完全符合摩尔定律。那么,应该主要考虑GPU的哪些因素呢?首先,我们没有必要一定要使用最新的硬件,使用大致同样的能量预算,每次大的硬件更新都带来加倍的性能。
GPU市场是由游戏玩家推动的,GPU硬件分为两种主要类型:游戏GPU和计算服务器GPU。英伟达推出的Tesla系列的GPU就是针对服务器工作站市场的。这一系列的GPU相比游戏GPU具有如下的优势:
1. 大容量内存的支持。
从GPU上传送和传回数据是缓慢的。最好拥有5GB/s的双向PCI-E总线带宽通向主GPU。GPU的内存越大,可以在GPU存放越多的数据。这可以避免频繁地向GPU传送和传回数据。Tesla卡通常配备4GB~6GB的内存。如果每个CPU与4个GPU相连接,很容易就达到24GB的显存。
2. ECC内存的支持。
ECC内存是在服务器环境中使用的一种特殊类型的内存。在这种环境下,内存很容易出错。普通内存面对大量的电磁干扰,其内存单元很可能改变为随机值。设备周围的电子密度越高,则产生越多的电磁辐射和越高的错误率。每个机架放入多个GPU,而机架又同其它机架并排放置,就可能产生电子噪声。而ECC可以同时检测和纠正内存错误,使得它非常适合服务器类型的环境。
3. 更高精度的数学运算。
由于大多数游戏很少涉及双精度数学运算,因此费米系列卡在每个SM中的两个双精度单元禁掉了一个。因此,标准的GeForce费米卡的双精度性能相当于Tesla同等卡的一般左右。单就单精度浮点运算性能而言,GeForce跟Tesla相当,而且在许多情况下,得益于它更高的时钟频率,可以比Tesla更快。
4. 大内存总线带宽。
Tesla卡,作为最高端的GPU卡,通常全部的SM都是有效的。英伟达对服务器级别的GPU卡收取更多的费用,所以可以按照起作用的SM数目筛选GPU。让所有SM都有效,意味着全部总线带宽都可以用来从GPU卡上的全局内存传输数据。由于内存带宽往往是很多算法唯一的限制因素,因此采用512位带宽对比448位带宽,将带来明显差异。
5. 系统管理中断。
系统管理中断是一个非常有用的功能,它可以通过网络远程查询设备。在一个大的数据中心,可能安装有成千上万的GPU。CPU节点已经存在集中管理的解决方案,加入系统管理中断的支持,可以把集中管理扩展到GPU。
6. 状态指示灯。
Tesla卡的背面有一些指示灯,可以显示卡的状态。除了GeForce295卡之外,所有的标准GeForce卡都不存在指示灯。这些指示灯允许技术人员信步走在这些GPU之间,识别出是失败的GPU。
参考自《CUDA并行程序设计》