选择GPU设备考虑的因素

_梦魇花葬 2014-06-29 02:43:03

加精

在GPU机器中，每个GPU无疑是任何设计中需要考虑的因素。GPU的更新换代大约每12~24个月一次，比CPU端的更新略快。到目前为止，我们已经看到GPU的性能大约每18~24个月增加一倍，完全符合摩尔定律。那么，应该主要考虑GPU的哪些因素呢？首先，我们没有必要一定要使用最新的硬件，使用大致同样的能量预算，每次大的硬件更新都带来加倍的性能。
GPU市场是由游戏玩家推动的，GPU硬件分为两种主要类型：游戏GPU和计算服务器GPU。英伟达推出的Tesla系列的GPU就是针对服务器工作站市场的。这一系列的GPU相比游戏GPU具有如下的优势：

1. 大容量内存的支持。
从GPU上传送和传回数据是缓慢的。最好拥有5GB/s的双向PCI-E总线带宽通向主GPU。GPU的内存越大，可以在GPU存放越多的数据。这可以避免频繁地向GPU传送和传回数据。Tesla卡通常配备4GB~6GB的内存。如果每个CPU与4个GPU相连接，很容易就达到24GB的显存。
2. ECC内存的支持。
ECC内存是在服务器环境中使用的一种特殊类型的内存。在这种环境下，内存很容易出错。普通内存面对大量的电磁干扰，其内存单元很可能改变为随机值。设备周围的电子密度越高，则产生越多的电磁辐射和越高的错误率。每个机架放入多个GPU，而机架又同其它机架并排放置，就可能产生电子噪声。而ECC可以同时检测和纠正内存错误，使得它非常适合服务器类型的环境。
3. 更高精度的数学运算。
由于大多数游戏很少涉及双精度数学运算，因此费米系列卡在每个SM中的两个双精度单元禁掉了一个。因此，标准的GeForce费米卡的双精度性能相当于Tesla同等卡的一般左右。单就单精度浮点运算性能而言，GeForce跟Tesla相当，而且在许多情况下，得益于它更高的时钟频率，可以比Tesla更快。
4. 大内存总线带宽。
Tesla卡，作为最高端的GPU卡，通常全部的SM都是有效的。英伟达对服务器级别的GPU卡收取更多的费用，所以可以按照起作用的SM数目筛选GPU。让所有SM都有效，意味着全部总线带宽都可以用来从GPU卡上的全局内存传输数据。由于内存带宽往往是很多算法唯一的限制因素，因此采用512位带宽对比448位带宽，将带来明显差异。
5. 系统管理中断。
系统管理中断是一个非常有用的功能，它可以通过网络远程查询设备。在一个大的数据中心，可能安装有成千上万的GPU。CPU节点已经存在集中管理的解决方案，加入系统管理中断的支持，可以把集中管理扩展到GPU。
6. 状态指示灯。
Tesla卡的背面有一些指示灯，可以显示卡的状态。除了GeForce295卡之外，所有的标准GeForce卡都不存在指示灯。这些指示灯允许技术人员信步走在这些GPU之间，识别出是失败的GPU。

参考自《CUDA并行程序设计》

...全文