[转]应付面试系列，GPU与CPU的区别

adagio_chen 2014-09-16 01:49:35

如果去面试GPU相关的职位的话，这个问题几乎肯定会被问到

http://blog.csdn.net/carson2005/article/details/7636136

基本概念：

GPU: Graphic Processing Unit;图形处理单元；

GPGPU: General Purpose computations on GPU；通用计算图形处理单元；

CPU与GPU的相同点：

（1）都是计算机体系结构中的重要组成部分；

（2）都是超大规模集成电路元件；

（3）都能够完成浮点运能功能；

CPU与GPU的不同之处：

（1）GPU的设计目的与CPU不同；CPU的微架构是按照兼顾“指令并行执行”和“数据并行运算”的思路而设计，其大部分晶体管主要用于构建控制电路和Cache，并且其内部有大约%5是ALU，控制电路则更为复杂；二GPU的控制电路则相对简单的对，而且对Cache的需求较小，所以可以把大部分的晶体管都用于计算单元。GPU的40%都是ALU；

（2）延迟不同，CPU的内存延迟是GPU的1/10；

（3）内存带宽不同；GPGPU的内存带宽是CPU的10倍；

（4）GPGPU具有更大的执行单元；

（5）线程轻重程度不同；CPU线程是软件管理的粗粒度重线程，当 CPU 线程被中断或者由于等待资源就绪状态就变为等待状态，操作系统就需要保存当前线程的上下文，并装载另外一个线程的上下文。这种机制使得CPU切换线程的代价十分高昂，通常需要数百个时钟周期。而GPU线程是硬件管理的细粒度轻线程，可以实现零开销的线程切换。当一个线程因为访问片外存储器或者同步指令开始等待以后，可以立即切换到另外一个处于就绪状态的线程，用计算来隐藏延迟，并且线程数目越多，隐藏延迟的效果越好。

（6）CPU属于“多核”，而GPU则属于“众核”；CPU 的每个核心具有取指和调度单元构成的完整前端，因而其核心是多指令流多数据流(Multiple Instruction Multiple Data，MIMD)的，每个 CPU 核心可以在同一时刻执行自己的指令，与其他的核心完全没有关系。但这种设计增加了芯片的面积，限制了单块芯片集成的核心数量。GPU的每个流多处理器才能被看作类似于 CPU 的单个核心，每个流多处理器以单指令流多线程方式工作，只能执行相同的程序。尽管 GPU 运行频率低于CPU，但由于其流处理器数目远远多于 CPU 的核心数，我们称之为“众核”，其单精度浮点处理能力达到了同期 CPU 的十倍之多。

（7）内存与寄存器之间的不同；目前的 CPU 内存控制器一般基于双通道或者三通道技术，每个通道位宽64bit;而GPU则有数个存储器控制单元，这些控制单元具备同时存取数据的能力，从而使得总的存储器位宽达到了 512bit。这个差异导致了GPU全局存储器带宽大约是同期CPU最高内存带宽的5倍；

（8）缓存机制不同；CPU 拥有多级容量较大的缓存来尽量减小访存延迟和节约带宽，但缓存在多线程环境下容易产生失效反应，每次线程切换都需要重建缓存上下文，一次缓存失效的代价是几十到上百个时钟周期。同时，为了实现缓存与内存中数据的一致性，还需要复杂的逻辑控制，CPU 缓存机制导致核心数过多会引起系统性能下降。在GPU 中则没有复杂的缓存体系与一致性机制，GPU 缓存的主要目的是随机访问优化和减轻全局存储器的带宽压力。

综上，GPU 是以大量线程实现面向吞吐量的数据并行计算，适合于处理计算密度高、逻辑分支简单的大规模数据并行负载；而 CPU 则有复杂的控制逻辑和大容量的缓存减小延迟，擅长复杂逻辑运算。

GPU的一些缺点：

1. 显示芯片的运算单元数量很多，因此对于不能高度并行化的工作，所能带来的帮助就不大。

2. 显示芯片目前通常只支持 32 bits 浮点数，且多半不能完全支持 IEEE 754 规格，有些运算的精确度可能较低。目前许多显示芯片并没有分开的整数运算单元，因此整数运算的效率较差。

3. 显示芯片通常不具有分支预测等复杂的流程控制单元，因此对于具有高度分支的程序，效率会比较差。

4. 目前 GPGPU 的程序模型仍不成熟，也还没有公认的标准。例如 NVIDIA 和 AMD/ATI 就有各自不同的程序模型。

最后，需要提醒的是，GPU最近几年的发展势头很凶猛，以至于OpenCV2.4已经开始考虑利用GPU来加速程序的运算了；而大名鼎鼎的NVIDIA公司前段时间也宣布开始和OpenCV进行合作推进计算机视觉算法的GPU加速；

...全文