[转]并行计算简介和多核CPU编程Demo
2006年是双核的普及年,双核处理器出货量开始超过单核处理器出货量;2006年的11月份Intel开始供货4核;AMD今年也将发布4核,并计划今年下半年发布8核;
按照Intel一个文档所说:"假定22纳米处理时帧上有一枚13毫米大小的处理器,其上有40亿个晶体管、48MB高速缓存,功耗为100W。利用如此数量的晶体管,我们可设计拥有12个较大内核、48个(多核)中型内核、或144个小型内核(许多个内核)的处理器。"
而且Intel已经开发完成了一款80核心处理器原型,速度达到每秒一万亿次浮点运算。
随着个人多核CPU的普及,充分利用多核CPU的性能优势摆在了众多开发人员的面前;
以前的CPU升级,很多时候软件性能都能够自动地获得相应提升,而面对多核CPU,免费的午餐没有了,开发人员必须手工的完成软件的并行化,以从爆炸性增长的CPU性能中获益;
(ps:我想,以后的CPU很可能会集成一些专门用途的核(很可能设计成比较通用的模式),比如GPU的核、图象处理的核、向量运算的核、加解密编解码的核、FFT计算的核、物理计算的核、神经网络计算的核等等:D )
先来看一下单个CPU上的并行计算:
单CPU上常见的并行计算:多级流水线(提高CPU频率的利器)、超标量执行(多条流水线并同时发送多条指令)、乱序执行(指令重排)、单指令流多数据流SIMD、超长指令字处理器(依赖于编译器分析)等
并行计算简介
并行平台的通信模型: 共享数据(POSIX、windows线程、OpenMP)、消息交换(MPI、PVM)
并行算法模型: 数据并行模型、任务依赖图模型、工作池模型、管理者-工作者模型、消费者模型
对于并行计算一个任务可能涉及到的问题: 任务分解、任务依赖关系、任务粒度分配、并发度、任务交互
并行算法性能的常见度量值: 并行开销、加速比、效率(加速比/CPU数)、成本(并行运行时间*CPU数)
一个简单的多核计算Demo
演示中主要完成的工作是:(工作本身没有什么意义 主要是消耗一些时间来代表需要做的工作)
代码:
double Sum0(double* data,long data_count)
{
double result=0;
for (long i=0;i<data_count;++i)
{
data[i]=sqrt(1-(data[i]*data[i]));
result+=data[i];
}
return result;
}
然后用OpenMP工具(vc和icc编译器支持)(函数SumOpenMP)和一个自己手工写的线程工具来并行化该函数(函数SumWTP),并求出加速比;
(在多核CPU上执行Demo才可以看到多CPU并行的优势)
OpenMP是基于编译器命令的并行编程标准,使用的共享数据模型,现在可以用在C/C++、Fortan中;OpenMP命令提供了对并发、同步、数据读写的支持;
//我测试用的编译器vc2005
//需要在项目属性中打开多线程和OpenMP支持
//TestWTP.cpp
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <vector>
#include <math.h>
#define _IS_TEST_OpenMP
//要测试OpenMP需要编译器支持OpenMP,并在编译设置里面启用OpenMP
#ifdef _IS_TEST_OpenMP
#include <omp.h>
#endif
//使用CWorkThreadPool在多个CPU上完成计算的简单Demo
#include "WorkThreadPool.h"
double Sum0(double* data,long data_count); //单线程执行
double SumWTP(double* data,long data_count); //根据CPU数动态多线程并行执行
#ifdef _IS_TEST_OpenMP
double SumOpenMP(double* data,long data_count); //使用OpenMP来并行执行
#endif
const long g_data_count=200000;
double g_data[g_data_count];
int main()
{
long i;
double start0, start1, start2;
const long test_count=200*2;
double sumresult;
//inti
for (i=0;i<g_data_count;++i)
g_data[i]=rand()*(1.0/RAND_MAX);
//
start0=(double)clock();
sumresult=0;
for( i=0; i<test_count; i++ )
{
sumresult+=Sum0(g_data,g_data_count);
}
start0=((double)clock()-start0)/CLOCKS_PER_SEC;
printf ("<Single thread> ");
printf (" result = %10.7f ",sumresult);
printf (" Seconds = %10.7f ",start0 );
#ifdef _IS_TEST_OpenMP
start1=clock();
sumresult=0;
for( i=0; i<test_count; i++ )
{
sumresult+=SumOpenMP(g_data,g_data_count);
}
start1=((double)clock()-start1)/CLOCKS_PER_SEC;
printf (" <OpenMP> ");
printf (" result = %10.7f ",sumresult);
printf (" Seconds = %10.7f ",start1);
printf (" ");
printf ("%10.7f/%10.7f = %2.4f ",start0,start1,start0/start1);
#endif
//
start2=clock();
sumresult=0;
for( i=0; i<test_count; i++ )
{
sumresult+=SumWTP(g_data,g_data_count);
}
start2=((double)clock()-start2)/CLOCKS_PER_SEC;
printf (" <CWorkThreadPool with %d thread> ",CWorkThreadPool::best_work_count());
printf (" result = %10.7f ",sumresult);
printf (" Seconds = %10.7f ",start2);
printf (" ");
printf ("%10.7f/%10.7f = %2.4f ",start0,start2,start0/start2);
printf (" --------- ok ! ---------");
getchar();
return 0;
}
double Sum0(double* data,long data_count)
{
double result=0;
for (long i=0;i<data_count;++i)
{
data[i]=sqrt(1-(data[i]*data[i]));
result+=data[i];
}
return result;
}
#ifdef _IS_TEST_OpenMP
double SumOpenMP(double* data,long data_count)
{
double result=0;
#pragma omp parallel for schedule(static) reduction(+: result)
for (long i=0;i<data_count;++i)
{
data[i]=sqrt(1-(data[i]*data[i]));
result+=data[i];
}
return result;
}
#endif
struct TWorkData
{
long ibegin;
long iend;
double* data;
double result;
};
void sum_callback(TWorkData* wd)
{
wd->result=Sum0( &wd->data[wd->ibegin],(wd->iend-wd->ibegin) );
}
double SumWTP(double* data,long data_count)
{
static long work_count=CWorkThreadPool::best_work_count();
static std::vector<TWorkData> work_list(work_count);
static std::vector<TWorkData*> pwork_list(work_count);
long i;
static bool IS_inti=false;
if (!IS_inti)//分配任务
{
for (i=0;i<work_count;++i)
{
work_list[i].data=data;
if (0==i) work_list[i].ibegin=0;
else work_list[i].ibegin=work_list[i-1].iend;
work_list[i].iend=data_count*(i+1)/work_count;
}
for (i=0;i<work_count;++i)
pwork_list[i]=&work_list[i];
IS_inti=true;
}
//执行任务
CWorkThreadPool::work_execute((TThreadCallBack)sum_callback,(void**)&pwork_list[0],pwork_list.size());
double result=0;
for (i=0;i<work_count;++i)
result+=work_list[i].result;
return result;
}