IPP优化为什么速度没有提高
电脑配置如下:intel P4,CPU 3.00GHz,512M
在下面的这样的代码中,使用IPP函数的处理时间反而比C代码的慢,一直找不到原因,希望各位大侠指点,非常感谢!!!
for(i=0; i<288; i+=16)
{
refline=ref+i*392;
srcline=src;
for(int j=0; j<4; j++)
{
L0=L1=L2=L3=0;
#ifdef _IPP_
ippiSAD4x4_8u32s((Ipp8u*)srcline,16,(Ipp8u*)refline,392,&L0,0);
ippiSAD4x4_8u32s((Ipp8u*)srcline+4,16,(Ipp8u*)refline+4,392,&L1,0);
ippiSAD4x4_8u32s((Ipp8u*)srcline+8,16,(Ipp8u*)refline+8,392,&L2,0);
ippiSAD4x4_8u32s((Ipp8u*)srcline+12,16,(Ipp8u*)refline+12,392,&L3,0);
refline += 4*392;
srcline += 4*16;
#else
for (int k = 0; k<4; k++)
{
L0 += abs(*refline++ - *srcline++);
L0 += abs(*refline++ - *srcline++);
L0 += abs(*refline++ - *srcline++);
L0 += abs(*refline++ - *srcline++);
L1 += abs(*refline++ - *srcline++);
L1 += abs(*refline++ - *srcline++);
L1 += abs(*refline++ - *srcline++);
L1 += abs(*refline++ - *srcline++);
L2 += abs(*refline++ - *srcline++);
L2 += abs(*refline++ - *srcline++);
L2 += abs(*refline++ - *srcline++);
L2 += abs(*refline++ - *srcline++);
L3 += abs(*refline++ - *srcline++);
L3 += abs(*refline++ - *srcline++);
L3 += abs(*refline++ - *srcline++);
L3 += abs(*refline++ - *srcline++);
refline += 392-16;
}
#endif
}
}