ARM平台NEON指令集优化。有段代码不知道怎么优化,求大神帮忙。(附代码)
for (y = 0; y < start_y; y++)
{
memcpy(dest, src, w );
dest += linesize;
}
根据SIMD我是想把这个for循环拆掉。这样一个loop就可以操作8次数据。
但是这个for循环里面的mencpy怎么办呢。w是随机的数。它每次循环都会从src地址读w个字节到dest地址中去。可是我的寄存器最大是128位的。如果用neon指令集优化则可能需要多次使用寄存器转移数据,这样时间反而会多的哇、、、(c语言中是把w个数据一次存到dest中的么?还是每次存一个字节?)
大神速度帮我看看这个咋整哇。。。函数里面全是这玩意。。。。。