关于SSE优化内存拷贝的问题

肖尧19 2009-08-06 03:11:45

小弟汇编基础比较差，因工作需求需要实现一个内存拷贝优化的函数
自己参考资料写了个(思路比较简单 1次用够8个128bit的寄存器循环移动数据)
各位看看还有没有优化空间

另外主要的问题是根据实际测试结果大于2M的数据循环拷贝1000次大概比memcpy快一倍
但是小于2M的数据块就都比memcpy慢了小块数据是否也有可能优化出比memcpy更佳的性能?
void memcpySSE(void* dest,const void* src,size_t _size)
{

__asm
{
//首先检测src地址是否16byte对齐
mov eax,src;
mov ebx,16;
mov edx,0;
div ebx;
cmp edx,0;
//edx非0则跳转
jnz addr_unaligned;
//采用地址对齐mov指令
//addr_aligned:
//数据块是否按128byte对齐
mov eax,_size;
mov ebx,128;
mov edx,0;
div ebx;

mov esi,src;
mov edi,dest;
aligned_loop:
//数据预取 32byte偏移的寻址添充128byte的CPU CACHE
prefetchnta 128[ESI];
prefetchnta 160[ESI];
prefetchnta 192[ESI];
prefetchnta 224[ESI];

movdqa xmm0,0[ESI];//src to 寄存器
movdqa xmm1,16[ESI];
movdqa xmm2,32[ESI];
movdqa xmm3,48[ESI];
movdqa xmm4,64[ESI];
movdqa xmm5,80[ESI];
movdqa xmm6,96[ESI];
movdqa xmm7,112[ESI];

movntdq 0[EDI],xmm0;//寄存器 to dst
movntdq 16[EDI],xmm1;
movntdq 32[EDI],xmm2;
movntdq 48[EDI],xmm3;
movntdq 64[EDI],xmm4;
movntdq 80[EDI],xmm5;
movntdq 96[EDI],xmm6;
movntdq 112[EDI],xmm7;

add esi,128;
add edi,128;
dec eax;
jnz aligned_loop;
//aligned_loop_end:
//如果edx非0 操作剩余byte
mov ecx,edx;
rep movsb;
jmp memcpy_sse_end;
addr_unaligned:
mov eax,_size;
mov ebx,128;
mov edx,0;
div ebx;

mov esi,src;
mov edi,dest;
unaligned_loop:
prefetchnta 128[ESI];
prefetchnta 160[ESI];
prefetchnta 192[ESI];
prefetchnta 224[ESI];

movdqu xmm0,0[ESI];//src to 寄存器
movdqu xmm1,16[ESI];
movdqu xmm2,32[ESI];
movdqu xmm3,48[ESI];
movdqu xmm4,64[ESI];
movdqu xmm5,80[ESI];
movdqu xmm6,96[ESI];
movdqu xmm7,112[ESI];

movntdq 0[EDI],xmm0;//寄存器 to dst
movntdq 16[EDI],xmm1;
movntdq 32[EDI],xmm2;
movntdq 48[EDI],xmm3;
movntdq 64[EDI],xmm4;
movntdq 80[EDI],xmm5;
movntdq 96[EDI],xmm6;
movntdq 112[EDI],xmm7;

add esi,128;
add edi,128;
dec eax;
jnz unaligned_loop;
//unaligned_loop_end:
mov ecx,edx;
rep movsb;
memcpy_sse_end:
}

}

...全文

701 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

linguranus 2009-10-30

打赏
举报

我写了sun opensolaris libc strlen, strcmp, strcopy
还有moblin libc 的memcpy, memcmp, memset.
我确定这是准确的方法

linguranus 2009-10-28

打赏
举报

1）对于 src, dst 完全 16byte 对奇，对一级cache size >= 2*datasize 的拷贝不要用prefetch 指令，只有当L1 cache size <= 2* data size 的时候使用 prefetcht0 , 但是这个命令会依据不同的架构而跨度不同 AMD和intel 不同的产品都会不同很烦琐需要你去测！
2）对不是 16byte对齐，你需要用和并他们
3）当你的2*data size >= last level cache,请你使用 MOVNTDQ