ARM平台NEON指令集优化。有段代码不知道怎么优化,求大神帮忙。(附代码)

a198997 2014-09-27 03:33:42
for (y = 0; y < start_y; y++)
{
memcpy(dest, src, w );
dest += linesize;
}

根据SIMD我是想把这个for循环拆掉。这样一个loop就可以操作8次数据。
但是这个for循环里面的mencpy怎么办呢。w是随机的数。它每次循环都会从src地址读w个字节到dest地址中去。可是我的寄存器最大是128位的。如果用neon指令集优化则可能需要多次使用寄存器转移数据,这样时间反而会多的哇、、、(c语言中是把w个数据一次存到dest中的么?还是每次存一个字节?)
大神速度帮我看看这个咋整哇。。。函数里面全是这玩意。。。。。
...全文
252 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

21,458

社区成员

发帖
与我相关
我的任务
社区描述
汇编语言(Assembly Language)是任何一种用于电子计算机、微处理器、微控制器或其他可编程器件的低级语言,亦称为符号语言。
社区管理员
  • 汇编语言
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧