INTEL平台上的memcpy优化

编码人V1 2006-01-26 11:12:09

平台为PXA27x系列，用了一下IPP的拷贝函数，发现速度比直接用memcpy快不了多少，反汇编看了一下这个函数，没有用到INTEL自由的WMMX汇编指令。请问有什么函数能充分利用INTEL平台的特性进行拷贝吗？如果我用SIMD指令（WMMX指令）写一个汇编的拷贝函数，速度会快多少？

...全文

308 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

ztedxj 2006-02-14

打赏
举报

回复

有和pxa27x配合的vtune

编码人V1 2006-01-26

打赏
举报

回复

vtune可以用在嵌入式上面吗？

醉马不肖 2006-01-26

打赏
举报

回复

你可以vtune侧一下

编码人V1 2006-01-26

打赏
举报

回复

大家都放假回家了？

在测试机上（Intel(R) Xeon(R) CPU E5405 @ 2.00GHz），我们发现每秒可以执行约500M的memcpy操作，这意味着对于1Gbps的网络带宽，单线程处理网络I/O工作线程时，开2个线程已经足够。考虑到消息解析等其他损耗，3个...

AVX是Intel在SSE的基础上推出的一种更强大的并行计算技术，它提供了256位的数据处理能力，相比SSE的128位有了显著提升。AVX通过增加更多的寄存器和指令，使得处理器可以一次性处理更多数据，从而极大地提高了计算...

CUDA由NVIDIA公司推出，主要用于其GPU（图形处理器）的编程，而OpenCL则是一个开放标准，适用于多种硬件平台，包括AMD、Intel和NVIDIA的GPU，以及CPU和其他加速器。本文将重点讨论标题为"swan-10-03-12.tar.gz_...

注意，这个例子使用了未对齐访问，因此可能在某些平台上产生性能损失。在实际应用中，应确保数据的对齐以获取最佳性能。此外，为了充分利用多核CPU，可以考虑使用线程并行化技术，如OpenMP，将大块内存分割成多个...

另一方面，OpenCL是一个开放标准，支持多种硬件平台的并行计算，包括AMD、Intel和NVIDIA的GPU。OpenCL提供了C-like的语言，用于编写设备端代码，并且有丰富的库和工具支持跨平台开发。 "www.pudn.com.txt"可能是一...

21,499

社区成员

41,617

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章