达芬奇DSP算法很慢的问题

超龄编码人 2010-06-06 09:45:15
问题是这样,我用videnc_copy修改,加入我的放大算法代码,在process里面要用到width height pitch等值,
要传参数,我把这些变量放到process里面声明称局部变量并赋初值,程序就跑的很快(20ms),但是我把这几个变量
复制到process的外面(全局变量并赋初值),程序就跑的很慢了(170ms)。
请教是什么原因
...全文
301 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
超龄编码人 2010-06-14
  • 打赏
  • 举报
回复
我的理解是基于这样一个事实,TI的这个dsp可以达到8级流水线,也就是说在一个周期可以并行处理八个指令,如果最优的流程就是每个循环次数里面可以可以执行八个指令,包括上一个循环的后续指令和下一个循环的取指译码等指令,这样的话道下一个循环就不用译码了直接可以执行还可以在取下下一条指令。这样就相当效率提高了8倍。而最差的就是一个周期做一件事情,
brookmill 2010-06-09
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 disikj 的回复:]
问题还没有解决,不过根据我这几天来的实验来分析,估计问题是这样,
编译器如果发现循环中用的变量是确定的值,那么在编译的时候循环的次数已经确定了那么会生成确定的执行流程,编译器可以编译成最优的效果,但是如果在循环中有些变量的值不确定,编译器也就不知道循环要执行多少次和其他一些信息,所以只能编译成保守的执行流程,这样就慢了,
[/Quote]
这个我只能同意一部分。
如果只是根据确定的循环次数来做优化,会有一些效果,但是我想不会有那么明显,特别是循环次数很多的情况下。
对于 for(i=0; i<width; i++)
我觉得效果来自于这个比较i<width
如果width是全局变量或者栈上的局部变量,那这里就需要访问内存,结果降低效率。
如果width是保存在寄存器的局部变量,就就快多了。
如果编译器发现width是确定值而把它优化成立即数,那也会很快。不过我不太确定有没有这种优化。
超龄编码人 2010-06-09
  • 打赏
  • 举报
回复
问题还没有解决,不过根据我这几天来的实验来分析,估计问题是这样,
编译器如果发现循环中用的变量是确定的值,那么在编译的时候循环的次数已经确定了那么会生成确定的执行流程,编译器可以编译成最优的效果,但是如果在循环中有些变量的值不确定,编译器也就不知道循环要执行多少次和其他一些信息,所以只能编译成保守的执行流程,这样就慢了,

Peasant_Lee 2010-06-06
  • 打赏
  • 举报
回复
存储地方不一样,全局变量一般都在静态存储区,局部的话,栈和寄存器都有可能,他们的读取时间有区别的。。差别这么大,可能是楼主经常用到那三个变量。积少成多。。。。
brookmill 2010-06-06
  • 打赏
  • 举报
回复
局部变量和函数参数都可能会保存在寄存器里,而全局变量就不行。
brookmill 2010-06-06
  • 打赏
  • 举报
回复
比如arm的ATPCS标准,r4到r11这么多寄存器都可以用来保存局部变量
brookmill 2010-06-06
  • 打赏
  • 举报
回复
编译器优化?楼主看看汇编代码吧。
某些平台的编译器可能会用寄存器来保存局部变量,就会比较快。不知道会不会差这么多,20到170差太多了。
楼主用的什么系统?
ywc86196225 2010-06-06
  • 打赏
  • 举报
回复
应该是你的编译器问题把
shine487 2010-06-06
  • 打赏
  • 举报
回复
学习了

21,597

社区成员

发帖
与我相关
我的任务
社区描述
硬件/嵌入开发 驱动开发/核心开发
社区管理员
  • 驱动开发/核心开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧