“但是精简架构本身已经很充分地利用CPU了,这个时候超线程存在的意义不大“
我没有准确的数据来交谈,但越是精简的代码越是有着很强的相关性(RAW)这点我们可以从libc的汇编代码得到验证,这对Tomasulo’s Approach来无法加速,只有monitor CDB bus然后在write back之后再次得到运行,但是这就会浪费执行单元,比如 如下代码: a+b =c ,c+d = e, e +f = g ...,同时在不同的执行单元中运行,我们根本无法 在out of order in Tomasulo’s Approach中看不到她的并行优越性,相反不如在一个执行单元里one bye one 的运行有效率,所以剩下的执行单元可以用来引入另外的线程。我想这是构造者的本意,而且cpu 会花 90%的时间运行10%的代码,也就是待到系统稳定时,10%精简的代码使RAW将会成为瓶颈,所以对于奔腾4架构也引入了trace cache.