英特尔:45nm工艺Penryn处理器性能首测
milex 2007-08-30 09:58:18 年底的时候,处理器的竞争将再次掀起高潮,AMD将拿出期待已久的代号K10的Phenom处理器,而英特尔则会拿出第一款45nm工艺的桌面处理器--Penryn。其实Penryn的处理器开发一直非常顺利,从英特尔拿出45nm的工艺之后,Penryn就一直在进行样品的相关开发。今年年初英特尔宣布45nm工艺的时候Penryn的第一版样品已经完成,而经过那么长时间的开发之后,Penryn已经日趋成熟,目前已经实现了最终测试版,也就是英特尔其实已经拥有生产Penryn的能力,不过由于缺乏竞争对手,英特尔暂时并不打算去提前发布这种处理器。
英特尔Penryn处理器引入45nm工艺,而明年的Nehalem则会引入新的架构
其实相对目前的Conroe处理器,Penryn并没有进行太大的改进,其主要的改进还是来自工艺上的,而这也正好符合英特尔目前新的开发计划,即一年更新一次架构,一年更新一次工艺,英特尔在2005年率先引入65nm工艺的处理器,2006年发布新的Core架构处理器,而现在的2007年,英特尔则会启用新的45nm工艺,其实说到45nm工艺,这是英特尔非常值得骄傲的事,因为这是英特尔工艺过渡最流畅的一次,甚至比当年从90nm过渡到45nm还要顺利,其次45nm工艺的实现为英特尔打下了新一代半导体技术的坚实基础,诸如High-K等技术的引入,让半导体工艺进行了新的飞跃。
英特尔认为,新的45nm工艺要比目前的65nm工艺有着如下的优势:
1.相比目前的65nm工艺,英特尔的新45nm工艺中晶体管密度提升2倍以上,从而使得芯片体积更小,或者说单位面积可以容纳更多的晶体管。
2.相比目前的65nm工艺,英特尔的新45nm工艺中晶体管切换功率将降低30%以上。
3.相比目前的65nm工艺,英特尔的新45nm工艺中晶体管切换速度提升20%以上。
4.相比目前的65nm工艺,英特尔的新45nm工艺中源级-漏级漏电功率降低了5倍以上
5.相比目前的65nm工艺,英特尔的新45nm工艺中栅极氧化物漏电功率降低10倍以上。
当然我们现在暂时不解释这些特点所具备的实际意义,接下来还是看看更多的关于45nm工艺首款产品Penryn的相关信息,Penryn处理器最终会再年底发布,除了采用45nm工艺以外,Penryn处理器将开始使用SSE4多媒体指令级,并且Penryn处理器的最终工作频率很容易突破3GHz,从目前的信息来看,Penryn虽然谈不上什么巨大的架构更新,但是其工艺更新以及特点更新却是最重要的。
英特尔的45nm工艺中一个巨大优势就是采用了新的半导体工艺,而这也是为今后步入更高级半导体工艺打下了基础。我们知道一个典型的晶体管就象一个水阀,当水阀(栅极,也就是门电路)打开的时候,其允许电流从源极(Source,晶体管中电流产生的部分)源源不断传输到漏极(Drain 晶体管中电流流向的部分),而如果当水阀关闭之后源极的电流就无法达到漏极了,其实也很容易联想到,如果晶体管尺寸更小,源极同漏极之间的距离越短,那么单位电流传输的速度越快,而其它的诸如栅极的工作效率(水阀)等等都关系到整个晶体管的工作效率,当然了目前最大的问题就是晶体管尺寸继续缩小的话,那么栅极根本无法应付高速的切换速度,从而导致虽然工艺得到提升,但效率却没有任何提升。
以下是一个典型的CMOS工艺晶体管的结构图:
在英特尔的45nm工艺中,其最大的改进就是栅极电极(Gate Electrod 晶体管顶端的区域,其电流状态决定着晶体管是打开还是闭合)以及栅极的栅介质(Gate Dielectric)。大部分人会人为随着晶体管尺寸的缩小,那么构成晶体管的所有部件尺寸也都会变得更小,但是你们大家又忽视了另外一个问题,那就是当部件尺寸变得太小的时候,其效率也会同样降低,这一点栅极栅介质是最好的例子了。
在英特尔的90nm朝65nm工艺迈进的过程中栅极栅介质已经缩小到仅为1.2nm了,这个厚度仅仅大约等于5个原子的厚度,但是栅极栅介质做的太薄的时候,就更有可能会造成漏电电流穿透只有普通绝缘的栅极栅介质,这样会造成更多的漏电电流从中穿过,从而造成了效率的损失,这样处理器的功耗进一步提升,但效率却并不会提升许多,试想想如果是一颗整合4.1亿晶体管的Penryn处理器,其漏电电流会有多大?
目前的栅极栅介质已经是1.2nm厚了,而氧化物构成的栅介质在漏电电流值非常高,因此英特尔在其45nm工艺并不打算依靠继续变薄的栅介质来进一步降低晶体管尺寸。因为如果继续使用传统的栅介质,那么势必其厚度需要进一步降低才能满足45nm工艺更小的尺寸,而降低厚度势必会使得漏电电流更高,于是功耗自然也会变得更大起来。
High-K+金属栅极电极设计的晶体管单元全息照片
于是英特尔打算在栅介质材料上动脑筋,其就是为普通的栅介质外面再加上一层因为传统的二氧化硅已经不能满足需要了,于是英特尔早几年就提出了High-K栅介质作为替代品,因为这种介质拥有更好的稳定性,漏电值更低,且厚度同样可以做的非常薄。之所以称为High-K,High-K其实是一种工程术语,用来描述一种材料保有电荷的能力。K是衡量存储电荷的能力,譬如海绵拥有更大的吸水能力,其“K”就更高,而玻璃不吸水,其“K”极低,High-K材料其实就是其保有电荷的能力比普通的二氧化硅更高,由此得名。在英特尔的45nm工艺中,High-K栅介质的厚度依旧为1.2nm。英特尔称其High-K的材料基于铪(Hafnium),铪的特点就是极稳定,很难出现漏电流,其一般在核反应堆中充当吸收中子。
第二个问题,英特尔努力改进栅极电极的材料,我们知道之前大部分栅极电极的材料都是多晶硅(Polysilicon)来构成,但是我们知道无论何种栅极栅介质,其都会出现漏点电流而这些漏电电流会在栅极电极下放行程一个耗尽导电信号区域(Depleted Region),这个区域变相的导致栅极栅介质的厚度增加,其会导致当电流通过的时候漏电电流变得更大,从而导致效率降低。
而英特尔的45nm工艺中,其栅极电极的材料使用金属来替代传统的多晶硅,这样的目的就是可以避免耗尽导电信号区域的出现,也就是说其这样的设计可以真正让超薄的栅极栅介质层更薄,从而使得最终的效率更高,且漏电电流更小。英特尔的这种HK+MG(High-K+Metal Gate)可以使得不用更改太多的传统材料就可以实现更高的晶体管效率,但是英特尔并没有公布其金属栅极电极的材料,英特尔称High-K+金属栅极电极的材料可以有几百种选择和组合,因此其可以满足技术进一步需要;而英特尔也称目前其在High-K方面的研究是超前的,全球没有其它公司获得了如此进展,而其它公司如果要实现类似的效果,相信要到32nm或者更晚的时候才有可能使用High-K+金属栅极电极设计。
在采用新的材料之后,英特尔认为其可以更好的改善集成电路功耗,而且可以降低芯片的设计难度,并且可以大幅度提升晶体管切换速度,英特尔称,其切换效率比65nm工艺提升了120%,而切换功率降低30%以上,漏电电流也降低了5倍-10倍以上,并且英特尔称,随着High-K材料以及金属栅极电极材料的改进,最终其效率可能会进一步提高。
摩尔先生称:“High-K+金属栅极晶体管是自上个世纪60年代晚期推出多晶硅栅极金属氧化物半导体(MOS)晶体管以来,晶体管技术领域里最重大的突破。”
45nm测试SRAM晶圆放大图
其实英特尔提出High-K+金属电极是在2003年,2006年1月,英特尔完成153MBIt SRAM的开发,这种SRAM采用45nm工艺生产,采用了完整的High-K+金属栅极电极设计,并且采用传统的193nm干蚀刻工艺实现,其单元尺寸仅为0.345平方毫米、153Mbit的密度、119平方毫米的总面积,超过10亿个晶体管。
不过到了2007年,英特尔已经完成了第一款使用45nm工艺以及high-K+金属电极的Penryn处理器了,而目前已经完成了最终版本的设计,而年底这种产品将全面上市。
Penryn处理器开发团队庆祝45nm工艺处理器运行完成
由于采用了45nm的工艺,Penryn处理器的核心显然会比目前的Conroe小的多,而且由于架构没有太大的变化,因此Penryn在很多地方都承接了Conroe的设计理念,而只有等待未来的Nehalem处理器,那么将采用一种全新的架构,这显然会是在2008年的某个时候。2009年英特尔将过渡翿32nm工艺,产品的代号为Westmere,2010年,英特尔将启用Gesher核心,这将是继Nehalem核心之后的又一次架构变更,这也正好应对了我们开头说到的英特尔两年计划,即:每两年更新一次处理器架构,两年更新一次处理器工艺,而这两种更新交替进行,因此每年我们不是能够看到新架构的诞生,就可以看到处理器工艺的革新。
Penryn双核处理器
Conroe架构处理器
Penryn处理器是一款45nm工艺的产品,其拥有更低的工作电压和更高的工作频率,并且在整合的晶体管数量上也有所增加,不过由于工艺的更新,其核心面积还是要远比目前的Conroe来得更小,目前来看双核得Penryn处理器的核心面积为107平方毫米,而Conroe则为143nm,而且要知道Conroe处理器仅搭载了4MB的L2缓存,而Penryn则搭载6MB的L2缓存,并且我们也知道L2缓存至少占据整个处理器一半的晶体管。因此很显然,Penryn处理器的晶体管数量会更高,但核心面积却要比Conroe处理器小上很多。
当然虽然核心架构没有太大的变化,英特尔还是让Penryn拥有了众多的改进,于是英特尔就给出了Penryn的9个更新之处:
1.引入高效的Radix-16除法器,这种技术可以在科学计算、三维坐标转换和其它数学运算密集型功能中,其带来约2倍的除法器速度,其主要可以加速浮点和整数的除法运算速度。
2.增强的英特尔虚拟化技术,Penryn处理器在虚拟化技术上的效率改进非常明显,其开始支持EPT延伸分页,并改良VT-x指令对虚拟主机转换、进入及退出的速度,平均可提升25%至75%,且只需要通过微架构上的改良,并且并不需要更高任何虚拟主机的软件。
3.容量更高的缓存设计,我们知道英特尔Core架构很重要一点就是改进了其缓存架构,传统的双核心处理器,每个独立的核心都有自己的L2缓存,不过英特尔的Core架构则通过核心内部的Shared Bus Router共享相同的L2缓存,当CPU 1运算完毕后把结果存在L2缓存时, CPU 0就可以通过Shared Bus Router读取CPU 1放在共享L2缓存上的数据,从而大幅减低读取上的延迟并且降低对FSB带宽的占用。
而在Penryn处理器中,其L2缓存的容量增加了50%,双核心版本其L2缓存容量达到了6MB、而四核心则更是达到了12MB,同时英特尔在Penryn处理器中开始启用24路联合(24-way set AssociATIve) ,这使得L2缓存命中率进一步提升,并大幅度提高缓存利用率。
4.Penryn开始其也将如了全新增强高速缓存行拆分负载功能(Split Load Cache EnhANCement),当读取数值时,如果数据位于2个不同的缓存中时,则会对任务行进行拆分,从而使得缓存的利用更加科学。
5.更高的总线速度,Penryn处理器的起始FSB频率就达到了1333MHz,未来将会更新到1600MHz,相比目前Coroe核心普遍的1066MHz总线,提升更高的总线频率会使得处理器的数据吞吐能力更大,在配合高速内存的情况下,处理器将会有更好的性能发挥。
6.SSE4多媒体指令集,这被誉为继2001年以来最重要的媒体指令集架构的改进,其除了扩展intel 64指令集架构外,还加入有关图形、视频编码及处理、三维成像及游戏应用等指令,令涉及音频、图像和数据压缩算法的应用程序大幅受益。SSE4相比SSE3主要是新增了47条指令,主要针对向量绘图运算、3D游戏加速、视像编码加速及协同处理加速。
7.超级流水线引擎,我们应该知道在Core架构中,英特尔加入了128bit的整数运算器以及128bit SIMD双倍精准度浮点操作单元。在Core架构处理器之前的产品,在执行128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,这等于说需要多花费一倍的处理时间,而Core架构处理器只需要一个时钟周期就可以完成128bit的数据预算,因此包括绘图、影像、音效、加密、数学运算等运用中,Core架构处理器都会有很好的表现。
而Penryn处理器中加入全新的Super Shuffle Engine单元,这会使得SSE指令效率更高,以往处理Unpacking、Packing、align Concatenated Sources、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit宽度的字节、字及Dword SSE数据时,均无法在单一周期内完成,但Super Shuffle Engine设计除可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量外,而且更本不需要软件进行任何的更改就可以实现,也就是说原本Core架构也无法实现的事情终于让Penryn处理器实现了。
8.Deep Power Down技术是一种新的电源管理状态,其引入C6-Status进程,可以可显著降低闲置期间处理器的功耗,并有效防止晶体管漏电情况。C6深度随眠的时候其可以清除L1缓存内所有数据,并在保存处理器状态下,关掉双内核以及L2缓存,而这个时候虽然芯片组会继续为I/O提供相应的数据传输工作,但并不会去唤醒处理器。而一点只有内存工作时,电压才会回到正常,双内核被激活,然后把原本在内存中的缓存备分调入,这时处理器完全回复正常。英特尔认为C6进程模式比C4进程更加节电,其电压可以再降低一半,并且L1缓存也进入休眠状态个,处理器总体功耗至少可以降低75%左右,而激活的耗电量却只是比C4进程多50%。
9.起始增强型动态加速技术并不是最早出现再Penryn处理器上的,今年发布的Socket P接口的Merom处理器已经加入了这个功能,这是一种为单线程软件优化运行而设计的功能。我们知道,我们自然知道有很多古老的软件并没有为多核心进行优化,而在这些应用中,如果使用多核心处理器,那么其中只有有一颗核心去进行工作,而其它核心被闲置。这样就造成了资源的浪费。
而英特尔的动态加速技术就是为了改变这个情况而诞生的。其可以让一颗核心出于完全的负载状态,而其它核心则进入C3 Deep Sleep模式,这时工作的核心会进入Turbo Bin模式,其核心频率自动被提高,从而可以让程序尽快完成。而英特尔主要是通过倍频来控制处理器的Turbo Bin模式的,其自动会使倍频提升1x,也就是说譬如一颗处理器是333x8=2.66GHz的时候,Turbo Bin模式下,其处理器工作频率为333x9=3.0GHz。因此这也是一个令人期待的功能。
Penryn处理器家族:
45nm的Penryn系列处理器拥有七款产品,包括双核心桌面处理器Wolfdate、四核心桌面处理器Yorkfield、双核心行动处理器 Penryn、双核心Xeon DP处理器 Wolfdate DP、四核心 Xeon DP处理器Harpertown、双核心 Xeon MP处理器Dunnington DC及四核心Xeon MP处理器Dunnington QC。英特尔将率先发布双核心的Wolfdate DP、Harpertown处理器,稍后年底会发布桌面版的Wolfdate和Yorkfield,而移动和多路版本会在明年正式登场。
不过我们似乎应该更加关心Penryn桌面版本的信息,英特尔年底肯定率先发布基于Yorkfield核心(四核心)的版本,并且其属于Core 2 Extreme Edition系列,售价999美元,用来替代目前的Conron版本。而其它的双核心和四核心版本均会陆续发布,其中双核心版本Wolfdale的工作频率从2.33-3.0GHz之间,而四核心的Yorkfield则会推出最高3.33GHz的版本。
而到明年第二季度,英特尔将发布更多的Penryn产品,其中包括基于Wolfdale的E4xxx低端版本,这种处理器工作在1066MHz的总线频率下,蛋已久支持英特尔虚拟化技术和TXT技术。
luke 2007-8-28 16:09
测试配置
处理器: Intel Core 2 Duo E6550 (2.33GHz/1333MHz)
Intel Wolfdale 2.33GHz/1333MHz
主板: GIGABYTE GA-P35C-DS3R (Intel P35)
芯片组: Intel P35
芯片组驱动: Intel 8.1.1.1010 (Intel)
硬盘: Seagate 7200.9 300GB SATA
内存: CORSAIR XMS2 DDR2-800 4-4-4-12 (1GB x 2)
显示卡: Nvidia GeForce 8800 GTX
显示驱动: NVIDIA ForceWare 158.18
桌面分辩率: 1600 x 1200
操作系统: Windows Vista Ultimate 32-bit
Wolfdale对决Conroe核心 处理器 ScienceMark L2 Latency (64-byte stride)
CPU-Z 1.40 (8192KB, 128-byte stride) CPU-Z 1.40 (8192KB, 64-byte stride)
Conroe - 2.33GHz 13 cycles 66.87 ns 15 ns
Wolfdale - 2.33GHz 12 cycles 48.86 ns 9.43 ns