CMOS集成超顺磁隧道结实现可编程概率比特:从物理随机源到计算加速器

概率计算概率比特超顺磁隧道结
于 2026-05-30 03:08:52 修改
·本内容遵循CC 4.0 BY-SA版权协议

1. 项目概述:为什么我们需要CMOS集成的p-bit?

在芯片设计领域,我们正面临一个越来越棘手的矛盾:摩尔定律的放缓与计算需求的爆炸式增长。传统的确定性计算架构,在处理组合优化、机器学习推理、密码学等NP难问题时,常常显得力不从心,要么计算时间呈指数级增长,要么功耗高得难以承受。这就好比用一把精确的尺子去丈量一片不断变化的云彩,工具本身很精密,但方法可能从根本上就不太对路。

正是在这种背景下,概率计算作为一种颠覆性的计算范式,开始从理论走向前台。它的核心思想非常巧妙:与其让计算机绞尽脑汁去“计算”出一个绝对精确但难以求得的最优解,不如让它利用物理世界固有的随机性,像“撒网捕鱼”一样,快速地对海量可能解进行概率性采样,从而以极高的效率逼近最优解。这个想法的物理载体,就是概率比特

一个p-bit不是一个非0即1的经典比特,也不是处于叠加态的量子比特。它更像一个每秒翻转数百万甚至数十亿次的“硬币”,其输出(高电平或低电平)在任意时刻是随机的,但其处于某一状态的平均概率,却可以通过一个电信号(比如电压)来精确调控。你可以把它想象成一个“可调随机数发生器”,其随机性不是来自软件算法,而是源于某种物理过程的固有涨落。

那么,这个物理随机源从哪里来?早期的研究尝试过各种噪声源,但超顺磁隧道结的出现,几乎是为p-bit量身定做的。sMTJ是一种纳米尺度的磁阻器件,其核心是一个被极薄绝缘层隔开的两个铁磁层。由于其中一个磁性层的磁矩极其不稳定(能垒极低),室温下的热扰动就足以使其在纳秒时间内随机翻转,从而导致器件的电阻在高低两个值之间随机跳变,这就是我们需要的物理随机性。其速度、能效和与现有半导体工艺的潜在兼容性,都让它极具吸引力。

然而,实验室里的“原理验证”和能投入实际应用的“芯片”之间,隔着一道巨大的鸿沟,那就是CMOS集成。过去,大多数p-bit原型都是将独立的sMTJ器件用金线键合到载有晶体管的电路板上。这种“分立式”方案不仅体积庞大、可靠性差,更无法实现大规模、高密度的阵列集成,而这正是构建实用化概率计算加速器的前提。因此,将sMTJ“生长”在CMOS晶圆的后端工艺之上,实现真正的单片集成,就成了整个领域必须攻克的关键技术堡垒。

我们这次的工作,就是在这个方向上的一次扎实的“登顶尝试”。我们设计、流片并测试了一款将sMTJ与成熟的130纳米CMOS工艺集成的专用测试芯片,系统地验证了从独立sMTJ、到sMTJ与晶体管协同工作、再到完整p-bit功能单元的全链条可行性。这不仅仅是展示了一个能工作的电路,更是为未来构建大规模、可编程的概率计算芯片,铺下了一块坚实的地砖。

2. 核心原理拆解:sMTJ如何成为理想的物理随机源?

要理解我们为什么选择sMTJ,以及整个电路如何工作,我们需要深入到物理和电路两个层面。

2.1 物理基石:隧道磁阻效应与超顺磁翻转

sMTJ的核心是一个“三明治”结构:参考层/隧道势垒/自由层。参考层的磁化方向是固定的,而自由层的磁化方向则可以在两个易轴方向(比如平行或反平行于参考层)之间切换。

这里的关键物理效应是隧道磁阻效应。当自由层与参考层的磁化方向平行时,电子穿过势垒的几率更大,器件呈现低电阻状态;当两者方向反平行时,电子隧穿受到抑制,器件呈现高电阻状态。这两种状态的电阻比值,就是衡量器件性能的关键指标——TMR比率。在我们的实验中,这个比值达到了50%到100%,这意味着高低阻态之间有非常清晰的区分度,为后续电路识别提供了良好的信噪比。

那么,自由层的磁化方向为什么会随机翻转呢?这就涉及到磁各向异性能垒的概念。对于一个稳定的磁性存储器单元,这个能垒通常很高(>60 kT),需要外部磁场或自旋转移矩电流才能翻转,数据可以保存数年。而为了制造p-bit所需的随机性,我们故意将自由层做得非常小,并优化其材料,将其能垒降低到接近或略高于室温热扰动的水平(约1-2 kT)。在这种“超顺磁”状态下,自由层的磁矩不再稳定,室温下的热能就足以使其在纳秒时间尺度内,以一定的概率在两个易轴方向之间自发地来回翻转。

注意:这里有一个精妙的平衡。能垒不能太低,否则翻转太快,随机性过于“白噪声”,难以被电路有效捕获和利用;能垒也不能太高,否则翻转速率太慢,无法满足高速计算的需求。我们的器件设计目标,就是让这个翻转速率落在1纳秒到1微秒的范围内,这与CMOS逻辑电路的时钟周期能够很好地匹配。

2.2 电路实现:从随机电阻到可控概率比特

有了随机翻转的电阻,我们如何把它变成一个可用的p-bit信号呢?核心电路单元其实非常简洁,其演化过程可以分为三个阶段来理解。

第一阶段:基础传感——电阻波动转电压波动。 最简单的想法,就是让一个恒定的电流I流过sMTJ。根据欧姆定律 V = I * R,sMTJ电阻R的随机高低跳变,就会直接转化为其两端电压V_MTJ的随机波动。这个模拟电压波动,已经包含了我们需要的随机性信息。

第二阶段:引入控制——用晶体管调制电流。 一个只有随机性、没有可控性的器件是没用的。p-bit的核心在于“概率可调”。我们通过在sMTJ上串联一个NMOS晶体管来实现这一点。电路构成一个共源极放大器的结构:sMTJ作为负载,NMOS作为可变电阻。晶体管的栅极电压V_gate控制着沟道电流I_DS的大小。

  • V_gate较高时,晶体管导通强,I_DS大,sMTJ上的压降I_DS * R_MTJ也大。如果这个电流方向恰好使sMTJ更倾向于处于高阻态,那么输出点(漏极)的电压V_out = VDD - V_MTJ就会更多地处于低电平。
  • V_gate较低时,情况则相反。 这样,通过调节V_gate,我们就能连续地改变sMTJ处于高阻态或低阻态的时间占比,也就是改变了输出为高或低的概率。此时,V_out是一个在高低电平间随机跳变的模拟电压。

第三阶段:数字化输出——添加整形电路。 为了与后续的数字逻辑电路兼容,我们需要将模拟的、幅度可能不理想的V_out电压波动,整形成干净利落的、在电源轨(0V和1.8V)之间跳变的数字信号。这就是我们完整p-bit单元的最后一级:一个可变阈值控制器后接一个反相器。

  • VTC:它的作用类似于一个阈值可调的施密特触发器。我们将V_out输入VTC,VTC的阈值可以根据需要设置(实验中为0.7V到1.1V)。只有当输入电压超过或低于这个阈值时,输出才会翻转。这进一步增强了噪声容限,并确保了输出的数字特性。
  • 反相器:最后一级反相器将VTC的输出进行缓冲和整形,产生最终的、在0V和1.8V之间剧烈摆动的数字随机信号,即p-bit的输出。

至此,一个完整的、CMOS集成的p-bit单元就实现了:输入一个模拟电压V_gate(或V_bias),输出一个概率受该输入调控的、高速随机翻转的数字比特流。

3. 芯片设计与集成工艺:从图纸到硅片的挑战

将上述电路图变成实实在在的芯片,是本次工作最具挑战性的部分。这不仅仅是画个版图那么简单,它涉及到CMOS前端工艺与磁性后端工艺的深度融合,我们称之为后端集成

3.1 测试芯片的架构设计

我们的目标不是做一个功能单一的芯片,而是要系统性地诊断集成过程中的每一个环节。因此,我们设计了一个“诊断型”测试芯片,其版图包含了三种核心测试结构:

  1. 150个独立的sMTJ:用于单独表征sMTJ本身的电学特性(如电阻、TMR)和随机翻转特性,排除电路其他部分的影响。
  2. 240个sMTJ与NMOS晶体管串联的单元:这是p-bit的核心放大级。用于研究sMTJ与晶体管直接耦合时的交互特性,特别是栅压对sMTJ状态概率的调控曲线。
  3. 150个完整的p-bit功能单元:包含sMTJ、共源放大级、VTC和反相器。用于验证从输入到最终数字输出的完整功能。

这种“由简到繁”的阶梯式设计哲学非常关键。如果在完整p-bit电路中发现问题,我们可以迅速回溯到前两级测试结构,定位问题是出在sMTJ本身、晶体管的驱动能力,还是后续的数字整形电路上。

在电路设计细节上,我们做了几项针对性优化:

  • 晶体管尺寸阵列:为了适配不同sMTJ可能需要的驱动电流范围(从几百微安到几十毫安),我们为NMOS晶体管设计了四种沟道宽度:1μm, 3μm, 9μm, 27μm。这确保了在任何工艺角下,我们都能找到与特定sMTJ匹配的晶体管,获得最佳的调控灵敏度。
  • 共源共栅结构:在完整p-bit单元中,我们在控制晶体管(由V_bias控制)的上方,增加了一个共栅晶体管(由V_cas控制)。这个共栅管的作用是“隔离”。sMTJ电阻的剧烈波动会导致其两端电压V_MTJ波动,如果没有共栅管,这个波动会直接反馈到控制晶体管的漏极,影响其工作点,使得电流I_DS不再单纯由V_bias决定。共栅管像一个“缓冲器”,将控制晶体管的漏极电压“钉”在一个相对固定的电位(V_cas - V_th),确保了流过sMTJ的电流主要由V_bias控制,大大提高了概率调控的线性度和精度。
  • 可变阈值控制器:VTC内部由两对上下拉晶体管构成,通过配置可以产生从0.7V到1.1V,以100mV为步进的多个阈值电压。这让我们可以精细地调整数字化的触发点,以补偿不同sMTJ器件或工艺偏差带来的输出幅度差异。

3.2. 后端集成工艺的关键步骤与挑战

将sMTJ做在已经完成了晶体管制造的CMOS晶圆上,是工艺的核心。我们与东北大学的专用MTJ工艺线合作,流程如下:

  1. CMOS预处理与界面准备:标准130nm CMOS工艺完成后,我们故意保留了最后一层金属上的钝化层开口,暴露出底层的钨通孔。这是sMTJ与CMOS电路实现电连接的关键接口。然而,暴露的钨极易氧化,形成高电阻的接触。我们的对策是:晶圆一出炉,立即涂覆光刻胶进行保护,并在sMTJ堆栈沉积前,采用温和的原位溅射清洗,在不损伤底层结构的前提下,去除可能的氧化物和污染物。
  2. 接触验证:在沉积磁性材料之前,我们先用四探针法测量了暴露的上下电极之间的接触电阻,确认其为良好的欧姆接触,阻值在预期范围内。这一步的检查至关重要,避免了在不良接触上浪费昂贵的磁性材料沉积和图形化步骤。
  3. sMTJ堆栈沉积与图形化:在确认界面良好后,我们在室温下采用直流和射频磁控溅射,依次沉积了完整的sMTJ堆栈:Ta(5)/PtMn(20)/Co(2.4)/Ru(0.9)/CoFeB(2)/MgO/CoFeB(2.1)/Ta(5)/Ru(5)/Ta(50)(厚度单位:纳米)。其中,PtMn是反铁磁层,用于钉扎参考层;CoFeB/MgO/CoFeB是核心的磁性隧道结;顶底的Ta/Ru是保护层和电极。随后,通过氩离子铣削反应离子刻蚀,将整片薄膜图形化为设计好的椭圆形sMTJ器件,有效直径从50纳米到80纳米,长短轴比例从1到4不等。这种尺寸和形状的多样性,是为了研究几何参数对超顺磁翻转特性的影响。

实操心得:界面粗糙度与磁性能:BEOL集成最大的挑战之一是底层CMOS金属层的表面粗糙度。如果表面不平整,沉积在上面的sMTJ多层膜质量会下降,特别是关键的MgO隧道势垒层可能产生针孔或厚度不均,导致TMR下降和器件短路。我们选择不沉积CMOS最顶层的厚金属,而直接使用下层相对平整的金属和通孔层,就是为了最小化界面粗糙度。这需要在电路设计初期就进行协同优化。

4. 实验验证与结果分析:从器件到系统的性能表征

芯片制造完成后,我们开始了从器件到模块,再到系统的逐级电学测试,以验证设计的正确性和集成的成功。

4.1 独立sMTJ的特性表征

我们首先对独立的sMTJ进行测试。测试方法很简单:通过探针台给器件施加一个直流电流,同时用高速示波器监测其两端的电压波动。

关键结果如图2所示:我们绘制了sMTJ的时间平均电阻 <R> 随施加电流I变化的曲线。这条曲线呈现出一个完美的“S”型。当电流为较大的负值时(比如-80μA),<R>接近低阻态R_L;随着电流向正方向增加,<R>逐渐升高,在某个电流区间内变化最为剧烈,最终在正电流区域趋近于高阻态R_H。这个“S”型曲线就是sMTJ作为概率器件的“特征曲线”。曲线的中心点(概率为50%的电流点)和陡峭程度,直接反映了器件的翻转能垒和热稳定性。

更重要的是,我们在示波器上观察到了清晰的随机电报噪声信号:电压在两个离散的电平之间随机跳变,分别对应高阻态和低阻态。大多数器件的驻留时间在毫秒量级,这意味着其翻转速率在kHz范围。通过改变电流,我们可以明显看到高低电平的占空比发生变化,直观地证明了其概率的可调性。

4.2 sMTJ-NMOS串联单元的协同工作

接下来,我们测试sMTJ与NMOS晶体管集成的单元。此时,我们不再直接控制电流,而是控制晶体管的栅极电压V_gate,并通过测量漏极电压V_out来观察sMTJ的状态。

如图3a所示,我们得到了<V_out>V_gate变化的曲线。随着V_gate从0.7V增加到1.0V,<V_out>从一个较低的平台值平滑地过渡到一个较高的平台值,中间有一个约100mV的剧烈变化区间(对应V_gate在0.85V附近)。这个变化正是sMTJ电阻概率被调控的体现。V_out的摆幅(V_max - V_min)约为100mV,这个值虽然不大,但对于后续的数字整形电路来说已经足够。

这里我们遇到了一个在实际集成中必须处理的物理效应:杂散磁场。sMTJ的参考层虽然被钉扎,但其本身仍会产生一个微小的磁场,这个磁场会作用在自由层上,相当于施加了一个偏置场。对于大多数我们制备的器件,这个偏置场使得sMTJ的特征曲线整体偏移,导致在零外加磁场下,其概率为50%的工作点对应一个负电流。而我们的p-bit电路只能提供正方向的电流。

解决方案如图3b所示:我们施加一个很小的外磁场(通常几个到几十个奥斯特),方向与参考层的杂散场相反,就可以将整个“S”型曲线平移回正电流区域。这个操作在测试中很容易实现。从工程角度看,更根本的解决方案是在器件设计时,通过优化参考层堆栈(例如使用合成反铁磁结构)来自补偿这个杂散场,使其接近于零。这是我们未来工艺迭代需要重点优化的方向。

4.3 完整p-bit单元的功能验证

最后,我们点亮了完整的p-bit单元。测试时,我们设置V_cas为一个固定电压以稳定共栅级,V_DD为电路提供电源,然后扫描核心控制电压V_bias

核心成果如图4所示

  • 图4a - 概率调控曲线:当V_bias从0.5V扫描到0.8V时,p-bit的最终输出<V_out>(经过反相器后)从接近1.8V的高电平,平滑地下降到约0.45V的低电平,整体呈现一个漂亮的类Sigmoid函数形状。这正是p-bit最核心的特性:输入电压连续调节输出为“1”的概率。
  • 图4b - 实时随机翻转:我们在V_bias扫描曲线上选取了三个点(低概率、中概率、高概率),并展示了对应点的实时输出波形。可以清晰地看到,在低V_bias时,输出几乎全是高电平(概率为1);在中点V_bias时,输出在高电平和低电平之间快速、随机地切换,占空比接近50%;在高V_bias时,输出几乎全是低电平(概率为0)。这直观地证明了我们实现了电压可调的随机比特流发生器
  • 一个非理想现象与诊断:理想情况下,反相器的输出应该在0V和1.8V之间完美切换。但我们实测的低电平约为0.45V,高电平约为1.8V。这并非设计错误。为了定位问题,我们进行了一个诊断实验(图4c):将V_biasV_cas都设为0V,使晶体管关闭,此时V_DD的电压全部加在VTC的输入端。然后我们扫描V_DD,发现反相器的输出在V_DD达到0.8V时就提前开始翻转。这说明问题出在CMOS晶体管本身的阈值电压和导通电阻等非理想特性上,导致VTC和反相器级联后的电压传递特性发生了畸变。这个发现非常重要,它告诉我们,在未来的电路设计中,必须对数字整形电路进行更精确的建模和仿真,考虑晶体管的实际物理参数,或者采用更鲁棒的电路结构(如施密特触发器或锁存器)来确保输出的轨到轨摆幅。

5. 工程挑战、解决方案与未来展望

这次成功的集成演示,不仅仅是原理的证明,更是一次宝贵的工程实践,其中充满了需要总结的经验和待解决的挑战。

5.1 关键挑战与应对策略

  1. 工艺兼容性与热预算:CMOS工艺,特别是前端晶体管制造,涉及高温步骤。而磁性材料,尤其是用于钉扎参考层的反铁磁材料PtMn,需要经过一个磁场退火过程(通常在250-300°C)来建立交换偏置场。这个退火温度必须低于CMOS后端金属互连(特别是低k介质)所能承受的温度上限,否则会导致金属线退化或介电层开裂。我们采用的130nm工艺节点在这方面有较好的容限。对于更先进的节点,可能需要开发更低温度下也能形成强交换偏置的新型反铁磁材料(如IrMn基合金)。
  2. 界面质量与器件良率:sMTJ的性能极度依赖于CoFeB/MgO界面的原子级平整度。CMOS BEOL表面的粗糙度和污染物是主要威胁。我们的解决方案是极致的界面清洁优化溅射工艺。在沉积磁性堆栈前,采用低能氩离子轰击进行原位清洗,并在高真空下快速转移晶圆,最大限度地减少污染。即便如此,器件的TMR和翻转均匀性仍有提升空间,这直接关系到大规模集成时p-bit阵列的性能一致性。
  3. 电路与器件的协同设计:sMTJ不是一个理想的电阻,其阻值波动范围(R_LR_H)、特征电流、翻转速率都因工艺波动而存在差异。我们的电路设计必须具有足够的鲁棒性可调性来适应这种波动。这就是为什么我们设计了多种晶体管尺寸和可调阈值的VTC。在实际应用中,可能还需要引入片上校准电路,例如通过测量每个p-bit单元的特征曲线,自动调整其偏置电压,使所有p-bit的“S”型曲线中心对齐,斜率一致。
  4. 串扰与噪声:在大规模阵列中,成千上万个sMTJ同时高速翻转,会产生巨大的电流瞬变和磁场噪声。电流瞬变可能通过电源网络耦合,影响其他单元的稳定性;sMTJ的磁翻转也可能产生微弱的交变磁场,干扰邻近的sMTJ(磁串扰)。解决方案包括:稳健的电源网格设计(增加去耦电容)、物理布局优化(增加器件间距,或采用磁屏蔽结构)、以及可能的时分复用驱动策略,避免所有单元同时翻转。

5.2 从单元到系统:构建概率计算加速器

一个可用的p-bit单元只是起点。要构建能解决实际问题的概率计算系统,我们还需要迈出以下几大步:

  1. 大规模阵列集成:下一步自然是将成百上千个p-bit单元集成到单个芯片上,形成p-bit阵列。这涉及到高密度互连、全局/局部偏置电压生成网络、以及输出信号的读取电路设计。
  2. 可编程互连网络:p-bit的强大之处在于它们可以相互连接,模拟伊辛模型或其他概率图模型。我们需要在芯片上实现一个可编程的互连网络,能够根据待求解的问题,动态配置各个p-bit之间的耦合强度(J_ij)和外部场(h_i)。这可以通过模拟乘法器、数模转换器和开关矩阵来实现,是芯片设计的核心难点之一。
  3. 混合架构与系统集成:纯粹的p-bit概率计算机可能并非最优。更现实的路径是异构计算:将p-bit阵列作为协处理器,与传统的CPU/GPU通过高速接口(如PCIe)连接。CPU负责问题的映射、参数的加载、结果的收集和高级算法控制(如模拟退火中的温度调度),而p-bit阵列则专职进行高速、低功耗的概率采样。我们演示的CMOS集成p-bit,正是为实现这种异构集成扫清了最底层的硬件障碍。
  4. 算法与硬件的协同优化:硬件准备好了,算法也需要“量身定做”。如何将组合优化问题(如旅行商问题、最大割问题)或机器学习中的采样问题(如贝叶斯推理、玻尔兹曼机训练)高效地映射到p-bit网络的连接权重上?如何设计硬件友好的更新规则,以最大化利用p-bit的并行性和随机性?这需要计算机科学家、算法工程师和硬件工程师的紧密合作。

5.3 实测避坑指南与调试技巧

基于这次实验,我想分享几条非常具体的实操经验,这些在标准的器件手册或电路教材里是找不到的:

  • sMTJ的“唤醒”与老化:新制备或长时间未加电的sMTJ,其TMR和翻转特性可能不稳定。在正式测试前,建议先施加一个中等大小的交变电流(正负向交替,幅度在特征电流附近)对器件进行“锻炼”几分钟。这有助于稳定自由层的磁化翻转路径,获得可重复的测量结果。
  • 测量带宽与滤波:观测纳秒到微秒级的随机翻转,需要高带宽(至少500MHz以上)的示波器和低噪声的探头。但高带宽也意味着更容易引入环境噪声。在探头尖端使用短接地弹簧而非长的接地夹,可以显著减少振铃和噪声。对于统计平均测量(如求<V_out>),在软件后处理中施加一个适度的低通数字滤波(截止频率略高于信号翻转频率),可以有效平滑数据,更清晰地看到趋势。
  • 偏置点的精细扫描:在测量类似图3a或图4a的调控曲线时,不要在V_gateV_bias的整个范围内均匀取点。应该在曲线变化剧烈的区域(拐点附近)加密扫描步进(例如用1mV甚至0.5mV的步长),而在变化平缓的区域则可以用较疏的步长。这样可以更精确地捕捉到曲线的陡峭度,这个参数直接关系到p-bit的调控灵敏度。
  • 磁场环境的控制:即使施加了补偿场,实验室环境的地磁场和电磁干扰仍可能影响测量。对于要求极高的实验,可以考虑使用μ-金属屏蔽箱。至少,要记录测试时的环境磁场方向,并在多次测量中保持探针台和仪器位置不变,以确保条件一致。

这次基于130nm CMOS工艺的sMTJ集成与p-bit验证,是一次从材料、器件、电路到系统概念的完整闭环演示。它不仅仅是一篇学术论文里的漂亮数据,更是向产业界发出的一个明确信号:利用磁性随机性进行概率计算的硬件路径,在工艺上是可行的。虽然前方仍有大量工程挑战,但通往下一代超低功耗、专用计算加速器的大门,已经被推开了一道缝隙。接下来的工作,将是沿着这条缝隙,将其拓宽成一条可大规模通行的道路。