Forward-Forward算法优化:超越平方和的优良度函数设计
1. 项目概述:重新审视Forward-Forward算法中的优良度函数
在深度学习的工具箱里,反向传播(Backpropagation)一直是训练神经网络的基石。但Geoffrey Hinton在2022年提出的Forward-Forward(FF)算法,为我们打开了一扇新的大门。它抛弃了全局的误差反向传播,转而采用一种逐层、局部的学习规则。简单来说,FF算法让每一层神经网络都独立地学习一个目标:对于“正样本”(正确标注的数据),最大化一个叫做“优良度”(Goodness)的标量;对于“负样本”(错误标注的数据),则最小化这个标量。这个优良度函数,就像是每一层神经元的“教练”,直接决定了它们要学习什么样的特征。
在Hinton的原始论文以及后续的大量研究中,这个“教练”的角色几乎毫无例外地由平方和(Sum of Squares, SoS)函数担任。大家似乎默认了,把所有神经元激活值的平方加起来,就能很好地衡量一层网络的好坏。但这里存在一个巨大的、被长期忽视的假设:所有神经元对学习信号的贡献是均等的,或者说,激活的总体“能量”就足以区分不同类别。
然而,如果你仔细观察过深度网络中神经元的激活模式,就会发现事情并非如此。深层网络的激活值分布往往不是温和的高斯分布,而是呈现出重尾分布的特征——这意味着大部分神经元的激活值很小,只有少数神经元会异常活跃,产生很高的峰值。这些“峰值活动”往往携带着最关键的、用于区分不同类别的信息。SoS函数对所有激活一视同仁地求和,就像用分贝仪测量一个交响乐团的音量,它告诉你总音量很大,但却无法分辨出是小提琴独奏的悠扬旋律,还是定音鼓的震撼节拍导致了音量的提升。前者是判别性信息,后者可能只是噪声。
因此,我们面临的核心问题是:如果优良度函数的设计目标,是引导网络学习到更好的特征表示,那么一个只对总能量敏感、却对激活值的“形状”视而不见的函数,真的是最佳选择吗?
基于这个疑问,我们进行了一项系统性的研究。我们的核心发现是一个统一的设计原则:一个有效的优良度函数,必须对神经活动的“形状”敏感,而非仅仅对其总“能量”敏感。 这里的“形状”,指的就是激活值分布的统计特性,比如它有多“尖峰”、多“重尾”。遵循这一原则,我们提出了两大类优良度函数:
- 选择性函数:如Top-k和Entmax加权能量。它们只关注最活跃的那部分神经元(即“峰值”),忽略背景噪声。
- 形状敏感函数:如超额峰度(我们称之为“突发性”)和高阶矩。它们是尺度不变的统计量,专门奖励那些具有重尾形状的分布。
当我们将这些新的优良度函数与分离的标签-特征前向传播(FFCL)技术结合时,在Fashion-MNIST数据集上取得了89.0%的准确率,在MNIST上达到98.2±0.1%。相较于传统的SoS基线,这分别带来了高达32.6个百分点和约9个百分点的性能提升。更重要的是,这种提升在包括USPS、SVHN在内的六个不同数据集上表现出一致性。这强烈表明,优良度函数并非一个无关紧要的默认设置,而是一个长期以来被低估的、对局部学习架构性能有关键影响的超参数。
接下来的内容,我将为你深入拆解这一设计思路背后的原理、具体的实现方法、详尽的实验过程,以及在实际操作中需要避开的“坑”。无论你是对新型学习算法感兴趣的研究者,还是希望在实践中优化模型性能的工程师,这篇文章都将提供一套可直接复现、且经过充分验证的技术方案。
2. 核心原理:为什么激活形状比总能量更重要?
要理解为什么需要形状敏感的优良度函数,我们得先回到Forward-Forward算法的基本框架,并深入观察神经网络内部激活的统计特性。
2.1 Forward-Forward算法与优良度函数的作用
在标准的反向传播中,误差信号从输出层逐层反向传播,用于更新所有层的参数。这是一个全局的、锁步的过程。Forward-Forward算法则采用了一种完全不同的、分层解耦的策略。
它的训练过程可以概括为:
- 构造正负样本:对于一个输入样本
x和其正确标签y,我们构造一个“正”输入(通常是将x和y的one-hot编码拼接后归一化)。同时,随机选择一个错误标签ỹ,用同样的方式构造一个“负”输入。 - 逐层独立优化:网络的每一层
l接收来自上一层的激活h_{l-1},计算本层激活h_l = f_l(h_{l-1}; θ_l)。每一层都有一个独立的损失函数L_l,其目标是最大化正样本的“优良度”g(h_l^+),同时最小化负样本的优良度g(h_l^-)。常用的损失函数形式是对数损失,包含一个阈值τ。 - 层间信息传递:训练好的层,其输出(通常经过L2归一化)作为下一层的输入。层与层之间没有梯度流动。
在这个过程中,优良度函数g(·)定义了每一层的学习目标。它像一个“指挥棒”,告诉这一层的神经元:“什么样的激活模式是好的(对应正样本),什么样的模式是坏的(对应负样本)”。如果g(·)设计得好,每一层就能自发地学习到对下游任务有用的、层次化的特征表示。
2.2 深度网络激活的重尾分布特性
大量研究表明,深度神经网络的激活值分布并非高斯分布,而是呈现出显著的重尾特性。这意味着分布的两端(特别是右端,即大的正值)有着比高斯分布更厚的“尾巴”。在视觉上,这种分布有一个尖锐的峰值(众数附近概率密度高)和长长的右尾。
为什么会出现重尾分布?这源于数据的本质和网络的非线性变换。自然数据(如图像、语音)本身通常包含稀疏的、有意义的特征。ReLU等激活函数会将这些特征进一步“稀疏化”,将大量不重要的响应置零,而让少数关键特征的响应变得非常强。即使使用GELU、Swish等平滑激活函数,虽然不会产生精确的零,但激活值的分布依然是不对称的,少数神经元会获得远高于均值的激活。
2.3 SoS函数的局限性与“能量稀释”问题
平方和函数g_SOS(h) = Σ_i h_i^2本质上是对激活向量h的L2范数平方。它衡量的是该层神经活动的总能量。
在激活分布是重尾的情况下,SoS函数存在一个根本性缺陷:它对分布的形状不敏感,只对尺度敏感。 考虑两个激活向量:
- 向量A:10个神经元的激活值为10,其余990个为0。SoS = 10 * 10^2 = 1000。
- 向量B:1000个神经元的激活值均为1。SoS = 1000 * 1^2 = 1000。
从SoS的角度看,这两个向量的“优良度”相同。但从特征表示的角度看,向量A是一种稀疏的、有选择性的编码:只有1%的神经元对当前输入做出了强烈反应,这很可能对应某个特定的、有判别性的特征。向量B则是一种稠密的、弥散的编码:所有神经元都轻微激活,没有明确的特征聚焦。
当使用SoS作为优良度函数时,网络层为了最大化正样本的SoS,有一个简单的策略:简单地放大所有神经元的激活值。这会导致“能量稀释”——网络学会了产生一个总体能量很高但信息密度很低的表示,其中充满了大量与分类无关的、微小的激活噪声。这些噪声会淹没真正的判别性信号。
更糟糕的是,当我们从ReLU切换到GELU或Swish这类平滑激活函数时,SoS的性能甚至会下降。因为ReLU的硬截断(产生大量精确的零)无意中让SoS扮演了一个粗糙的“Top-k选择器”——它只对非零项求和。而平滑激活函数产生的稠密小值会显著抬高SoS的基线,进一步稀释学习信号。
2.4 形状敏感性原则与ICA的理论连接
我们的核心主张是:优良度函数应该奖励那些能体现统计独立性或稀疏性的激活模式。这与独立成分分析(Independent Component Analysis, ICA)的目标不谋而合。ICA是一种经典的盲源分离技术,其目标是从混合信号中恢复出统计上独立的源信号。一个关键的洞察是:统计独立的信号往往具有非高斯的分布,特别是高峰度(重尾)的分布。因此,最大化输出信号的峰度(四阶累积量)是ICA中一种常用的目标函数。
将这一思想迁移到Forward-Forward算法中:如果我们把每一层看作是在对上一层的表示进行一种特征变换,那么让这一层的输出(即激活)的分布尽可能“非高斯”(如重尾),就相当于在鼓励该层提取出独立的、有意义的特征成分。
因此,一个形状敏感的优良度函数,其深层目标与ICA是一致的:引导每一层产生一个具有鲜明统计特性的激活分布,使得少数特征被强烈激活,而大部分特征保持沉默或微弱激活。 这种稀疏的、爆发式的(Bursty)激活模式,不仅在理论上更优雅,也与人脑皮层中观察到的“爆发式放电”现象有相似之处。
基于以上分析,我们提出了两个实现形状敏感性的具体路径,将在下一章详细展开。
3. 优良度函数设计:从选择性度量到形状统计量
基于“形状敏感性”原则,我们设计并系统评估了两大类优良度函数。它们从不同角度捕捉激活分布的“形状”,均显著优于传统的SoS。
3.1 选择性函数:聚焦于峰值活动
这类函数的核心思想是只关注激活向量中最活跃的那一部分神经元,忽略其余部分。这模拟了生物神经网络中的“赢家通吃”(Winner-Take-All)或“k赢家通吃”(k-WTA)机制。
3.1.1 Top-k 优良度
这是最直观的选择性函数。它只对激活值最大的k个神经元取平均:
g_top-k(h) = (1/k) * Σ_{i in S_k(h)} h_i
其中,S_k(h)是激活向量h中值最大的k个索引的集合。
设计与参数选择:
- 动机:在重尾分布中,判别信息集中在头部(峰值)。通过只测量头部,我们迫使网络学习到一种稀疏编码,其中不同的类别会激活不同的神经元子集。
- k值选择:k是一个关键超参数。太小(如k=1),信号过于稀疏且不稳定,容易受噪声影响;太大(如k接近神经元总数d),则退化为对整体均值的近似,失去选择性。我们的实验发现,k取神经元总数的2%左右是一个稳健的甜点。例如,对于一层2000个神经元的网络,我们设置
k = max(5, floor(0.02 * 2000)) = 40。后续的k值扫描实验也证实,在1%到5%的范围内,性能变化平缓,表现出良好的鲁棒性。
实操注意:在实现时,需要高效地获取Top-k的索引和值。可以使用torch.topk函数。注意,由于我们只对正样本进行Top-k选择(目的是测量其峰值),在计算损失时,负样本的优良度计算也应基于正样本选出的这k个索引对应的负样本激活值。这确保了正负样本是在同一组特征维度上进行比较。
3.1.2 Entmax加权能量优良度
Top-k是一种“硬”选择,它完全丢弃了排名k之后的神经元。Entmax加权能量则提供了一种“软”的、可微分的稀疏化方案。
g_entmax(h; α) = Σ_{i=1}^{d} π_i * h_i^2
其中,π = entmax_α(h), π是一个稀疏的概率分布。
原理与参数:
- Entmax变换:
α-entmax是softmax的一种广义形式,通过参数α控制稀疏程度。α=1:退化为标准的softmax,产生稠密的概率分布。α=2:变为sparsemax,会产生真正的稀疏分布(部分概率精确为0)。α在1和2之间:产生不同程度的稀疏分布。
- 工作机制:
entmax根据激活值h本身,为每个神经元分配一个权重π_i。活跃的神经元会获得更大的权重,不活跃的神经元权重很小甚至为零。然后,我们计算这些权重下的加权平方和。这样,函数能够自适应地决定每个输入样本下有多少个神经元是“相关”的。 - α的选择:我们的α扫描实验显示,性能在
α≈1.5时达到峰值。此时,它能在选择性和梯度稳定性之间取得良好平衡。当α=1(softmax)时,所有权重都非零,相当于一个平滑的加权SoS,在FFCL模式下甚至会因信号过度稀释而导致训练失败(准确率骤降至23.6%)。
实现细节:需要使用专门的entmax库(如torch-entmax)来计算稀疏权重。由于涉及迭代算法(如二分法),其计算开销比Top-k和SoS要大(在我们的实验中约为7倍),这是换取自适应稀疏性所付出的代价。
3.2 形状敏感函数:基于尺度不变统计量
与选择性函数不同,这类函数考察整个激活向量的分布形状,而不是只关注局部。其关键是尺度不变性:即对向量乘以任意正标量α,函数值不变g(αh) = g(h)。这使其对激活的整体幅度变化不敏感,只对分布的形状敏感。
3.2.1 突发性(超额峰度)优良度
这是我们提出的一个核心函数,它直接计算激活分布的超额峰度(Excess Kurtosis)。
g_burst(h) = [ (1/d) * Σ_i (h_i - μ)^4 ] / [ (1/d) * Σ_i (h_i - μ)^2 ]^2 - 3
其中,μ是激活的均值。减3是为了让正态分布的峰度为0。超额峰度衡量的是分布与正态分布相比的“尖峰”和“重尾”程度。正值表示比正态分布更尖、尾更重。
为什么有效?
- 尺度不变性:分子是四阶中心矩,分母是方差的平方。任何尺度的缩放都会在分子分母中被抵消。因此,网络无法通过简单地放大所有激活来提高优良度,它必须改变分布的形状,使其更“重尾”。
- 连接ICA:如前所述,最大化峰度是ICA中提取独立成分的经典目标。因此,使用
g_burst作为优良度函数,相当于让每一层执行一步ICA,从上一层的表示中提取最大非高斯性的特征。 - 参数免费:这是一个确定的统计量,没有任何需要调优的超参数,使用简便。
- 计算高效:仅涉及基本的矩计算,开销与SoS相当。
3.2.2 高阶矩优良度
我们将突发性函数推广到更一般的形式,使用p阶中心矩:
g_moment-p(h) = [ (1/d) * Σ_i (h_i - μ)^p ] / [ (1/d) * Σ_i (h_i - μ)^2 ]^(p/2) - β_p
其中,β_p是调整常数,使正态分布对应值为0。当p=4时,就是上面的突发性函数。
p的作用:
p=2:退化为归一化方差,g = 0,完全无法提供学习信号(实验证实准确率约10%,接近随机猜测)。p>2:随着p增大,函数对分布尾部的极端值越来越敏感。p越大,对“爆发”的奖励越强。- 最优p值:我们的扫描实验发现,性能在
p=5或p=6时达到峰值。此时,它能有效捕捉重尾特性。当p=8时,由于计算涉及非常高阶的矩,梯度变得不稳定,性能下降。
3.3 其他函数与基线
为了全面对比,我们还评估了其他一些函数,例如:
- 对比Top-k:计算最大k个激活的平均值与最小k个激活的平均值之差。旨在同时利用正负两极的信息。
- LayerNorm-Top-k:先对激活向量应用LayerNorm,再计算Top-k。旨在提供更稳定的输入分布。
- 方差、负熵等:作为更传统的分布度量进行对比。
- 外部基线:复现了Shah & Tripathi (2025)工作中提出的Softmax-energy-margin和Game-theoretic函数。
实验结果表明,在标准FF框架下,突发性(超额峰度)函数 consistently表现最佳,其次是Entmax-1.5和Top-k。而传统的SoS及其变体,在大多数配置下均落后于这些形状敏感的函数。
4. 关键技术实现与优化策略
有了好的优良度函数,还需要配套的训练策略和工程实现来充分发挥其潜力。本章将详细解析FFCL技术、激活函数的选择、归一化策略以及完整的训练流程。
4.1 分离的标签-特征前向传播
标准的Forward-Forward算法只在网络输入处将标签信息与图像特征拼接。分离的标签-特征前向传播(FFCL)对此进行了关键改进:它在每一层都通过一个独立的可学习投影矩阵,将标签假设注入到该层的激活中。
具体操作如下:
对于第l层:
- 计算无标签的特征激活:
h_l = σ(W_l^{feat} * h_{l-1}) - 将标签信息注入:
\tilde{h}_l = h_l + W_l^{label} * y_oh其中,y_oh是当前假设标签的one-hot编码,W_l^{label}是一个专用于该层的标签投影矩阵(维度为d x C, C是类别数)。 - 优良度函数
g(·)在注入标签后的激活\tilde{h}_l上计算。 - 只有无标签的、纯净的特征激活
h_l(经过L2归一化后)被传递到下一层。
FFCL的核心优势:
- 更丰富的监督信号:每一层都能直接接收到关于当前分类假设的引导,而不是仅仅在输入端有一次注入。这相当于为每一层提供了一个更清晰的“学习目标”。
- 缓解梯度问题:在标准FF中,标签信息可能随着层数加深而衰减。FFCL确保了每一层都能直接访问标签信息,有助于稳定和加速训练。
- 与优良度函数的协同:我们的实验发现一个有趣的现象:FFCL对不同的优良度函数提升效果不同。对于SoS这种较弱的函数,FFCL能带来巨大的提升(如+21个百分点)。而对于本身就很强的突发性函数,FFCL带来的提升非常小(<1个百分点)。这是因为突发性函数的尺度不变性已经能够在层间产生非常稳定和清晰的信号,使得逐层的标签注入变得几乎冗余。这从侧面印证了突发性函数自身产生的学习信号质量极高。
4.2 激活函数与归一化的选择
激活函数决定了神经元非线性响应的方式,直接影响激活值的分布形状,从而与形状敏感的优良度函数产生深刻的交互作用。
4.2.1 激活函数对比
- ReLU:最常用的激活函数,产生稀疏激活(大量精确的零)。对于SoS函数,ReLU的稀疏性无意中帮了忙,因为SoS只对非零项求和,近似于一个粗糙的Top-k。但是,对于Top-k、Entmax和突发性函数,ReLU的硬截断会破坏分布的连续性,丢弃掉可能有用的梯度信息,因此并非最佳选择。
- GELU / Swish:平滑的激活函数,能产生稠密、连续的激活值。虽然会引入大量接近零的小值,但它们为形状敏感函数提供了更丰富、更连续的分布供其分析。实验表明,GELU和Swish与突发性、Top-k等函数搭配时,性能显著优于ReLU。
- LN-GELU / LN-Swish:这是我们的一个重要发现。在激活函数之前应用LayerNorm,即
h_l = σ(LayerNorm(W_l * h_{l-1}))。这带来了两个好处:- 稳定化输入:确保每一层接收到的输入分布(均值和方差)相对稳定,缓解内部协变量偏移,有利于深层训练。
- 提升选择性函数性能:对于Top-k和Entmax,预激活归一化能显著提升性能(例如,Top-k在Fashion-MNIST上从79.03%提升至84.35%)。这是因为归一化后,激活值的相对大小关系更清晰,有利于选择机制聚焦于真正的峰值。
重要结论:不要想当然地为所有优良度函数使用ReLU。 对于形状敏感的优良度函数,平滑激活函数(GELU/Swish)配合预激活归一化(LN-)是更优的选择。我们的实验表格清晰地展示了这种强烈的交互效应。
4.2.2 归一化与门控
除了预激活LayerNorm,我们还试验了Norm-gating技术,即在激活后计算激活向量的L2范数,并通过一个sigmoid门控来缩放整个向量:output = σ(||h||) * h。其思想是让网络自己学习是否传递或抑制该层的整体激活强度。然而,在所有实验中,开启或关闭Norm-gating带来的最大精度差异小于0.4个百分点,影响微乎其微。因此,预激活LayerNorm是更关键、更有效的技术。
4.3 完整训练流程与实现细节
以下是结合了形状敏感优良度函数和FFCL的完整Forward-Forward训练算法步骤,我将其整理为一个清晰的伪代码流程,并附上关键实现说明:
算法:基于形状敏感优良度函数的Forward-Forward训练
输入:数据集 D,优良度函数 g,阈值 τ,标签注入方式(标准/FFCL)
输出:训练好的网络层参数 {θ_1, ..., θ_L}
- 初始化:为每一层
l初始化特征权重W_l^{feat}。如果使用FFCL,额外为每一层初始化标签投影权重W_l^{label}。 - 逐层训练:对于每一层
l = 1 to L: a. 准备数据:从数据集中采样一个小批量(x, y)。 b. 构造负样本:为每个样本随机采样一个错误标签ỹ(ỹ ≠ y)。 c. 前向传播与标签注入: - 标准模式:将图像x与正确标签y的one-hot编码(乘以缩放因子s,如5.0)拼接,归一化后得到正输入h_0^+。同理用错误标签ỹ得到负输入h_0^-。然后计算h_l^+ = σ(W_l^{feat} * h_{l-1}^+)和h_l^-。 - FFCL模式:第一层输入仅为图像x(无标签)。计算无标签特征h_l = σ(W_l^{feat} * h_{l-1})。然后分别注入正负标签:h_l^+ = h_l + W_l^{label} * onehot(y),h_l^- = h_l + W_l^{label} * onehot(ỹ)。 d. 计算层损失:使用选定的优良度函数g计算正负样本的优良度,并代入FF的损失函数(通常是对数损失):L_l = log(1 + exp(τ - g(h_l^+))) + log(1 + exp(g(h_l^-) - τ))阈值τ通常设为2.0,用于定义正负样本优良度的分界。 e. 更新参数:使用优化器(如Adam,学习率1e-3)仅基于损失L_l更新当前层l的参数(W_l^{feat}和可选的W_l^{label})。这是关键:层间无梯度流动。 f. 准备下一层输入:将当前层的特征激活h_l(在FFCL中)或h_l^+(在标准模式中)进行 L2归一化,作为下一层的输入h_{l}。注意:传递给下一层的是不含标签信息的纯净特征。 - 重复:对每一层独立重复步骤2a-2f。通常每个层训练相同的epoch数(如60轮)。
推理阶段:
对于测试样本 x,我们需要对每个可能的类别 c 进行前向传播:
- 将
x与类别c的one-hot编码拼接(标准模式)或直接使用x(FFCL模式,在每层注入类别c)。 - 将构造好的输入通过网络所有层前向传播。
- 计算所有层的优良度之和(有时也包括拼接各层激活后的总优良度):
total_goodness(c) = Σ_{l=1}^L g(h_l^{(c)})。 - 预测结果为优良度总和最大的类别:
ŷ = argmax_c total_goodness(c)。
关键实现提示:
- 数值稳定性:计算突发性(峰度)时,分母是方差的平方。当方差极小时,可能导致数值溢出。在实际代码中,需要添加一个极小值
eps(如1e-8)到分母中:denom = variance^2 + eps。 - 批量处理:Top-k和Entmax操作需要支持批量处理。
torch.topk可以直接在批次维度上操作。Entmax计算也需要使用支持批处理的实现。 - 效率:突发性函数的计算可以向量化,效率很高。Entmax由于涉及迭代算法,是主要计算瓶颈,在需要快速迭代时需权衡使用。
5. 实验分析与性能洞察
我们进行了大规模的实验来验证形状敏感优良度函数的有效性,并深入分析了其行为特性。实验涵盖了13种优良度函数、5种激活函数、6个数据集,并进行了三个关键超参数的连续扫描。
5.1 核心性能结果
我们在Fashion-MNIST和MNIST这两个经典数据集上进行了核心消融实验。网络结构为4层全连接层,每层2000个神经元(4x2000),参数量约1400万。
Fashion-MNIST上的突破: 下表展示了部分关键结果(标准FF路径,Swish激活):
| 优良度函数 | 测试准确率 (%) | 相较于SoS基线的提升 (pp) |
|---|---|---|
| SoS (基线) | 61.43 | - |
| Top-k | 79.03 | +17.6 |
| LayerNorm-Top-k | 83.28 | +21.9 |
| Entmax-1.5 加权能量 | 85.08 | +23.7 |
| 突发性 (超额峰度) | 88.11 | +26.7 |
| 高阶矩 (p=6) | 86.74 | +25.3 |
可以看到,从SoS到突发性函数,性能产生了超过26个百分点的飞跃。即使是简单的Top-k,也带来了近18个百分点的提升。当结合FFCL技术后,性能进一步提升,其中 FFCL + 矩函数(p=6) 达到了本次实验的最高点89.04%,相比SoS基线提升高达32.6个百分点。
MNIST上的表现: 在相对简单的MNIST数据集上,所有方法性能都更高,但趋势一致。FFCL + 突发性 (GELU) 达到了 98.18%(5次随机种子平均),其标准差仅为0.08个百分点,表现出极强的稳定性。这个成绩已经非常接近Hinton原论文中使用反向传播达到的~98.4%的上限,几乎弥合了FF算法与反向传播在该数据集上的性能差距。
5.2 超参数扫描与“倒U型”曲线
我们系统地扫描了三个关键超参数:Top-k的k值比例、Entmax的α参数、以及矩函数的阶数p。这三个扫描结果都呈现出清晰的“倒U型”曲线,这强有力地证实了“适度形状敏感性”是最优的。
-
k值扫描 (Selectivity Sweep):
- 现象:当k值非常小(如0.25%)时,信号过于稀疏和嘈杂,性能不佳。当k值非常大(如20%)时,选择性消失,性能下降并趋近于SoS。
- 最优区间:性能在k约为神经元总数的2%到5% 之间形成一个宽阔的峰值平台。这表明网络只需要关注一小部分最活跃的神经元,就能获得很强的学习信号。
- FFCL的鲁棒性:一个有趣的发现是,在使用FFCL时,性能对k值的变化非常不敏感,在很宽的k值范围内(1%-20%)波动小于2个百分点。这说明逐层标签注入本身提供了很强的监督,降低了对选择性强度的依赖。
-
α值扫描 (Sparsity Sweep):
- 现象:α=1(softmax,稠密加权)时性能最差,在FFCL模式下甚至完全失败(准确率23.6%)。α=2(sparsemax,硬稀疏)时性能也下降。
- 最优值:性能峰值出现在 α≈1.5。此时,Entmax产生一种“软稀疏”的权重分布,既能聚焦于重要神经元,又保持了足够的梯度流,在选择性和可训练性之间取得了最佳平衡。
-
矩阶数p扫描 (Moment Order Sweep):
- 现象:p=2时(即归一化方差),性能崩溃至约10%(随机水平),证明二阶统计量完全无法提供有效的学习信号。
- 最优区间:性能在 p=5或p=6 时达到顶峰。此时,函数对分布尾部的极端值(即“爆发”的激活)有足够的敏感性。
- 稳定性:当p继续增大到8时,由于涉及极高阶矩的计算,梯度变得极不稳定,标准FF性能大幅下降。然而,FFCL再次展现了其稳定作用,在p=8时仍能保持相对较高的性能(84.54% vs 标准FF的73.89%)。这表明逐层标签注入平滑了优化景观。
这三个“倒U型”曲线共同揭示了一个核心机制:有效的优良度函数需要在“信号聚焦”和“梯度稳定”之间取得微妙的平衡。过于聚焦(k太小、α太大、p太大)会导致信号不足或梯度爆炸;过于泛化(k太大、α=1、p=2)则会使学习信号被噪声稀释,无法区分类别。
5.3 跨数据集泛化能力
为了检验方法的普适性,我们在六个不同的数据集上进行了测试:MNIST, Fashion-MNIST, CIFAR-10, USPS, SVHN, EMNIST-Letters。
突发性函数的统治性表现: 下表展示了FFCL + 突发性函数在不同数据集上的最佳结果及其相对于SoS基线的提升:
| 数据集 | SoS基线 (ReLU) | FFCL + 突发性 (最佳配置) | 绝对提升 (pp) |
|---|---|---|---|
| MNIST | 88.76% | 98.16% (LN-GELU) | +9.40 |
| Fashion-MNIST | 56.41% | 88.69% (LN-GELU) | +32.28 |
| CIFAR-10 | 37.85% | 55.58% (LN-Swish) | +17.73 |
| USPS | 21.87% | 93.87% (LN-GELU) | +72.00 |
| SVHN | 32.25% | 83.99% (LN-GELU) | +51.74 |
| EMNIST-Letters | 69.91% | 91.62% (GELU) | +21.71 |
结果令人震撼:
- 全面领先:突发性函数在所有六个数据集上均取得了最佳或接近最佳的性能。
- 巨大提升:在USPS和SVHN这类更具挑战性或分布不同的数据集上,提升幅度尤为惊人(分别达到72和52个百分点)。而SoS基线在这些数据集上几乎只有随机猜测的水平。
- 鲁棒性:突发性函数配合预激活归一化(LN-GELU/LN-Swish),在多数困难数据集上表现最好,证明了其尺度不变性带来的强大鲁棒性。
选择性函数的局限性: 与突发性函数的全面强势不同,Top-k等选择性函数在部分数据集(如CIFAR-10, EMNIST)上表现不佳,甚至低于SoS基线。这表明,硬选择策略依赖于激活中具有足够高的信噪比。当数据复杂、噪声较多时,简单地选取Top-k个神经元可能会选中无关的噪声。而突发性函数作为尺度不变的分布统计量,对此类情况更具韧性。
5.4 消融分析与关键发现
-
FFCL的增益模式:FFCL并非对所有函数都有同等提升。它对弱函数(如SoS)提升巨大(+21pp),对强函数(如突发性)提升甚微(<1pp)。这揭示了一个重要结论:一个设计优良的、形状敏感的优良度函数(如突发性)本身就能产生高质量、跨层稳定的学习信号,使得额外的逐层标签监督变得不那么必要。这为设计更简洁的局部学习架构提供了思路。
-
架构缩放的影响:当增加网络深度和宽度时(从2x500到4x2000),SoS的性能下降了4.7个百分点,而Top-k的性能提升了2.4个百分点。这说明SoS产生的弥散信号在更深的网络中会积累更多噪声,而选择性函数产生的清晰信号则能更好地随网络规模扩展。一个惊人的事实是:一个更小的网络(2x500)搭配Top-k,其性能(76.65%)可以超越一个4倍大的网络(4x2000)搭配SoS(56.41%)。这表明,选择正确的优良度函数,比单纯增加网络容量更有效。
-
随机种子敏感性:我们使用5个不同随机种子进行了重复实验。FFCL + 突发性函数在所有数据集上都表现出极低的方差(标准差在0.08到0.23个百分点之间),而SoS基线的方差则大得多(在Fashion-MNIST上标准差达2.19个百分点)。更重要的是,FFCL+突发性的最差结果,也优于SoS基线的最好结果。这证明了我们提出的方法具有卓越的可复现性和稳定性。
6. 总结与工程实践建议
通过系统的理论分析和大量的实验验证,我们确立了Forward-Forward算法中优良度函数设计的核心原则:必须对神经激活的“形状”敏感,而非对其总“能量”敏感。 基于这一原则提出的选择性函数(Top-k, Entmax)和形状敏感函数(突发性/超额峰度,高阶矩),在多个基准数据集上实现了显著的、一致的性能提升,在某些情况下甚至弥合了与反向传播的性能差距。
给实践者的核心建议:
-
首选突发性(超额峰度)函数:对于大多数想尝试Forward-Forward算法的新项目,我强烈建议从突发性函数开始。理由如下:
- 性能最强:在绝大多数设置下,它都是表现最好的单一函数。
- 无需调参:它是一个确定的统计量,没有k、α这样的超参数需要繁琐调整。
- 计算高效:计算开销与SoS相当,远低于Entmax。
- 极其鲁棒:其尺度不变性使其对输入尺度、网络深度、不同数据集都具有天然的适应性,与FFCL结合时性能稳定且方差极低。
-
激活函数搭配:放弃ReLU + SoS的惯性思维。对于形状敏感函数,使用GELU或Swish,并强烈考虑使用预激活LayerNorm(即LN-GELU或LN-Swish)。这能稳定分布,并显著提升选择性函数的性能。
-
FFCL的适用场景:如果你的计算资源允许,总是使用FFCL。它几乎总能带来性能提升或保持稳定,且实现简单。尤其当你不得不使用SoS或性能较差函数时,FFCL是必不可少的补救措施。但对于突发性这类强函数,FFCL的增益很小,你可以根据情况选择是否使用以节省少量参数。
-
参数选择指南:
- Top-k的k:设置为该层神经元总数的 2% 是一个稳健的起点。例如,2000维层,k=40。
- Entmax的α:设置为 1.5。
- 矩函数的p:设置为 5或6。
- 阈值τ:沿用Hinton的设置,2.0 通常工作良好。
- 学习率:Adam优化器,学习率 1e-3 是可靠的起点。
-
从简单开始,逐步复杂:如果你的目标是快速验证或部署,一个简单的配置是:4层全连接网络 + LN-GELU激活 + 突发性优良度函数 + FFCL。这个组合在MNIST和Fashion-MNIST上能取得接近SOTA的结果。如果需要进一步压缩计算或追求极简,可以尝试不使用FFCL,性能损失很小。
未来展望与局限: 我们的工作主要集中在全连接网络和中小型图像数据集上。将形状敏感的优良度函数扩展到卷积网络、更大规模的数据集(如ImageNet)以及自监督学习场景,是未来极具价值的方向。此外,探索这些函数在脉冲神经网络或其他受生物启发模型中的应用,也因其与神经科学中“爆发式放电”概念的关联而显得格外有趣。
Forward-Forward算法作为反向传播的一种替代方案,其潜力的挖掘才刚刚开始。优良度函数的设计是其中最关键的一环。希望本文提供的原则、方法和实践细节,能帮助你更有效地探索这一充满前景的局部学习范式。