AI模型校准与可靠弃权:应对分布偏移下的过度自信预测
1. 项目概述:当AI模型在“陌生”表位前变得过度自信时
在疫苗设计或T细胞疗法开发的早期阶段,计算生物学家和免疫学家们常常面临一个核心挑战:如何从海量的T细胞受体(TCR)与肽段-MHC复合物(pMHC)配对中,精准地预测哪些组合会发生特异性结合。这直接关系到能否高效地找到那些能激活免疫系统、对抗肿瘤或病原体的“钥匙”。近年来,基于深度学习的TCR-pMHC结合预测模型取得了长足进步,在标准测试集上往往能交出漂亮的AUROC(曲线下面积)成绩单。
然而,一个在实践中被反复验证、却容易被标准评估掩盖的“幽灵”问题,叫做“表位偏移”。简单来说,我们训练模型时用的是一批已知的肽段(表位),但当我们真正部署模型去筛选全新的、训练时从未见过的病毒变异株或肿瘤新抗原时,模型的性能往往会悄然下滑。更棘手的是,模型不仅可能预测不准,还会对自己的错误预测表现出“迷之自信”——输出一个很高的置信度分数,误导研究人员将宝贵的实验资源(通常每个候选对的湿实验验证成本在数千至上万美元)浪费在假阳性结果上。
这就引出了我们这次探讨的核心:如何让模型在遇到“陌生”表位时,学会“诚实”地表达“我不确定”? 这不仅仅是提高准确率,更是关于预测的可靠性和可操作性。我们需要的不是一个只会考试(在旧题上拿高分)的模型,而是一个能在未知考场(新表位)中,懂得权衡风险、知道何时该交白卷的“审慎的考生”。
本文要拆解的,正是一套名为“基于校准弃权的可靠TCR-pMHC结合预测”的方法论。它不满足于仅仅输出一个“结合”或“不结合”的二元判断,而是构建了一个三层防御体系:首先,用一个强大的双编码器架构理解TCR和肽段的序列信息;其次,通过“温度缩放”技术,强制校正模型输出概率的系统性偏差,让90%的置信度真的对应约90%的准确率;最后,也是最具创新性的一步,引入“保形预测”框架下的选择性弃权机制。这个机制允许模型根据用户设定的可容忍错误率(比如,“我最多能接受10%的预测出错”),自动放弃对最不确定样本的预测,从而在剩余的、它“有把握”的预测子集上,提供有理论保证的、更低的错误率。
这套方法的价值在于,它将不确定性从一个模糊的概念,转化为了一个可量化、可调控的工程参数。对于实验室负责人而言,这意味着可以根据有限的验证预算(比如只够验证前80%的候选者),明确地设定风险阈值,让模型只输出那些它最有信心的结果,从而极大提升筛选流程的费效比。实验数据表明,在最具挑战性的“表位留出”测试协议下,该方法将模型的预期校准误差降低了69.7%,并且在只保留80%预测结果的情况下,将错误率从18.7%大幅压降至10.9%。
如果你正在从事免疫信息学、AI辅助药物发现,或任何需要在分布偏移下部署高风险预测模型的工作,那么理解并实践这套“校准”与“可靠弃权”的思想,或许能帮你避开许多隐形的坑,让你的模型从“纸上谈兵”走向“实战可靠”。
1.1 核心痛点:分布偏移下的“沉默”失败
要理解这套方法为何必要,我们必须先深入“表位偏移”这个具体场景下的分布偏移问题。在机器学习中,分布偏移指的是模型训练时所用的数据分布,与模型实际部署时遇到的数据分布不一致。对于TCR-pMHC预测,这种不一致性尤为突出。
1.1.1 为何随机划分评估会“说谎”? 绝大多数现有研究在评估模型时,采用随机划分数据集的方式。这种方法将所有TCR-肽段对打乱,随机分成训练集、验证集和测试集。这样做有一个致命问题:同一个肽段(表位)的样本可能同时出现在训练集和测试集中。模型在训练时已经“认识”了这个肽段,甚至可能记住了与之结合的部分TCR模式,因此在测试时表现良好。这就像开卷考试,题目(肽段)都是见过的,自然容易考高分。这种评估方式给出的AUROC(例如0.87+)严重高估了模型面对全新表位时的真实能力。
1.1.2 “表位留出”评估的严酷现实 为了模拟真实部署场景,更严格的评估协议是“表位留出”。即,在划分数据时,确保测试集中所有的肽段,在训练集中从未出现过。模型必须真正去泛化到全新的抗原上。这时,模型的性能通常会显著下降(AUROC可能从0.87跌至0.78)。更重要的是,模型输出的置信度(通常用sigmoid输出的概率值表示)会变得极不可靠。研究发现,神经网络倾向于对分布外的样本(这里是新表位)做出过度自信的预测。一个实际准确率可能只有60%的预测,模型却可能给出90%的置信度。这种“自信的错误”在湿实验验证中代价高昂。
1.1.3 从二元决策到风险管控的思维转变 传统的模型评估聚焦于区分能力(AUROC/AUPRC)和整体准确率。但在资源受限的筛选场景下,决策者面临的是一个权衡:我该相信模型的哪些预测,并投入资源进行验证?理想的模型应该具备“自知之明”:对于有把握的样本,给出高置信度的准确预测;对于没把握的样本,则应该明确“弃权”,交由其他方法(或更昂贵的实验)处理。这引入了两个新的评估维度:
- 校准度:模型输出的置信度概率,是否与其实际正确率相匹配?例如,所有被模型赋予0.9置信度的样本中,是否真的有90%是正确的?
- 覆盖度-风险曲线:如果模型只对最有把握的一部分样本做出预测(覆盖度),那么在这部分样本上的错误率(风险)是多少?通过调整弃权阈值,我们可以画出一条曲线,直观展示用多少覆盖度换取多少风险降低。
我们的目标,就是构建一个既能良好区分、又经过校准、同时支持可控弃权的可靠预测系统。
2. 方法论深度拆解:三层架构构建可靠预测
面对上述痛点,一个可靠的预测系统需要从特征表示、概率校正和决策规则三个层面进行系统性设计。下面我们逐一拆解这套方法的核心组件。
2.1 基石:基于蛋白质语言模型的双编码器
模型的输入是两个序列:TCR的CDR3区(通常包含α链和β链)和肽段序列。如何有效地表征这些氨基酸序列是第一步,也是决定模型理解能力上限的关键。
2.1.1 为何选择ESM-2作为编码器? 早期方法依赖于手工设计的理化特征或简单的序列编码(如one-hot)。近年来,基于Transformer架构、在海量蛋白质序列上无监督预训练得到的蛋白质语言模型(如ESM-2),已成为生物序列表示学习的“利器”。ESM-2通过在大规模进化数据(数亿条序列)上学习,能够捕捉到氨基酸之间深层次的语法和语义关系,理解哪些突变是保守的,哪些区域可能具有重要的结构或功能。使用预训练的ESM-2作为编码器,相当于为我们的任务引入了一个强大的“先验知识库”,让模型即使在小规模的、有标签的TCR-pMHC数据上训练,也能获得更好的泛化能力。
注意:这里使用的是ESM-2的650M参数版本。在实践中,需要根据计算资源权衡模型大小。更大的模型(如3B、15B参数)可能带来更丰富的表示,但也会显著增加计算成本和推理时间。对于大多数研究团队,650M版本在效果和效率上是一个较好的平衡点。
2.1.2 双编码器架构的具体实现 架构采用“双塔”形式,但共享一个预训练ESM-2模型的参数。
- 独立编码:TCR序列(将CDR3α和CDR3β用特定分隔符连接)和肽段序列分别输入同一个ESM-2模型。
- 特征提取:ESM-2为序列中的每个氨基酸token输出一个高维上下文嵌入向量。我们对非填充(non-padding)位置的所有token向量进行均值池化,为每个序列得到一个固定大小的全局表示向量(维度为1280)。
- 特征融合与分类:将得到的TCR表示向量和肽段表示向量进行拼接,形成一个2560维的联合特征向量。随后,这个联合向量被送入一个轻量级的多层感知机进行分类。这个MLP通常设计为两层,隐藏层维度为512,使用GELU激活函数,并加入LayerNorm和Dropout(如p=0.2)来防止过拟合。最终,MLP输出一个标量值,通过sigmoid函数映射为预测的结合概率。
这种架构的优势在于,它允许TCR和肽段的信息在早期独立进行深度编码,避免了过早融合可能造成的信息混淆,同时又在高层进行充分的交互。
2.1.3 处理极端类别不平衡
TCR-pMHC结合数据的一个典型特征是正样本(结合对)极其稀少,通常只占数据集的4%-5%。如果直接使用标准交叉熵损失,模型会严重偏向于预测为负类,因为这样就能轻松获得很高的准确率(但完全无法发现结合对)。
解决方案是使用类别加权交叉熵损失。具体地,为阳性样本和阴性样本分配不同的权重。通常,权重设置为各自类别样本数倒数的归一化形式:w_positive = 总样本数 / (2 * 正样本数), w_negative = 总样本数 / (2 * 负样本数)。这样,模型在训练时会更加“关注”稀有的正样本,鼓励它去学习识别那些细微的结合信号。
2.2 矫正:温度缩放——让置信度回归真实
即使模型经过了良好的训练,其输出的原始概率(sigmoid值)也常常是“失准”的。特别是面对分布外样本时,神经网络倾向于输出过于极端的概率(接近0或1),即过度自信。温度缩放是一种极其简单却异常有效的后处理校准技术。
2.2.1 温度缩放的原理与操作
你可以把模型的原始输出逻辑值 z 想象成未经过“温度”调节的原始分数。sigmoid函数 σ(z) = 1/(1+exp(-z)) 直接将其转化为概率。温度缩放引入一个可学习的正数参数 T(温度),将校准后的概率定义为 σ(z/T)。
- 当
T > 1时,相当于“加热”,使得sigmoid函数的曲线变得更加平缓,极端概率(接近0或1)会向0.5方向靠拢,从而降低模型的自信度。 - 当
T < 1时,相当于“降温”,曲线变得更陡峭,概率会更趋向两极,增加自信度(但通常用于校正欠自信的情况,在实践中较少见)。
2.2.2 如何学习这个“温度”?
温度参数 T 不是在主训练任务中学到的,而是在一个独立的校准集上通过优化一个校准目标学到的。这个校准集必须与测试集同分布(在我们的场景下,同样采用“表位留出”方式划分)。优化的目标是负对数似然:我们希望校准后的概率,在整个校准集上,对真实标签的似然性最大。这是一个单参数优化问题,通常可以用简单的线性搜索或梯度下降法快速求解。
2.2.3 为何它如此有效? 温度缩放之所以强大,在于它只增加了一个自由度,却能够校正概率输出中系统性的偏差(如全局性的过度自信),而不会改变样本预测概率的相对顺序。这意味着,温度缩放能显著改善预期校准误差,但不会影响AUROC(因为排序没变)。这完美地解耦了“区分能力”和“概率质量”这两个评估维度。一个经过温度缩放的模型,其输出的0.9置信度,才更有可能意味着90%的真实正确率。
2.3 决策:保形预测框架下的可靠弃权
这是将可靠性转化为可操作决策的关键一步。温度缩放给了我们较好的校准概率,但我们还需要一个原则性的方法,来决定在什么阈值下应该弃权。保形预测提供了一个具有统计理论保证的框架。
2.3.1 非共形分数:衡量“不匹配”程度
对于校准集中的每一个样本 (x_i, y_i),我们根据校准后的模型计算一个非共形分数。这个分数衡量的是预测概率与真实标签之间的不匹配程度。一个常用且直观的定义是:
s_i = 1 - [p_i^{y_i} * (1-p_i)^{1-y_i}]
其中,p_i 是模型对样本 i 预测的校准后概率(对于正类,即结合的概率)。
- 如果预测完全正确且置信度极高(例如,真实标签y=1,预测概率p=0.99),则
s_i = 1 - 0.99 ≈ 0.01,分数很小。 - 如果预测错误(例如,y=1, p=0.01),则
s_i = 1 - 0.01 = 0.99,分数很大。 - 如果预测正确但信心不足(y=1, p=0.6),则
s_i = 1 - 0.6 = 0.4,分数中等。
因此,非共形分数越小,说明模型预测得越好、越有把握。
2.3.2 计算弃权阈值
用户首先设定一个目标错误率 ε(例如,10%)。这意味着,我们希望模型在不弃权的那些预测中,错误率不超过 ε。
- 我们在校准集上计算出所有样本的非共形分数
{s_1, s_2, ..., s_n}。 - 将这些分数从小到大排序。
- 取第
⌈(1-ε)(n+1)⌉个最小的分数作为弃权阈值τ_ε。(⌈·⌉表示向上取整)。
这个计算方式基于保形预测的理论,它保证了在测试集与校准集满足“可交换性”(可以粗略理解为同分布)的前提下,模型在测试集上做出预测(即不弃权)的那些样本中,其错误率以高概率不超过 ε + 一个很小的误差项。这为我们提供了有限样本下的统计保证。
2.3.3 测试时的弃权决策
对于一个新的测试样本 x_test:
- 用校准后的模型计算其预测概率
p_test和非共形分数s_test。 - 如果
s_test ≤ τ_ε,说明这个样本的“不匹配程度”低于阈值,模型对其比较有把握,因此输出预测结果(例如,p_test > 0.5则判为结合)。 - 如果
s_test > τ_ε,说明这个样本对于当前模型来说太“奇怪”或太难了,不确定性太高。此时模型选择弃权,不给出预测。
通过调整 ε,决策者可以直接控制风险水平。ε 设得越小,阈值 τ_ε 就越小,弃权的样本就越多(覆盖度越低),但剩余样本上的错误率也越低。这便形成了可调控的覆盖度-风险权衡。
3. 实验设计与结果分析:数据如何说话
任何方法的有效性都需要在严谨的实验设计下进行验证。本节将详细还原论文中的实验设置,并解读关键结果,看看这套“校准弃权”组合拳在实际数据上表现如何。
3.1 数据集构建与评估协议
实验的可靠性首先建立在数据划分的合理性上。作者构建了一个融合VDJdb和IEDB数据库的精选数据集,只保留具有完整CDR3α、CDR3β和肽段序列信息的人源TCRαβ对(限制于HLA-A*02:01等位基因)。通过90%序列同一性的阈值去重后,通过随机配对TCR与非对应肽段的方式构造负样本,将正样本率控制在~4-5%,模拟真实世界的稀疏结合场景。
为了全面评估模型在不同挑战下的表现,他们采用了三种数据划分策略,这构成了评估的“三重奏”:
- 随机划分:作为性能上界的参考。将全部数据随机打乱,按70%/10%/20%划分为训练集、校准集和测试集。这是最常见的评估方式,但如前所述,会因数据泄露而高估模型面对新表位的能力。
- 表位留出划分:模拟最严苛也最现实的部署场景。随机选择一部分肽段(例如15个),将这些肽段对应的所有TCR-肽段对整体放入测试集。训练集和校准集则完全由其他肽段的数据构成。这迫使模型必须泛化到从未在训练中见过的肽段上。
- 距离感知划分:侧重于评估模型对新TCR的泛化能力。确保测试集中的每一个TCR,其CDR3β序列与训练集中的任何TCR的相似度(基于氨基酸序列的编辑距离)都低于一个阈值(如70%)。这测试了模型超越训练集中已见TCR模式的能力。
3.2 核心结果:校准与弃权如何提升可靠性
下表展示了在三种划分策略下,不同方法在全覆盖(即不弃权)时的性能对比。CAP即我们提出的完整方法(校准+弃权,但此时弃权阈值设为0,即全覆盖)。
| 划分策略 | 方法 | AUROC | AUPRC | ECE↓ | Brier Score↓ | NLL↓ |
|---|---|---|---|---|---|---|
| 表位留出 | Baseline | 0.782 | 0.431 | 0.142 | 0.089 | 0.213 |
| +TempScale | 0.786 | 0.438 | 0.068 | 0.082 | 0.184 | |
| CAP (Ours) | 0.813 | 0.472 | 0.043 | 0.071 | 0.162 | |
| 距离感知 | Baseline | 0.761 | 0.408 | 0.156 | 0.094 | 0.231 |
| +TempScale | 0.765 | 0.415 | 0.079 | 0.088 | 0.201 | |
| CAP (Ours) | 0.789 | 0.447 | 0.051 | 0.078 | 0.179 | |
| 随机 | Baseline | 0.871 | 0.623 | 0.098 | 0.061 | 0.149 |
| +TempScale | 0.874 | 0.629 | 0.041 | 0.058 | 0.132 | |
| CAP (Ours) | 0.882 | 0.641 | 0.028 | 0.053 | 0.121 |
关键解读:
- 分布偏移的显著影响:对比
Baseline在随机划分和表位留出划分下的AUROC(0.871 vs 0.782),性能下降了超过10%。这清晰地表明,仅凭随机划分的优异表现就断言模型“可用”是危险的,评估协议必须与部署场景对齐。 - 温度缩放的核心作用:
+TempScale相比Baseline,在AUROC几乎不变的情况下,将ECE(预期校准误差)降低了超过50%(例如表位留出下从0.142降至0.068)。这完美印证了温度缩放能独立地、极大地改善概率校准,而不损害模型的区分能力。 - 完整CAP方法的综合优势:
CAP方法在几乎所有指标上都取得了最佳结果。它不仅保持了最低的ECE(最好的校准度),还同时提升了AUROC和AUPRC(更好的区分能力)。这表明,将校准过程(温度缩放)与面向校准目标的训练/评估流程结合,可能对模型的学习产生了正则化效果,使其产生了更稳健、更可靠的表示。
3.3 覆盖度-风险权衡:从理论到实践的桥梁
全覆盖评估展示了模型的“平均素质”,但选择性弃权的威力在于其提供的可控性。下表展示了在表位留出划分下,使用CAP方法并调整弃权阈值,从而在不同覆盖度下达到的错误率。
| 覆盖度 | 错误率↓ | ECE↓ | AUPRC↑ | 弃权比例 |
|---|---|---|---|---|
| 100% | 0.187 | 0.043 | 0.472 | 0.0% |
| 90% | 0.152 | 0.031 | 0.523 | 10.0% |
| 80% | 0.109 | 0.022 | 0.571 | 20.0% |
| 70% | 0.081 | 0.017 | 0.614 | 30.0% |
| 60% | 0.058 | 0.013 | 0.652 | 40.0% |
决策场景模拟: 假设一个实验室的预算只允许对模型筛选出的候选进行80%的湿实验验证。如果使用未经弃权的原始模型(覆盖度100%),他们需要承受18.7%的错误率。而采用CAP方法,并设定目标覆盖度为80%,模型会自动放弃对最不确定的20%样本的预测。在它选择做出预测的这80%样本中,错误率骤降至10.9%,相对降低了41.7%。同时,这部分“高置信”子集的预测质量(AUPRC)也从0.472提升到了0.571。
实操心得:这条覆盖度-风险曲线是模型部署前必须绘制和分析的“操作手册”。它让项目负责人能够根据预算(能验证多少样本)和风险容忍度(能接受多少错误),精确地设定模型的工作点。例如,在早期探索阶段,为了不漏掉任何潜在靶点,可以接受较高的覆盖度和风险;而在后期验证阶段,为了节约成本,则可以收紧阈值,只验证最可靠的预测。
3.4 消融实验:每个组件贡献几何?
为了厘清各个组件的贡献,作者在表位留出划分下进行了消融研究:
| 配置 | AUROC | AUPRC | ECE↓ |
|---|---|---|---|
| CAP (完整) | 0.813 | 0.472 | 0.043 |
| 移除温度缩放 | 0.813 | 0.472 | 0.142 |
| 移除类别权重 | 0.801 | 0.429 | 0.045 |
| 移除CDR3α信息 | 0.798 | 0.451 | 0.047 |
| 仅温度缩放(无弃权) | 0.786 | 0.438 | 0.068 |
| Baseline (无上述任何) | 0.782 | 0.431 | 0.142 |
组件价值分析:
- 温度缩放:对AUROC/AUPRC无影响,但对校准度(ECE)有决定性影响。移除后ECE飙升至基线水平,凸显了其校正系统偏差的核心作用。
- 类别加权:对AUPRC提升明显(0.472 vs 0.429)。AUPRC对正样本的发现能力更敏感,这证实了在极端不平衡数据中,给予正样本更多关注对提升模型“找真阳”的能力至关重要。
- CDR3α信息:包含α链信息能带来小幅但一致的性能提升(AUROC +0.015),这与生物学认知一致:虽然β链主导识别,但α链也参与其中并提供补充信息。
- 弃权机制:对比“仅温度缩放”和完整CAP,弃权机制在设定覆盖度后(见上表)能主动筛选出高置信子集,从而在该子集上实现更低的错误率和更高的AUPRC,这是其核心操作价值。
4. 实战指南与避坑要点
理解了原理和结果,如何将这套方法应用到自己的项目中?以下是一些关键的实操步骤和必须警惕的“坑”。
4.1 实施流程分解
-
数据准备与划分:
- 严格遵循任务相关的划分:这是最重要的一步。如果你的最终目标是预测新表位,那么从数据划分开始就必须采用“表位留出”或类似策略。绝对不要在包含测试表位的任何数据上训练或调整超参数。
- 构建校准集:从训练数据中单独划分出一部分作为校准集(例如10%)。校准集用于学习温度参数
T和计算保形阈值τ。它必须与测试集同分布(即,如果测试集是新表位,校准集也应由未见过的表位组成,但不同于测试表位)。
-
模型训练:
- 使用预训练编码器:强烈建议使用ESM-2等预训练蛋白质语言模型作为编码器。从头训练Transformer在如此规模的数据上几乎不可能获得好的泛化能力。
- 实施类别加权损失:在训练代码中,根据正负样本比例动态计算并应用权重。大多数深度学习框架(PyTorch, TensorFlow)的损失函数都支持
weight参数。 - 监控校准损失:除了传统的准确率、AUROC,在验证集上可以开始计算ECE或绘制可靠性曲线,及早发现校准问题。
-
校准与阈值计算:
- 温度缩放:在独立的校准集上,固定模型权重,仅优化温度参数
T,以最小化负对数似然损失。这是一个一维凸优化问题,用Brent法等算法可以快速收敛。 - 计算非共形分数:用校准后的模型,在同一个校准集上为每个样本计算非共形分数
s_i。 - 确定弃权阈值:根据用户设定的目标错误率
ε,对校准集的非共形分数排序,找到对应的分位数作为阈值τ_ε。
- 温度缩放:在独立的校准集上,固定模型权重,仅优化温度参数
-
测试与部署:
- 对每个测试样本,用校准后的模型计算概率和非共形分数。
- 比较非共形分数与阈值
τ_ε,决定是输出预测还是弃权。 - 在报告中,除了传统指标,必须汇报覆盖度-风险曲线,并说明在特定覆盖度下的性能。
4.2 常见陷阱与解决方案
陷阱一:校准集与测试集分布不一致
- 问题:如果校准集来自随机划分,而测试集面临表位偏移,那么学到的温度
T和阈值τ将失效,无法保证测试集上的覆盖度承诺。 - 解决方案:校准集的划分策略必须与测试集严格一致。如果是表位留出评估,那么校准集也应由留出的表位(但与测试集不同)组成。
陷阱二:保形预测的“边际”覆盖度保证
- 问题:保形预测提供的是边际覆盖度保证,即对所有测试样本平均而言的错误率控制。它不保证在每一个子群体(例如,针对某个特定罕见HLA型别)内都能满足该错误率。在分布偏移特别严重的子群体中,错误率可能超标。
- 解决方案:意识到这一理论限制。在可能的情况下,可以尝试按不同子群体(如不同HLA超型)分别构建校准集和计算阈值,以获得条件性更强的保证。或者,在结果解读时,对模型在已知子群体上的表现保持谨慎。
陷阱三:负样本构建引入的偏差
- 问题:通过随机配对构造的负样本,可能包含一些弱结合或未被实验检测到的结合对(假阴性)。这会影响模型学习到的决策边界,并导致对精确率(Precision)和校准度的乐观估计。
- 解决方案:这是该领域普遍存在的挑战。可以尝试使用更严格的负样本筛选策略(如基于质量控制的阴性数据),或使用对噪声标签更鲁棒的损失函数。在解读精度相关指标(如AUPRC)时,需考虑这一偏差。
陷阱四:过度依赖单一指标
- 问题:只报告随机划分下的AUROC,会严重误导对模型实用性的判断。
- 解决方案:建立多维度的评估体系。至少应包含:
- 区分能力:在相关分布偏移(如表位留出)下的AUROC和AUPRC。
- 校准质量:ECE、可靠性曲线图。
- 操作性能:覆盖度-风险曲线,以及在几个关键覆盖度(如80%, 90%)下的错误率、精确率等。
4.3 扩展与进阶思考
- 超越温度缩放:温度缩放是单参数校准,适用于校正全局性的过度/欠自信。对于更复杂的、与输入相关的校准误差,可以考虑向量缩放或矩阵缩放等方法,但需警惕过拟合风险。
- 不确定性来源分解:模型的不确定性既来自数据本身的随机性(偶然不确定性),也来自模型认知的不足(认知不确定性)。蒙特卡洛Dropout或深度集成等方法可以估计认知不确定性,与保形预测结合,或许能提供更精细的不确定性量化。
- 主动学习循环:被模型弃权的样本,正是其“不确定”的样本。这些样本可以优先被选择进行湿实验验证,然后将结果反馈给模型进行重新训练。这构成了一个“模型预测 -> 弃权筛选 -> 实验验证 -> 模型更新”的主动学习闭环,能高效地利用实验资源提升模型在困难区域的能力。
这套“基于校准弃权”的框架,其核心思想超越了TCR-pMHC预测的特定领域。在任何需要在高风险、资源受限、且面临分布偏移的场景下部署机器学习模型时——无论是医疗诊断、金融风控还是自动驾驶——让模型学会说“我不知道”,并为其不确定性提供统计意义上的保证,都是迈向可靠人工智能系统的关键一步。它迫使我们从追求单一的“准确率”竞赛,转向构建可解释、可信赖、可操作的决策支持系统。