T-SHAP:为时序动作识别模型提供稳定可解释性的后处理方案
1. 项目概述:当AI需要向医生“解释”自己时
在医疗健康监测,尤其是老年人跌倒检测这个领域,我们正面临一个深刻的矛盾。一方面,以深度学习为代表的人工智能模型,凭借其强大的模式识别能力,在识别复杂的人体动作(如跌倒)上展现出了超越传统方法的潜力。但另一方面,这些模型通常被视为“黑箱”——它们能给出“跌倒”或“未跌倒”的预测,却无法告诉我们“为什么”做出这个判断。对于临床医生和护理人员而言,一个无法解释的警报,其价值是有限的,甚至可能因为频繁的误报而引发“警报疲劳”,最终被弃用。
这就是可解释人工智能(XAI)登场的背景。它的核心使命,是搭建一座桥梁,连接模型内部复杂的数学计算与人类可理解的决策逻辑。在众多XAI方法中,SHAP(Shapley Additive Explanations)因其坚实的博弈论基础而备受青睐。它通过计算每个特征(例如,人体骨架中某个关节在某个时刻的坐标)对最终预测的“贡献度”,生成一份清晰的“贡献清单”。理论上,这完美契合了医疗场景的需求:我们不仅能知道老人跌倒了,还能知道是“因为左膝在某一瞬间的异常弯曲角度触发了警报”。
然而,理想很丰满,现实却很骨感。当我们把标准的SHAP直接套用到时序数据——比如一段连续100帧的骨架动作序列——时,问题出现了。模型对每一帧独立计算SHAP值,导致生成的归因热图在时间轴上剧烈抖动、支离破碎。可能第50帧显示“右髋关节”是关键,第51帧却变成了“左手腕”,第52帧又跳回“脊柱”。这种时间上的不稳定性,让临床专家无所适从:他们无法从中提炼出连贯、有临床意义的运动模式(例如,“重心在1秒内持续向左偏移”)。这种解释与其说是“洞察”,不如说是“噪声”,严重损害了XAI在安全关键应用中的可信度。
因此,我们这项工作的出发点非常明确:在保持SHAP理论严谨性和模型预测高性能的前提下,解决其应用于时序数据时产生的时间不稳定性问题。我们提出的解决方案是T-SHAP(Temporally Stable SHAP)。这并非一个全新的模型,而是一个轻量级的后处理策略。它的核心思想借鉴了信号处理中的经典思路:对时间序列信号进行平滑滤波,以抑制高频噪声,凸显低频的、有意义的趋势。T-SHAP对逐帧计算的SHAP值序列进行时间窗内的线性平滑,从而生成时间上连贯、稳定的归因图。这使得模型能够清晰地指出,是“从第30帧到第60帧,脊柱弯曲角度持续增大”这一持续过程导致了跌倒判断,而非某个孤立的、可能随机的瞬间。
这项工作不仅仅是一个算法改进。它瞄准的是AI在真实医疗场景中落地的一个核心瓶颈:可信度。我们相信,一个既准确又可稳定解释的跌倒检测系统,才能真正融入临床工作流,成为医护人员值得信赖的决策辅助工具,而不仅仅是一个偶尔会“乱叫”的复杂仪器。
2. 核心思路与方案设计:在效率、性能与可解释性之间寻找平衡点
构建一个面向实时医疗监测的系统,必须在多个相互制约的目标间取得精妙的平衡:高精度、低延迟、强可解释性、低计算开销。我们的方案设计正是围绕这四个支柱展开的。
2.1 骨架数据:隐私与效率的天然优势
我们选择基于骨架的人体动作识别(Skeleton-Based HAR)作为技术基底,这首先源于对实际应用场景的考量。与直接处理RGB视频流相比,骨架数据(一系列关节的2D或3D坐标)具有两大显著优势:
- 隐私保护性强:它剥离了人物的外貌、衣着等敏感信息,只保留必要的运动学信息,更符合医疗场景的伦理与法规要求。
- 数据维度低,抗干扰能力强:背景杂乱、光照变化、遮挡等问题对RGB视频影响巨大,但对从中稳定提取的骨架序列影响相对较小。这简化了模型需要学习的内容,使其更专注于运动模式本身。
在NTU RGB+D数据集中,我们使用25个关节的3D坐标(X, Y, Z)来表示每一帧的姿态。对于一个长度为T的序列,其输入数据形状为 [T, 25, 3]。在预处理中,我们将其展平为 [T, 75] 的向量,作为模型输入。这种表示方法极大地压缩了数据量,为后续的实时处理奠定了基础。
2.2 模型选型:为什么是LSTM而非更时髦的GCN或Transformer?
当前骨架动作识别的学术前沿,无疑是图卷积网络(GCN)和Transformer的天下。ST-GCN、2s-AGCN等模型通过显式建模关节间的空间拓扑关系(即人体骨骼图),取得了优异的性能。Vision Transformer等模型则通过自注意力机制捕捉长程依赖。那么,我们为何“反其道而行之”,选择相对传统的LSTM(长短期记忆网络)?
这背后是一系列务实的工程权衡:
- 计算复杂度与实时性:这是最关键的约束。LSTM处理长度为T的序列,其时间复杂度大致为
O(T * (d*h + h^2)),其中d是输入维度(75),h是隐藏层维度(128)。这是一个与序列长度T呈线性增长的关系。而Transformer的自注意力机制复杂度是O(T^2 * d),是平方级的。对于需要实时处理(通常要求<100ms延迟)的跌倒检测系统,在资源受限的边缘设备(如嵌入式GPU、甚至高端移动处理器)上,