集群随机试验中胜率统计量的推断方法:原理、应用与选择策略
1. 集群随机试验与胜率统计量:为什么我们需要新的推断方法?
在临床研究的工具箱里,集群随机试验(CRT)正变得越来越不可或缺。想象一下,你要评估一个旨在改善社区糖尿病患者血糖管理的公共卫生项目。你不可能把同一个社区里的居民随机分到干预组和对照组——他们共享着相同的社区资源、医生和健康教育讲座,干预措施会不可避免地“渗透”到对照组,这就是所谓的“污染效应”。因此,最科学的方法是把整个社区作为一个单元,随机分配其接受新项目或常规护理。这种以集群(如医院、学校、社区)为单位进行随机化的设计,就是CRT。它完美契合了现实世界研究和实施科学的需求,但同时也带来了一个核心的统计挑战:集群内的个体数据不再是独立的。同一个社区里的居民,他们的健康结局会因共享的环境、医疗资源和社交网络而相互关联。
与此同时,临床结局的评估也日趋复杂。我们不再满足于只看患者是否死亡(虽然这至关重要),还想知道他们住院了多久、生活质量如何、医疗花费多少。这些多个维度的结局构成了复合终点。传统的复合终点,比如主要不良心血管事件(MACE),把死亡、心梗、卒中简单相加,赋予它们同等权重。但这显然不符合临床直觉——死亡比非致死性心梗严重得多。于是,层次复合终点应运而生。它像一位经验丰富的临床医生,在面对一对患者时,会优先比较最重要的结局(比如生存状态),只有当这个结局打平时,才去比较次重要的结局(比如住院时间)。这种“优先级排序”的思想,正是胜率统计量(Win Statistics)的基石。
胜率统计量不是一个单一的指标,而是一个基于成对比较的方法论家族。它的工作方式非常直观:从干预组和对照组各随机抽取一名患者,按照预设的临床重要性顺序,逐一比较他们的各项结局。如果干预组患者在更重要的结局上表现更好,则判定为“赢”;反之则为“输”;如果所有结局都难分伯仲,则为“平局”。通过大量这样的“虚拟对决”,我们可以计算出赢、输、平局的概率,进而衍生出四个核心指标:
- 胜率差(Net Benefit, WD):
赢的概率 - 输的概率。这是一个绝对度量,直观解释为“干预组患者比对照组患者获得更好结局的净优势概率”。 - 胜率比(Win Ratio, WR):
赢的概率 / 输的概率。这是一个相对度量,类似于风险比,表示赢的机会是输的多少倍。 - 胜率优势比(Win Odds, WO):
(赢的概率 + 0.5 * 平局概率) / (输的概率 + 0.5 * 平局概率)。它对平局进行了折中处理,当平局很多时(例如在存在大量删失的生存分析中),比WR更稳定。 - 结局排序期望(DOOR):
赢的概率 + 0.5 * 平局概率。可以理解为干预组患者结局优于或等同于对照组患者的概率,其值在0到1之间,0.5表示无差异。
这四个指标如同一枚多棱镜,从绝对效益、相对效益和概率角度,共同描绘出治疗效果的完整图景。它们共享同一套成对比较的数据基础,只是解读的视角不同。
那么,当CRT的“集群相关性”遇上胜率统计量的“成对比较”,火花(或者说挑战)就产生了。在独立个体随机试验中,我们可以把每一次比较视为独立的。但在CRT中,来自同一个集群的两个患者,他们的数据是相关的。如果你用标准方法(假设所有比较独立)去计算方差,会严重低估真实的不确定性,导致假阳性率(I类错误)膨胀——你可能会错误地认为一个无效的干预是有效的。因此,发展能够正确处理集群内相关性的胜率统计量推断方法,是确保CRT科学严谨性的关键。本文正是要深入探讨,面对这个挑战,我们手上有哪些统计武器,以及它们各自的性能如何。
2. 核心推断框架:从成对比较到集群水平推断
要理解各种检验方法,我们必须先回到胜率统计量的计算本源。所有推断都始于对那个最基础的量——胜率差(WD)——的估计。
2.1 估计量的两种等价视角
假设我们有一个平行设计的CRT,共有 M 个集群,其中 qM 个被随机分配到干预组(A=1),其余分配到对照组(A=0)。第 i 个集群有 Ni 个个体。对于任意一个“干预组-对照组”个体对 (i,j) 和 (k,l),我们根据层次比较规则计算一个得分 s_{ij,kl}:赢为+1,输为-1,平局为0。
视角一:基于所有成对比较的加总
这是最直接的估计方式,即把所有干预-对照对的结果加起来:
\hat{WD} = (1/(n1*n0)) * Σ_{i,j} Σ_{k,l} A_i*(1-A_k) * s_{ij,kl} = (W - L) / (n1*n0)
其中,W 和 L 分别是总赢数和总输数,n1 和 n0 是两组的总人数。这个公式清晰地体现了 \hat{WD} 作为“净赢比例”的本质。
视角二:基于集群秩和的表示
通过巧妙的代数重组,上面的公式可以变形为:
\hat{WD} = (1/(n1*n0)) * Σ_{i=1}^{M} A_i * S_i
其中,S_i = Σ_{j=1}^{Ni} Σ_{k=1}^{M} Σ_{l=1}^{Nk} s_{ij,kl}。这个 S_i 可以被理解为第 i 个集群对所有其他集群中个体的“净得分”。对于干预组集群(A_i=1),S_i 被加入总和;对于对照组集群,虽然 S_i 也被计算,但因其 A_i=0 而不影响 \hat{WD}。
关键理解:第二种视角是CRT推断的基石。它将估计量表达为了集群水平统计量
S_i的线性组合。这意味着,尽管原始数据在个体层面存在复杂的相关性,但驱动\hat{WD抽样变异性的,是这M个集群水平的得分S_1, S_2, ..., S_M。由于集群之间的随机化是独立的,这M个S_i在渐近意义上可以被视为(近似)独立的。这就为我们利用中心极限定理进行推断打开了大门。
2.2 假设检验的统一目标
无论我们关注 WD、log(WR)、log(WO) 还是 DOOR,我们的零假设都可以统一表述为:治疗没有效果。具体来说:
- 对于
WD,log(WR),log(WO):H0: τ = 0 - 对于
DOOR:H0: τ = 0.5(因为无效应时,DOOR应为0.5)
我们的任务就是构建一个检验统计量 Z = (\hat{τ} - τ_0) / se(\hat{τ}),并判断它是否足够极端以拒绝零假设。所有方法的分歧,都集中在如何计算这个标准误 se(\hat{τ}),或者如何获得检验统计量的参考分布上。
3. 五大推断方法详解与实操考量
基于上述框架,我们系统地梳理并实现了几类主要的推断方法。下表概括了它们与不同胜率统计量的适配情况:
| 检验方法 | 技术核心 | 胜率比 (WR) | 胜率优势比 (WO) | 净获益 (WD) | 结局排序期望 (DOOR) |
|---|---|---|---|---|---|
| Wald检验 | 基于聚类秩和统计量 | Fang et al. (2025) | Fang et al. (2025) | Fang et al. (2025) | 本文实现 |
| 基于双变量聚类U统计量 | Zhang & Jeong (2021) | 本文实现 | 本文实现 | 本文实现 | |
| 得分检验 | 基于集群置换 | 本文实现 | 本文实现 | 本文实现 | 本文实现 |
| 基于解析置换方差 | 本文实现 | 本文实现 | 本文实现 | 本文实现 | |
| 聚类刀切法 | 基于留一集群刀切方差 | 本文实现 | 本文实现 | 本文实现 | 本文实现 |
| 似然比检验 | 基于刀切经验似然 | 本文实现 | 本文实现 | 本文实现 | 本文实现 |
接下来,我们深入每一类方法。
3.1 Wald检验:基于方差的渐近推断
Wald检验是频率学统计推断的经典方法,其核心是构建一个服从标准正态分布(或t分布)的Z统计量。在CRT的背景下,关键是如何估计 \hat{τ} 的方差。
3.1.1 方法一:基于聚类秩和统计量的方差估计
这种方法直接利用 \hat{WD} = (1/(n1*n0)) Σ A_i S_i 的表示形式。
- 计算集群得分:对于每个集群
i,计算其净得分S_i。 - 计算组内方差:分别计算干预组和对照组内
S_i的样本方差。记σ1^2为干预组S_i的方差,σ0^2为对照组S_i的方差。 - 估计
\hat{WD}的方差:理论推导表明,\hat{WD}的渐近方差为:Var(\hat{WD}) ≈ [Mq(1-q)/(n1 n0)]^2 * [σ1^2/(qM) + σ0^2/((1-q)M)]用样本方差替换总体方差,即可得到方差估计值\hat{σ}_WD^2。 - 扩展到其他统计量:由于
log(\hat{WR}),log(\hat{WO}),\hat{DOOR}都是(\hat{WD}, \hat{π}_{tie})的平滑函数,我们可以使用Delta方法进行转换。例如,\hat{DOOR} = (1+\hat{WD})/2,因此Var(\hat{DOOR}) = Var(\hat{WD}) / 4。对于log(\hat{WR})和log(\hat{WO}),公式稍复杂,但原理相同。
实操心得与注意事项:
- 优势:计算相对直接,概念上与经典的两样本t检验(用集群得分代替个体观测值)类似,易于理解和实现。
- 关键假设:该方法依赖于渐近正态性,即当集群数量
M足够大时,\hat{WD}的分布近似正态。对于小集群数(如M < 20)的情况,可能需要使用t分布(自由度为M-2)进行校正。- 对异质性敏感:该方法自然地处理了集群大小不等(
Ni可变)的情况,因为异质性已经体现在每个集群的得分S_i中。
3.1.2 方法二:基于双变量聚类U统计量的方差估计
这是Zhang & Jeong (2021) 为胜率比(WR)提出的方法,我们将其推广至所有胜率统计量。它将 (\hat{π}_{win}, \hat{π}_{loss}) 视为一个双变量的聚类U统计量。
- 重新表述估计量:定义
U_{win}和U_{loss}为所有跨治疗组集群对之间赢和输的指示函数之和,再除以可能的配对总数。 - 计算投影与协方差:核心思想是计算每个个体在赢和损失核函数上的一阶Hájek投影。简单来说,就是固定一个个体的结局,计算其相对于另一组所有个体“平均而言”的赢/输期望,并与总体概率相减得到“中心化投影”。
- 聚合到集群水平:将集群内所有个体的投影值相加,得到集群水平的投影和
G_i^{win}和G_i^{loss}。 - 估计方差-协方差矩阵:
(U_{win}, U_{loss})的协方差矩阵Σ_U可以分解为干预组和对照组集群投影和协方差矩阵的加权和,形如Σ_U = (N0^2/M1) * Σ1 + (N1^2/M0) * Σ0。其中Σ1和Σ0分别用两组内G_i的样本协方差矩阵来估计。 - Delta方法转换:得到
(\hat{π}_{win}, \hat{π}_{loss})的协方差矩阵估计后,再次利用Delta方法,通过梯度向量∇g转换到目标统计量τ的方差估计:\hat{σ}_τ^2 = ∇g^T \hat{Σ}_π ∇g。
实操心得与注意事项:
- 理论更通用:此方法基于U统计量理论,为胜率统计量在CRT下的渐近性质提供了严格的理论基础。
- 计算更复杂:需要计算每个个体的投影值,计算量比方法一大。对于大规模数据集,可能需要优化算法。
- 清晰分解相关性:方差公式明确包含了个体内相关性(同一个体的不同结局间相关)和个体间相关性(同一集群内不同个体间相关)的贡献,有助于理解ICC如何影响检验效能。
3.2 得分检验:利用随机化本身进行推断
得分检验不依赖于大样本渐近理论,而是利用CRT设计本身的随机化特性来构建参考分布。
3.2.1 精确置换检验
- 原理:在强零假设(即治疗对每个个体的结局分布完全没有影响)下,所有个体的结局在干预组和对照组间的分配是完全可以互换的。由于随机化是在集群层面进行的,我们置换的是集群的治疗标签
A_i,同时保持所有个体的结局数据Y_{ij}不变。 - 步骤:
a. 计算原始数据下的检验统计量
T_obs(如\hat{WD})。 b. 在所有可能的C(M, qM)种集群治疗分配方式中(通常通过大量随机重采样,如9999次,来近似),重复计算检验统计量T_b。 c. 计算双尾p值:p = ( #{ |T_b| >= |T_obs| } + 1 ) / (B + 1),其中B是置换次数。 - 优势与局限:
- 优势:这是一种精确检验,只要置换次数足够,其I类错误率在有限样本下也是精确控制的,不依赖于任何分布假设或大样本近似。
- 局限:它检验的是强零假设,比我们通常关心的弱零假设(总体无效应)更严格。当强零假设不成立但弱零假设成立时,置换检验可能过于保守。此外,计算量巨大,尤其是当集群数
M较大时,穷举所有置换不可行,需依赖蒙特卡洛模拟。
3.2.2 基于解析置换方差的检验(Finkelstein-Schoenfeld 方法)
- 原理:这种方法针对弱零假设。它将集群得分
S_i视为固定的(由观测数据决定),而随机性完全来源于集群的治疗分配A_i。在完全随机化下,A_i是一个超几何随机变量。 - 方差计算:可以推导出,在给定
S_i的条件下,统计量Σ (A_i - q) S_i的随机化方差有一个漂亮的解析解:Var( Σ (A_i - q) S_i | {S_i} ) = [q(1-q)M / (M-1)] * Σ (S_i - \bar{S})^2其中\bar{S}是S_i的均值。由于\hat{WD}与Σ A_i S_i成比例,我们可以直接得到\hat{WD}在随机化分布下的方差估计。 - 构建检验:用这个方差估计值作为
se(\hat{WD}),然后构造Z统计量,并认为其在零假设下近似服从标准正态分布。 - 优势:计算极其快速,无需重采样。它直接利用了随机化设计的性质,是一种基于设计的推断,非常优雅。
踩坑记录:在早期实现中,我曾错误地使用了
S_i的普通样本方差,而忽略了公式中M/(M-1)的校正因子以及q(1-q)的权重。这个校正因子对于小M时准确估计方差至关重要。务必严格按照上述公式计算。
3.3 聚类刀切法:稳健的方差估计
刀切法是一种通过系统性地删除部分数据来估计统计量方差和偏差的通用重采样技术。
- 操作:对于有
M个集群的数据,我们进行M次刀切抽样。第i次抽样时,删除第i个集群的所有数据,用剩余的M-1个集群重新计算胜率统计量的估计值,记为\hat{τ}_{(-i)}。 - 计算伪值:计算每个集群的伪值:
PV_i = M * \hat{τ} - (M-1) * \hat{τ}_{(-i)}。可以证明,这些伪值在渐近意义上近似独立且同分布。 - 估计方差:目标统计量
\hat{τ}的方差可以用伪值的样本方差来估计:\hat{Var}_{JK}(\hat{τ}) = (1/(M(M-1))) * Σ (PV_i - \bar{PV})^2。 - 构建检验:使用
se_{JK}(\hat{τ}) = sqrt(\hat{Var}_{JK}(\hat{τ}))构建Wald型Z检验。
实操心得:
- 优势:刀切法是一种“黑箱”估计器,不需要知道统计量
\hat{τ}复杂的解析方差公式。它对于复杂估计量(如经过变换的胜率比)特别有用。- 注意事项:刀切法通常需要估计量是平滑的。对于像胜率比这样在
L=0(无失败)时未定义的统计量,在某个刀切样本中可能出现L=0导致计算失败,需要谨慎处理(例如,可以给一个极小的常数或跳过该样本)。此外,当集群数M非常小时(如<10),刀切方差估计可能不稳定。
3.4 基于刀切经验似然的似然比检验
经验似然是一种非参数似然方法,而刀切经验似然将其与刀切法结合,适用于集群数据。
- 构建经验似然比函数:利用上一步计算出的伪值
PV_i。在弱零假设H0: τ = τ0下,我们最大化经验似然函数Π p_i,约束条件为Σ p_i = 1且Σ p_i (PV_i - τ0) = 0。其中p_i是赋予每个伪值的概率权重。 - 计算似然比统计量:设无约束(
τ任意)时的最优权重为1/M,对应的经验似然为(1/M)^M。在有约束(τ = τ0)下,通过拉格朗日乘子法求解最优权重p_i^*,得到约束下的经验似然Π p_i^*。似然比统计量为R(τ0) = Π (M * p_i^*)。 - 检验:Wilks定理在此处有一个修正版本:
-2 log R(τ0)在零假设下渐近服从自由度为1的卡方分布。我们可以据此计算p值。
方法特点:这种方法提供了另一种基于似然的推断视角,并且能自然地产生置信区间(通过反转检验)。它同样依赖于伪值的独立同分布渐近性质,在集群数适中时表现良好。
4. 模拟研究:性能大比拼与实战指南
理论很美好,但哪种方法在现实的CRT场景(通常集群数有限)下更可靠?我们通过大规模的模拟研究来回答这个问题。我们设定了不同的场景:集群数 M (20, 40),集群大小 Ni (固定或可变),组内相关系数ICC (0.01, 0.05, 0.10),以及存在删失数据导致平局的情况。
4.1 I类错误率控制:稳健性是底线
I类错误率(名义水平通常为5%)是检验方法的生命线。失控的I类错误意味着结论不可信。
- 大集群数(M=40):所有方法在控制I类错误方面表现都相当好,接近5%的名义水平。基于双变量U统计量的Wald检验和得分置换检验表现最为稳健。
- 小集群数(M=20):这是真正的试金石。我们发现:
- 基于聚类秩和的Wald检验:当使用标准正态参考分布时,I类错误率略有膨胀(可达6-7%)。切换到t分布参考(自由度M-2)能有效纠正这一问题,使其回到5%附近。
- 精确置换检验:表现完美,I类错误率精确控制在5%,这是由其精确检验的性质保证的。
- 基于解析置换方差的检验:表现也非常稳健,与理论预期一致。
- 刀切法:在集群数很小时,方差估计略有波动,导致I类错误率有轻微膨胀或收缩,但整体可控。
- 刀切经验似然:表现与刀切Wald检验类似。
4.2 统计功效:在控制错误的前提下检测效果
在控制I类错误的前提下,我们比较了各种方法检测真实治疗效应的能力(功效)。
- 整体趋势:所有方法的功效随着效应量、集群数或ICC的增大而增加,随着集群大小变异性的增大而减小。
- 方法间差异:在大多数场景下,不同方法的功效差异非常小(通常在1-2个百分点以内)。这表明,只要I类错误控制得当,这些方法用于检测效应的能力是相近的。
- 一个细微发现:基于双变量U统计量的Wald检验在部分存在高删失率(导致大量平局)的场景下,显示出轻微但持续更高的功效(约高1-3%)。我们分析,这可能是因为其方差估计公式更充分地利用了数据结构和相关性信息,导致了更小的方差估计,从而得到了更大的Z统计量。
4.3 实操建议与选择策略
基于模拟结果,我为应用研究者提供以下实操指南:
-
首选推荐(兼顾稳健与简便):
- 对于大多数CRT分析,推荐使用基于聚类秩和统计量的Wald检验,并采用t分布参考。它概念直观,计算速度快,且通过t分布校正后,在小集群数下也能很好地控制I类错误。我们的
WinsCRTR包默认采用此方法。 - 如果追求理论严谨性且计算资源允许,基于双变量聚类U统计量的Wald检验是一个强有力的选择,尤其在存在复杂删失时可能略有功效优势。
- 对于大多数CRT分析,推荐使用基于聚类秩和统计量的Wald检验,并采用t分布参考。它概念直观,计算速度快,且通过t分布校正后,在小集群数下也能很好地控制I类错误。我们的
-
特殊情况下的选择:
- 当集群数极少(如M<15)且对I类错误控制要求极严时,应优先考虑精确置换检验。尽管计算耗时,但它提供了最可靠的有限样本推断保证。
- 当分析计划强调“基于随机化设计”的推断哲学时,基于解析置换方差的得分检验是非常优雅的选择,它计算快且直接体现了随机化的不确定性。
- 当估计量非常复杂,难以推导解析方差时,聚类刀切法是一个可靠的备用方案。
-
必须避免的陷阱:
- 绝对不要使用为独立数据开发的胜率统计量软件(如
WR包)直接分析CRT数据。这会导致方差被严重低估,p值过于激进,假阳性风险极高。 - 谨慎报告结果:在方法部分,必须明确说明你使用的推断方法及其处理集群相关性的方式。在结果中,除了报告点估计(如胜率比)和p值,强烈建议报告其置信区间,这比单一的p值包含更多信息。对于基于秩和Wald检验的方法,我们的包提供了基于t分布的自由度计算。
- 绝对不要使用为独立数据开发的胜率统计量软件(如
5. 案例重现:STRIDE试验的再分析
为了展示这些方法的具体应用,我们重新分析了“降低老年人伤害并建立信心策略”(STRIDE)这项实用的集群随机试验。该试验旨在评估一种多成分的跌倒预防策略是否优于常规护理。试验在多个初级医疗诊所(集群)进行。我们的复合终点是层次结构的:1) 任何原因导致的死亡(最严重),2) 首次发生跌倒相关损伤的时间(次重要)。对于删失的生存时间,我们使用Gehan规则进行比较:如果两个个体的结局事件时间均被删失且无法区分先后,则记为平局。
我们使用 WinsCRT 包进行分析。数据包含86个临床诊所(集群),干预组和对照组各43个,共招募了5451名患者。分析步骤如下:
- 数据准备:将数据整理为每个患者一行,包含变量:
cluster_id(集群ID),trt(治疗组,1=干预,0=对照),time(到死亡或跌倒损伤的时间),status(事件指示,1=发生,0=删失),以及一个用于区分终点优先级的变量(例如,死亡为优先级1,跌倒损伤为优先级2)。 - 计算胜率统计量:使用包内的核心函数,基于层次比较规则计算所有干预-对照对的赢、输、平局。
- 应用推断方法:我们分别运行了基于秩和Wald检验(t分布)、双变量U统计量Wald检验、精确置换检验(9999次置换)和刀切法。
- 结果对比:
- 点估计:所有方法给出的胜率比(WR)点估计值约为1.22,表明干预组患者获得更好结局的几率是对照组的1.22倍。
- 推断结果:
方法 胜率比 (WR) 95% 置信区间 p值 聚类秩和Wald检验 (t) 1.22 (0.98, 1.52) 0.072 双变量U统计量Wald检验 1.22 (0.97, 1.53) 0.089 刀切法Wald检验 1.22 (0.96, 1.55) 0.102 精确置换检验 1.22 - 0.083
分析解读:尽管点估计提示了有益的干预趋势(WR > 1),但所有方法给出的95%置信区间都包含了1(无效应),且p值大于0.05。这表明,在考虑集群相关性后,STRIDE试验中跌倒预防策略对复合终点(死亡或跌倒损伤)的改善效果未达到统计学上的显著性水平。值得注意的是,不同方法得出的p值存在细微差异(0.07到0.10),这反映了在有限集群数下不同方差估计方法的不确定性,但所有结论在定性上是一致的。这个案例生动地展示了忽略集群相关性(若用独立方法,p值会小得多)可能导致错误结论,也体现了使用恰当CRT分析方法的重要性。
6. 总结与未来展望
通过系统的梳理、方法的实现和模拟验证,我们可以得出几个核心结论。首先,对于CRT中的胜率统计量,必须使用能校正集群内相关性的推断方法,否则将严重扭曲统计推断。其次,我们综述的几类方法——包括基于集群得分或双变量U统计量的Wald检验、基于随机化的得分检验、刀切法及其衍生的经验似然检验——在集群数量充足时(如M>30)都有良好的表现。对于小规模CRT(M<20),基于聚类秩和的Wald检验(配合t分布)和精确置换检验是更稳健的选择。
在实际操作中,我个人的体会是,没有一种方法是“永远最佳”的。基于聚类秩和的Wald检验因其在稳健性、计算效率和直观性上的平衡,是一个优秀的默认选择。我们的 WinsCRT R包(可在GitHub获取)整合了所有这些方法,让应用研究者可以方便地进行比较和敏感性分析。
这个领域仍在不断发展。未来的研究方向可能包括:1) 开发适用于阶梯楔形或整群随机交叉等更复杂CRT设计的胜率统计量推断方法;2) 处理具有多个层次或连续型组分的复合终点;3) 在胜率框架下纳入协变量调整以提高效率;4) 探索贝叶斯方法在CRT胜率分析中的应用。对于研究者而言,理解这些方法背后的原理(“为什么”要这样估计方差)与掌握其操作(“如何”实现)同样重要。只有这样,才能在面对复杂的真实世界临床试验数据时,做出既符合科学又贴合实际的统计推断。