Tech
打破随机化的神话
随机化是因果推断的强大工具,但关于其有效性存在许多误区。理解这些可以帮助我们更好地设计和解读研究。
Marcus Munafò 探讨了随机化过程。
当我们关注因果关系时(这很常见!),有两种选择:观察世界以识别 X 和 Y 之间的关联,或者将人们随机分配到不同的 X 水平,然后测量 Y。
前者,即观察方法,通常只能提供一个较弱的因果推断基础。这个方法使得“相关性并不意味着因果性”这个说法广为流传(我认为有时相关性确实可以暗示因果性,只是往往并不明显)。当然,有时这是我们能做到的最好选择——例如,如果想了解教育年限对心理健康的影响,进行一个让孩子随机多待一年或两年的实验是不道德的且不切实际(究竟哪个选择是不道德的,可能取决于你是孩子还是父母……)。
但当我们能够随机化时,这赋予了我们强大的推断能力。我们分配参与者的方式(我们的随机化程序——希望能比抛硬币更稳健)与其他因素之间没有因果关系,这一点至关重要。如果我们的随机化机制影响了暴露(按定义应该如此)且不影响其他因素(同理),而我们在结果中观察到差异,那么这差异必然是由于我们操控的暴露所导致的。然而,关于随机化如何以及为何具有这种神奇的因果推断能力,仍有很多不明之处。这导致了我们在随机化研究中应报告什么的误解。
我想澄清几个常见却顽固的误区。
第一个误区是随机化之所以有效是因为它平衡了混杂变量。混杂变量在观察研究中存在,因为我们观察到的暴露与结果之间的关联还受到其他变量(如年龄、性别、社会地位等)的影响,这些变量通过复杂的因果链相互作用。理论上,如果我们完美地测量并统计调整所有这些变量,那么剩下的就是暴露对结果的因果效应。但在实际中,我们从未能做到这一点。
当我们随机化人群时,这些影响仍然会作用于结果,随机化到不同条件的人之间结果会有所差异。随机化是否意味着这些不同的影响以某种方式被平衡?
不——主要是因为混杂变量在实验研究中并不存在!混杂变量是同时影响暴露和结果的东西,而在实验(即随机化)研究中,我们比较的是两个随机组之间的结果差异。我们知道随机化影响了暴露,但我们并不直接比较暴露水平与结果——而是比较随机化组。年龄、性别和社会地位等变量无法影响随机化机制(例如,参与者年龄与我们的随机数生成器之间没有因果路径)。
因此,准确地说,我们需要讨论实验研究中的协变量——影响或强烈预测结果的因素,而不是混杂变量。随机化是否平衡这些?是的,但这个过程比一般理解的更技术化和微妙。我们知道(从数学上)随机化组在协变量和未来结果分布方面的差异概率随着样本量增大而变小(在其他条件相同的情况下,样本量大的实验提供的置信区间更窄,估计更精确——如果你在乎 p 值的话,p 值也会更小)。
换句话说,较小的研究更容易失衡,这将在更宽的置信区间(以及相应更大的 p 值)中体现出来。
这意味着即使我们的组实际上是平衡的也无关紧要,因为我们已经将复杂性转化为误差。如果我们的样本较小,标准误差会大,反映出失衡的可能性更大,统计检验会在生成置信区间和 p 值时考虑到这一点。这就是为什么较大研究更精确——它们更有可能平衡。来自科克大学的统计学家 Darren Dahly 对此问题进行了更全面的讨论。他说:“随机化使我们能够对两个随机组在结果方面的相似性做出概率性声明。”
这引出了第二个误区,即我们应该测试随机组之间的基线差异。我们经常看到这一点——通常是实验的表 1——列出每组的一系列人口统计变量(我们测量的协变量——已知的已知变量),然后是一列 p 值。这在观察研究中是有效的,我们可能想要测试某个变量是否真的是混杂变量,通过测试它是否与暴露水平有关(例如,某人是否喝酒)。但在实验研究中(例如,如果我们随机化人群饮用或不饮用酒精)这是否有效呢?
一旦我们开始思考表 1 中的 p 值可能在告诉我们什么,概念混淆就变得明显了。随机化程序应该是稳健的(即免受外部影响),方法部分应该提供足够的信息以评估这一点。统计检验能为此增加什么呢?正如 Doug Altman 在 1985 年所说:“对基线变量进行显著性检验就是评估某事发生的概率,尽管我们知道它确实是偶然发生的。”如果我们的随机化程序稳健,按定义任何组之间的差异都必须是偶然造成的。这不是我们在检验的原假设,而是一个非假设。
但是,如果我们的随机化过程由于我们未意识到的原因不稳健呢?我们难道不应该通过这种方式来测试吗?但我们应该如何做呢?特别是,我们应该设定哪个 alpha 水平来宣告统计显著性?通常是 5%?如果我们这样做,我们会发现即使所有研究的随机化都非常稳健,我们仍然会在 20 项研究中发现基线差异(因为通常表 1 中包含多个基线变量)。不如将精力投入到确保我们的随机化机制确实稳健的设计上(例如,计算机生成的随机数由与数据收集无关的人生成)。
好吧,那关于决定在分析中调整哪些基线特征呢?确实,调整已知影响结果的基线协变量可以提高我们估计的精确性(并缩小 p 值——太棒了!)。但测试基线差异来决定调整哪些变量在概念上又是错误的。统计显著的差异并不一定在影响结果方面是有意义的。这在很大程度上取决于协变量是否确实对结果有强烈影响,而我们并没有测试这一点!更好的做法是根据理论或先前证据选择协变量——识别我们认为与结果相关的变量并进行调整。
随机化非常强大,但也出奇简单。它的力量源于使我们能够控制一些关键的因果路径,并将复杂性转化为可测量、可预测的误差。因此,我们可以放轻松!我们不必担心“平衡”——样本量和标准误差会处理这些(这就是为什么我们需要正确设定研究的样本量)——我们也不需要在表 1 中有那一列 p 值——它们并没有告诉我们任何有用的信息或可以采取的行动。我们所有人——包括那些要求这些的编辑和审稿人——都应当注意!
如何报告随机化?
如果我们接受成功的随机化关键在于将过程做好(而不是事后测试它是否有效,这充满概念和实际问题),我们该如何以允许读者评估其稳健性的方式报告随机化?
在医学研究中——特别是临床试验——期刊期望作者遵循报告指南(这些指南覆盖广泛的研究设计,许多与心理学相关)。完整的描述可能如下:
随机化由在线自动算法生成(比例为 1:1),该算法跟踪计数以确保每个干预展示相等。分配是在线进行的,参与者和研究者都对研究组保持盲态。如果参与者提出技术问题,研究者将被揭盲;寻求技术帮助的参与者不会获得另一条件干预的信息,因此也不会揭盲。试验统计学家在整个试验中与参与者没有接触,分析时保持盲态。在基线调查结束时,参与者被随机分配查看两个页面之一,推荐下载《少喝酒》(干预)或查看 NHS 酒精建议网页(对照)。
这个例子来自 Claire Garnett 和同事最近发表的一篇文章(披露:我是共同作者!),测试了一款减少酒精消费的应用程序。由于这是临床试验并发表在医学期刊,因此必须遵循相关的报告指南,充分描述随机化过程。
当然,有时随机化过程是稳健的,可以非常简洁地描述——计算机任务可能内置了随机化,因此实验者不需要参与。但这仍应清楚描述。有时随机化过程确实涉及人类(因此可能会存在潜在偏见)。
在我职业生涯中学到的一件事是,我们可以从其他学科中学到很多(并展示心理学中的优良实践)。这或许就是一个例子——心理学在报告随机化研究方面有很多良好实践,但我们仍然可以学习和改进。