人工智能
经济学人的总统选举预测模型解读
经济学人的美国总统选举统计预测模型在2024年迎来了第二次应用。该模型由哥伦比亚大学的政治学家Andrew Gelman领导的团队开发,旨在计算Joe Biden和Donald Trump在各个州以及整个选举中的胜算。模型的预测结果将在本网站每日更新。以下是对该预测模型工作原理的详细方法总结。
民调与基本面分析
模型的第一步是预测选举日全国普选的结果。我们主要使用两大信息来源:全国民调和政治学中称为“基本面”的结构性因素。这些因素影响选民决策。选举年的前几个月,公众对选举关注较少,竞选议题尚未明确,选民往往表示犹豫不决或计划投票给第三方。这使得上半年民调对最终结果的预测力较弱。例如,1988年6月,George H.W. Bush在民调中落后Michael Dukakis 12个百分点,但最终却赢了8个百分点。四年后,Bush在民调中领先Bill Clinton 10个百分点,但最终输掉了7个百分点。
近年来,民调误差有所减少,但仍可能显著。例如,2000年,George W. Bush在普选中曾领先Al Gore 10个百分点,但在竞选的最后三个月内变成了劣势。最终,他通过选举人团和佛罗里达州537票的争议胜利赢得了总统竞选。而在2016年,Hillary Clinton在6月、8月甚至10月的民调中都领先Donald Trump约8个百分点,但最终普选仅赢了2个百分点。
相比之下,基于基本面的预测往往相对稳定,能预示选民在关注政治并激发其潜在党派倾向后可能的改变。最著名的例子之一是Emory University的政治学家Alan Abramowitz设计的“时机变革”模型。该模型仅用总统的净支持率、GDP增长率以及是否有连任的现任总统这三个因素预测普选(不包括第三方)。历史上,该模型对总统党派赢得普选份额的预测误差与竞选晚期民调的误差相当。
规律化与交叉验证
对基本面模型的常见批评是其容易“过拟合”,即在拟合历史数据时效果很好,但在预测未来时效果不佳。为了避免这种风险,我们借用了机器学习中的两项技术:“弹性网规律化”和“逐一交叉验证”。
弹性网规律化是一种减少模型复杂性的方法。一般来说,较简单的方程——统计学家称之为“简约的”——比复杂的方程更能有效预测未知数据。规律化使模型不那么复杂,要么缩小用作预测变量的影响,要么完全去除弱变量。
接下来,为确定规律化程度,我们使用“逐一交叉验证”。该技术将数据集分成多个部分,用部分数据训练模型,用其他数据测试其性能。在这种情况下,每个部分是一个选举年。
为了测试某一规律化程度的准确性,我们首先将1948年第一次战后总统选举的数据隐藏起来,然后用1952年至2016年的选举数据训练基本面模型。简化所得方程后,用该模型预测1948年的结果。这个过程对剩下的18次选举重复进行。
完成这一循环后,我们得到了每个选举年的19个预测结果。每个预测都使用相同的规律化程度,仅用其他年份的数据生成。记录预测准确性后,我们重复这一循环100次,每次使用不同的规律化程度。表现最好的规律化因子胜出。
利用这种方法,我们测试了潜在预测变量组合,并找到了最优规律化程度。结果显示,该模型与Abramowitz的方法相似。不同之处在于,我们对已执政两届以上的党派施加了惩罚(符合“时机变革”模型的精神),并采用了一系列经济指标的年变化,而不仅仅是第二季度的GDP增长。
我们的研究发现,这些经济指标对选民行为的影响仅在现任总统竞选连任时显现,这表明任期限制的总统不会将其经济遗产传递给其党派的继任者。此外,由于选民极化程度的增加,摇摆选民数量减少,这种经济因素的影响在近年来有所减弱。
从全国普选到州选举
虽然本文重点关注全国普选,但正如Gore和Clinton的支持者苦涩地记得的那样,赢得普选并不意味着能入主白宫。美国通过独特的选举人团制度选举总统,实际上是各州而非选民进行投票。为了预测决定胜负的各州结果,我们重复上述过程,但加入了一些变化。我们不预测绝对的投票份额,而是预测各州的“党派倾向”,即该州相较于全国整体更倾向于民主党还是共和党,以及在全国平局的情况下该州的预期投票结果。例如,尽管自2004年以来共和党未赢得过内华达州,但在过去两次选举中,内华达州实际上稍微倾向于共和党。Biden赢得了该州2.4个百分点的优势,比他在全国的胜利优势4.5个百分点要小。
为了估算每个州在每次选举中的中心倾向,我们使用了该州在前两次总统选举中的党派倾向、总统候选人及其竞选搭档的家乡州、人口密度、最近几次选举中全国选民的党派支持变动比例,以及当年的全国普选结果。加入全国普选结果这一预测变量使我们能够摆脱“统一摆动”的假设,即认为候选人全国支持率的变化会在每个州以相同的幅度反映,并允许我们对全国政治环境对各州偏好的影响进行更灵活的估计。我们还对这些预测的不确定性进行建模,基于该州摇摆选民比例和中心估计离50/50的距离(投票结果一边倒的州通常更难预测)。
贝叶斯方法
熟悉类似预测模型的读者可能会惊讶地发现,2024年的竞选民调尚未纳入我们的模型。这是有意为之。我们的模型遵循托马斯·贝叶斯(18世纪牧师)的逻辑结构,其思想影响了大量日益增长的统计技术家族。贝叶斯方法分两个阶段。首先,在进行研究之前,研究人员明确表示他们相信什么以及他们对这种信念的信心。这称为“先验”。接下来,在获取数据后,他们更新先验以反映新信息——如果新信息确认先验,则增加信心;如果否定先验,则通常会变得更不确定(除非新数据非常明确,几乎没有疑问)。在这个框架下,上述推导出的各州潜在投票份额分布是先验,而在竞选过程中逐渐汇入的民调数据是新信息。最终结果——在贝叶斯术语中称为“后验”——就是我们的预测。
就像我们的先验有不确定性一样,民调也存在不确定性。读者可能熟悉民调报告时提到的“误差范围”,通常为几个百分点。然而,这个数字只考虑了一种可能的误差来源:样本规模有限可能不反映整体人口特征的风险(称为“抽样误差”)。事实上,参与调查的人群几乎从未是理想的随机子集,而是与实际投票的人群存在重要差异,统称为“非抽样误差”。
首先,民调受选民投票率的影响。面向所有成年人的民调会包括不具投票资格或未登记选民的意见。限制在登记选民范围内的民调则将所有受访者视为有同等投票可能性,而事实并非如此。而那些试图筛选出不太可能投票的受访者,或赋予更可能投票者更多权重的民调,可能会出错。尽管没有两个调查是完全相同的,但采用类似方法预测投票率的调查更可能产生相似大小和方向的误差。用统计术语来说,每种不同的投票率预测方法都可能产生“偏差”,并污染所有使用相似方法的调查结果。
其他非抽样误差也是如此。通过使用电话采访的人群可能与自动电话或互联网调查所能接触到的人群有不同的投票意图。各个民调公司可能在方法选择上(如权重方案)做出不同决定,这会导致对特定政党的结果更有利或不利。
提前判断这些特性可能引入的偏差的方向或大小是不可能的。然而,随着竞选的进行,不同方法的民调机构将在相似时间内对同一地区进行调查。通过比较,例如5月中旬爱荷华州的所有成年人民调与可能投票者民调的结果,再比较8月初佛罗里达州的相同类型民调,并对所有可能的时间和地理组合重复这一过程,我们的模型估算这些因素对调查结果的影响,并进行调整。
调整民调结果的最后一步是整合它们提供的信息。摇摆州通常会定期进行民调,而不太竞争的州可能很少或根本不被调查。即使我们缺少某个州的最新民调数据,我们也可以根据其他地方的民调结果做出有根据的猜测。
最简单的信息共享形式是对全国趋势的调整。假设明尼苏达州最近一次民调是在六周前,当时民主党领先六个百分点,而全国民调显示民主党领先四个百分点。现在假设在这六周内,共和党在全国范围内迅速崛起,领先三个百分点。很可能明尼苏达州的选民也受到了这个转变的影响。最有可能的情况是,共和党在明尼苏达州也获得了全国范围内相同的七个百分点增幅,因此共和党实际上在该州领先约一个百分点。
我们也可以将这种方法扩展到州级民调。有些州非常相似,无论是因为它们是邻居,还是因为它们的人口结构相似,或者两者兼有——例如明尼苏达州和威斯康星州,或阿拉巴马州和密西西比州——而有些州则大不相同(例如明尼苏达州和阿拉巴马州,或威斯康星州和密西西比州的配对)。两个州越相似,一个州的公众意见变化就越能预测另一个州的变化。因此,我们的模型允许每个州的民调影响其他州的选民偏好估计,影响程度不同。这个效应的强弱由九个因素决定:一个州在过去总统选举中的投票情况;其种族构成和教育水平;所有居民的平均年龄;该州平均每个居民的居住密度;以及该州白人福音派基督徒的比例。结果是模型会将威斯康星州的民调几乎视为明尼苏达州的民调,并根据来自邻州的数据大幅更新对明尼苏达州选民意见的估计。然而,这种民调对阿拉巴马州投票结果预测的影响则很小。
综合起来
在对民调报告结果进行所有这些调整后,我们准备使用这些数据来更新先验。我们的方法是对Drew Linzer(政治科学家)在2013年首次发表的技术进行扩展。它使用了一种称为马尔可夫链蒙特卡罗(MCMC)的统计技术,探索模型中每个参数的数千种不同值,并评估它们对数据模式的解释能力及其在先验预期下的合理性。例如,如果所有在线民调机构高估共和党的投票份额五个百分点,选举会是什么样子?如果所有全国民调高估民主党两个百分点呢?如果密歇根州的州级民调波动达十个百分点,模型会在预测该州选票时加入更多不确定性——以及在预测相似州(如俄亥俄州)时也是如此。
在离选举日还有的每一天里,MCMC过程允许州级民调平均值在其10,001次模拟中以小幅度随机波动。每次“随机漫步”可以倾向于民主党或共和党,但更有可能向“先验”预测指示的方向倾斜,而不是相反。由于这些步骤是相关联的,一个州向某候选人偏移可能会在相似州中反映出类似的变化。随着选举临近,随机波动累积的天数减少,减少了当前民调平均值周围的不确定性范围,以及先验对最终预测的影响。在选战后期进行大量民调的州,模型会较少关注其先验预测;相反,在竞选早期或民调较少的州(尤其是那些无法基于相似州民调做出可靠假设的州),先验预测的权重会更大。
最终结果是10,001条选举可能路径的列表。其中一些路径包括全国性、区域性或人口统计学错误,导致一党或另一党受益。一些路径显示登记选民民调出现大偏差;其他则显示不同调查人群或方法之间差异较小。越有可能的情景,越频繁地出现在这些模拟中——但即使是极不可能的情景(如Biden在普选中落败但赢得选举人团)也会偶尔出现。这些模拟中某候选人获胜的次数即为其胜选概率。
像所有模型一样,我们的预测依赖于假设过去的选民行为和民调准确性的历史关系将延续到未来。与物理学不同,政治中这一点并不保证。迟早,选民将做出与过去先例极不相符的决定,我们的模型将面临新一轮的批评。但只要这些“黑天鹅”事件发生的频率与我们预期的大致相符——既不太频繁也不太少——我们的模型就能发挥其作用。如果我们的胜率与实际结果不一致,我们欢迎从错误中学习并在下次做得更好。
本文译自 The Economist,由 BALI 编辑发布。