@ 2022.08.09 , 17:11

Spurious correlations 缅因州的离婚率和黄油的生产成本相关性达到99.26%

这个网址→http://www.tylervigen.com/spurious-correlations,收录一些在统计数据上高度相关,但实际上风马牛不相及的现象。

Spurious correlations一词,就是 伪相关 或 谬误相关 的意思。

维基词条指出:“在统计学中,伪相关或谬误相关是一种数学关系,其中两个或多个事件或变量彼此之间没有任何因果联系(即它们是独立的),但由于巧合,可能会错误地推断它们存在相关性。”

如下面的例子,尼古拉斯·凯奇参演的电影上映和泳池里溺水事故的发生率,相关性达到66.6%……

Spurious correlations 缅因州的离婚率和黄油的生产成本相关性达到99.26%

按照维基和统计论坛里的评论,一些相关性显然是随机噪声(淹死人数与尼古拉斯凯奇电影);另外的相关性(离婚率与黄油成本)来自两个变量的几乎线性时间依赖性……但在某些(有趣的)案例中,相关性可能是一些没有明显共同原因的结果。

关于这一网站,有统计学家评论道:如果就相关性、回归、谬误相关等概念提出一般性问题,那是统计学家需要解答的;但如果您想讨论“为什么”某些事物相互关联,那么这不是关于统计数据,而是关于“事物”本身的问题。

另外的意见:我一直讨厌“伪相关”这个词,因为虚假的不是相关性,而是对潜在(错误)因果关系的推断。当有证据表明变量之间存在相关性时,就会出现所谓的“伪相关性”,但相关性并不反映一个变量的因果关系。如果由我决定,这将被称为“虚假原因推断”,反正我是这么想的。为了理解这一主题的含义,避免错误解释,我们必须小心措辞,并记住统计独立性和因果独立性之间的区别。在维基百科的引用中,它们(隐含)指的是因果独立性,而不是统计独立性。

赞一个 (21)