@ 2016.05.06 , 17:00
28

平均数的称霸之路

[-]

(一)

1906年,伟大的科学家兼恶心的人种改良倡导者高尔顿(Francis Galton)参加了年度西英格兰家畜展,即兴做了个数学实验

在集会上闲逛的他碰到了一个猜重量竞赛。人们猜测一只的公牛的重量,猜的最准的人将获得大奖。

高尔顿曾公开鄙视过普通大众的愚笨。他相信只有专业人士才能做出准确的估测。787位猜测者中根本没几个专业人士。为了体现群众的无知,他算出了所有猜测的平均数(而不是当时统计学家常用的中位数):1197磅。得知实际重量后他吓了一跳:1198磅。

在如今的世界里,我们只能见到平均数的身影:纽约4月均温为52华氏度;库里场均拿到30分……只有在某些统计里(美国家庭年收入中位数为51939美金)中位数才会露下头角。

那么,中位数是如何消失的?平均数又是如何成为了当今世界最流行的量数

(二)

俗称的平均数(average)在数学上的其实是“算数平均数”(arithmetic mean),意为所有数据之和除以数据的个数。算数平均数中的“平均数”(mean)一词源自拉丁语的“中间”(medianus)。Mean这一概念最初由希腊数学家毕达哥拉斯提出。

毕达哥拉斯时代的mean并不具有表征作用,它指的只是三个数字中间的那个数字,那个数字必需与两头的数字呈“相等的关系”。这三个数字可以是等距(如2,4,6),也可以是等比(如1,10,100)。

花了十年时间探寻average和mean起源的统计学家Churchill Eisenhart表示,与现代人依赖于大量数据进行计算不同,早期科学测量非常不准,科学家们需要借助理论来选出多个数据中最好的一个。

正是借助mean这一理论的力量,古希腊天文学家托勒密从极少数的观测中,选择出了31’20作为月球的角直径。如今我们知道根据所在地点的不同,月球的角直径为29’20到34’6不等。

[-]

在英语中,average一词在1500年左右开始出现,指代船只或船上货物受损所带来的经济损失。如果因为船只受损,船员们必需扔掉一些货物来减轻重量,那投资者就会用arithmetic mean的方式来计算出总体经济损失。渐渐地,这两个概念融合在了一起,称为了我们通常所说的平均数。

多年之后,科学家才会开始使用一种集中量数来表征一组数据。但首先站上历史舞台的,不是平均数,也不是中位数,而是中列数。

(三)

科学工具往往是为了解决某些学科内特定问题而创造出来的。在集中量数的寻找过程中,人们希望解决的问题是为导航而进行的地理测量。

[-]
波斯学者比鲁尼。(masmoi)

11世纪波斯知识界巨匠比鲁尼是集中量数已知最早的使用者之一。他尝试测量了古城伽兹尼的经度。那个时代的人们在拿到一组测量数据之后,会去掉两头之间的数据,取最大值和最小值中间的算术平均数。我们今天把这个数称为中列数(midrange)。

Eisenhart发现,17和18世纪时中列数依然盛行。牛顿和其它航海家为了计算地理位置都使用过中列数。但近几百年来,在这被平均数占领的世界中,中列数已经下落不明。

(四)

19世纪早期,算术平均数已经成为了一种常用的集中量数。那个时代最杰出(也最暴躁)的数学家高斯在1809年写道:

如果要在同一情况下用同种方式,从几次直接观测中选出一个数,那这些数的算术平均数便是最接近真值的数。习惯上,这假设已经已经被当成一个公理。

这究竟是如何发生的?

史书上并没有明确的记载。Eisenhart发现,算术平均数可能在地理大发现时代被探索磁偏角(磁北方向与正北方向之间的夹角)数学家们首次采用。

直到16世纪后期,大部分科学家都在使用某种特定的算法来取测量中的最佳值。但在1580年,William Borough用了一种新算法,把8个数据“结合在了一起”,宣称磁偏角在11°15’至11°20’之间。虽没有明确记载,但他可能用了算术平均数。

1635年时,英国天文学家Henry Gellibrand称为了已知最早使用平均数作为集中量数的人。一天早上,他测出磁偏角为11°,当天下午则测出11°32’。然后他写道:

“如果我们取算术平均数,我们或许能确定,正确的测量为11°16’。”

这可能便是人类在使用平均数来估测真值的路上走出的第一步。

(五)

在数学界,中位数几乎是与平均数在同一时间出现。1599年,数学家Edward Wrights首次在记录中推荐了中位数

“许多支箭射向一个标记,标记被移走,想找出标记原来所在位置的人,或许能想到这样一种方法。他应该找到箭头最集中的地方:在那么多次观测中,最中央的地方离真值最近。”

19世纪时,中位数仍是数据分析中不可或缺的一部分。在较小的数据集中比较容易计算出中位数。而且那个时代的人认为中位数比平均数更具普遍性

[-]
高尔顿也是中位数的坚定支持者之一。(Wikimedia)

(六)

然而由于平均数独特的统计学性质以及与正态分布的关系,中位数自始至终都被平均数在人气上所压制。

在许多情况下,大量测量出的数据会呈现“正态分布”(normal distribution)。人类身高、IQ分数、年均气温等数据都会以中间高、两头低的“钟形曲线”形式分布。

当数据呈正态分布,平均数往往处在钟型曲线的最高点,而绝大部分数据都会处在中位数的旁边。通过标准差,我们还能计算出距离平均数某段距离内数据的个数。

标准差,即数据内数值与平均数之间距离的平方的平均数的平方根,让平均数在分析实验数据和统计推断方面具有突出的价值。没有此类特性的中位数渐渐在科学和统计用上失去了光芒。

计算机的出现也让平均数变得更加普及。编写计算平均数的电脑程序要比编写中位数的程序容易得多。以至于在Excel中,计算某些数据的中位数都要多下一番功夫。渐渐地,平均数成为了最被人熟知,但不一定是最好的代表值。

[-]
平均数先生,中位数先生,众数先生。(Hannah Holt / Lightbulb Books)

因为平均数容易受到极端值的影响,所以很多情况下,中位数才是帮助找到分布中心的最好的数值。许多分析师相信,不分黑白地使用平均数损害了我们对定量信息的理解。

回想一下最近读到过的房屋均价、人均收入等数据,你就能发现,中位数才是最能反映普遍性的代表值。最富有的1%能极大地改变平均数所处的位置。正因如此,美国人口普查局决定使用中位数来衡量美国家庭年收入。

中位数同时也很难受到脏数据(dirty data)的影响。随着统计学家需要应对的互联网数据越来越多,当工作人员遇到不准确的数据,或者是打字时多加了一个零,中位数便显现出了自己的优越性。

(七)

随着数据收集和分析在我们的日常生活中的作用不断凸显,我们必需重新审视用来代表这些数字的集中量数。在一个理想的世界里,分析师会同时使用平均数、中位数和众数,配以图像来展现数据。

但我们生活在精力有限、时间仓促的社会里。如果只能选择一个数字,我们应该选择中位数。

中位数还是平均数之间的抉择有着重要的意义。选择了平均数,心理学家容易做出错误的诊断,金融家可能误估市场的发展。平均数已经统治了人类世界数百个春秋,或许是时候让我们做出一些改变了。

本文译自 Pricenomics & Overcoming Bias,由译者 zzjeff 基于创作共用协议(BY-NC)发布。


给这篇稿打赏,让译者更有动力
支付宝打赏 [x]
您的大名: 打赏金额:

4.5
赞一个 (30)

TOTAL COMMENTS: 28+1

  1. 雨雨
    @1 year ago
    3133191

    Hello, Mr. Egg

    [82] XX [1] 回复 [0]
  2. 那年冬天
    @1 year ago
    3133192

    人类通往火星的路上,正站着平均数这个婊!

    [12] XX [0] 回复 [0]
  3. 动物园长
    @1 year ago
    3133194

    Mr Egg. 我找到你了

    [19] XX [0] 回复 [0]
  4. 硬核武器
    @1 year ago
    3133207

    少见的关于数学的文章

    [16] XX [1] 回复 [0]
  5. Halfasecond
    @1 year ago
    3133220

    妈的,概率论作业还没写。

  6. lbSeevdo
    @1 year ago
    3133225

    水印可以乱真了0.0!!!

    [11] XX [0] 回复 [0]
  7. lbSeevdo
    @1 year ago
    3133226

    @lbSeevdo: 那蛋数该怎么定义呢?

  8. 3133231

    Mr.Egg…我们的水印总是特立独行

    [12] XX [0] 回复 [0]
  9. 3133238

    被平均之后,我成为了楼里的千万富翁,当然不止我一个。

    [20] XX [0] 回复 [0]
  10. hawk3141
    @1 year ago
    3133271

    第七段上边应该是平均数很容易受到脏数据影响

  11. 3133290

    我做图像去噪全靠中位数啊,平均数怎么就碾压了?

  12. 面神钦点先吃
    @1 year ago
    3133327

    平均数让我家月收入两万,住房面积100平

    [39] XX [0] 回复 [0]
  13. sandersyao
    @1 year ago
    3133346

    统计学真疼

  14. 3133363

    还算好读,各种红色下划线标注的链接也简单看了,但是英语糟糕,几乎看不下。。有没有好心人给我讲下暴躁的高斯那一篇(http://priceonomics.com/the-discovery-of-statistical-regression/)讲了什么,谢谢了

  15. 3133366

    很棒的科普!内容挺充分的,学统计的我很感兴趣!

  16. 灌肠高手
    @1 year ago
    3133401

    因为平均数简单粗暴,大部分人都懂

    不过随着人们知识水平提高,平均数恐怕地位难保。(现在中位数,众数之类的出现频率都慢慢提高了,毕竟没人愿意被平均)

  17. 3133458

    第七段上边应该是中位数很难收到“脏数”的影响

  18. zzjeff
    @1 year ago
    3133460

    @fir: @hawk3141: 谢谢!已更正

  19. forvord
    @1 year ago
    3133473

    总是拖平均工资的后腿

  20. 扯把你
    @1 year ago
    3133481

    红色下划线的引用出处都好棒!

  21. 3133491

    中位数、平均数各有用处吧。我如果遇到这种情况,除非数据特别多,超过一百万个,否则我会先用Excel画一张图大体看看规律,然后再决定采用哪种数。

  22. 糊涂神
    @1 year ago
    3133522

    写一个高效的求中位数的算法,一直是程序员面试的经典题目。

  23. 3133602

    @KOi: 讲Gauss和Legendre究竟是谁发现了最小二乘法的纷争吧。Legendre最先发表的论文,但Gauss在后来发表的论文中说是自己发现的,说他觉得最小二乘法不是特别重要所以一直没发表。因为Gauss确实是更早就开始使用了而且在论文中对最小二乘法有着更详尽的阐释,人们还是把Gauss视为最早提出最小二乘法的数学家。暴躁大概体现在Gauss对前人一直没有发现最小二乘法这一他认为再显而易见的东西感到遗憾,说他不想发表是不想让他们显得太尴尬(原文是他不想“urinating on the ashes of my ancestors.”)

  24. 卤鸡屁股
    @1 year ago
    3133609

    本周最佳水印

  25. 肥颓
    @1 year ago
    3133658

    文章不错。

  26. 3133793

    水印好用心啊,还找了一样的字体

  27. 3133871

    这么说吧,虽然篇幅不长,但也是我一个半月以来静下心来读过的最长的文字了,羞耻。。。

  28. 煎蛋
    @1 year ago
    3134143

    又特马被平均了。统计局最喜欢这玩意了,但是然并卵。

发表评论


24H最赞