@ 2019.03.04 , 14:00

个人决策时,数据并不是越多越好

去年,当飓风“佛罗伦萨”和“迈克尔”接连威胁我所在的北卡罗来纳大学教堂山分校时,我与数以百万计的人们面临着一个简单的二元决策:留下还是逃离?

近来,数据科学成为了当下的热点,各个公司都在抢人。出现了许多相关的书籍和网络课程,许多大学也开始设立数据科学学位和研究中心。这方面的课程根本供不应求。这个数据科学的黄金时代,可能意味着我们能够更好地进行决策。然而,数据的洪流却反常地让决策变得更加困难:这些数据难以转化为有用的信息。数据获取权限的民主化以及层出不穷的专家评论使得情况变得更加复杂。结果就是评价将不再中立。

举个例子,在那两个飓风登陆之前,当地人被它们的“Saffir-Simpson”评级所支配,这种1-5级的评级主要包括飓风的持续风速以及预测路线的“锥型”。在强制撤离区以外,人们根据这一评级来决定是否跟台风硬刚。正如Peter Drucker所言:“无法衡量,则永远无法改善。”但我还要加一句:“硬要衡量,则必被数字所困。”飓风强度的问题就在于此:损失程度当然与飓风强度有关,但洪水造成的损失更加严重。飓风“佛罗伦萨”登陆的时候只不过是个1级的小弟弟,但却给部分地区带来了3英尺的降雨—包括“路径锥型”之外的地方。

为了搞清楚情况,我联系了当地电视台的气象学家们。比起一个单薄的评级数字,他们对飓风所造成的影响要更精确。但我发现他们过于强调飓风的危险性了,虽然这有利于他们进行评级以及避免背锅自我保护:让人们不必要地撤离总好过被困在飓风里。于是我开始搜集更多的数据。我在社交媒体上找到了一些气象学专家,并且精心地列出了名单。这些专家都非常聪明,他们给出的回复也非常礼貌而又有智慧。

我学到了很多关于欧洲与北美的天气模型的知识,都是极好的—但对于一个只想找个雨天拍几张伤感照片的人来说一点用都没有。有一个模型预测飓风将会摧毁城市,另一个模型预测的只不过是几天大雨而已。暴风雨有可能会北上直击城市,也可能会南下擦肩而过。更奇葩的是,每个模型的预测结果都会定期更新,而专家们则对每次更新都有说法。

这下子我懂得不少了,但却更难以做出决策了。这种情况被称作是“选择悖论”—选项太多反而让人无力做出选择。就像你站在超市番茄酱货架前的那种感觉—大脑过载了:选有机还是非有机?低糖?加蜂蜜还是加甜味剂?甜味剂是三氯蔗糖还是阿斯巴甜?低钠?于是我只能闭上眼去拿一瓶—我要的只不过是番茄酱而已。(那么,是要玻璃瓶还是塑料的?)

如果更多的数据,更进步的科学以及更强大的计算机使我们能够提前很多天掌握飓风的路径,那么为什么我们没有办法准确预测飓风对当地带来的影响呢?很不幸,多次粗略预测的结果不能够简单地叠加,因为单个结果有很大的误差范围,这样会很容易地造成假阳性或假阴性。

那么,在生活中我们是不是要放弃数据驱动的决策呢?在这个大数据时代,我们不应该关注数据本身,而是应该进行更多的交流。关于大数据的缺陷我们要坦诚对话,这样才能更好地理解一堆数据与有效信息的区别。尤其是需要建立独立的中间者来帮助引导我们。数据科学自己做不到这些。

至于那两场飓风,新来的我问了一下久居于此的邻居,他们建议我囤一些电池。他们留了下来,我也是。

本文译自 scientificamerican,由译者 八角 基于创作共用协议(BY-NC)发布。
(前面部分还挺有同感的,后面结尾没看懂。)


支付宝打赏 [x]
您的大名: 打赏金额:

赞一个 (6)