@ 2013.10.09 , 00:13

WHAT IF: Twitter 时间线有多长

我推特页面上的「时间线」(其他人发的),屏幕都显示不下,两头都在屏幕外,那么它们接起来一共有多长呢?

——匿名用户

[-]

这真是一个奇巧的问题。答案会牵涉到德国坦克、人类灭绝和很多有争议的关于因特网的统计学问题。

首先,Twitter。

老多的推文

所以,答案是看你fo了多少人。有些人看到的会比另外一些人的要多。

Twitter账号 @JephJacquesQuestionable Content 的作者,话唠。他能给你的时间线填上36,000条推文,如果你fo了@不常发推,那一屏就足够了。( 小编注:这是 xkcd作者 Randall Munroe 的账号,一万八千粉丝,0条推。

[-]

引用黑客 Diego Basch 的分析,去年平均每个 Twitter 账号发推 307 次,fo 51人。但是「平均数」这个东西可能很不靠谱( 想想年赚6,500万的 Larry Ellison,搬到一个3000人的小镇上,一夜之间小镇居民年收入就会被增长一倍。 ),许多 Twitter 账号都是一言不发,或者只有一个「粉丝」。

为了确定一个更具代表性的 Twitter 时间线长度,我找了些朋友把他们的 Twitter 主页截屏给我看,并且统计在某个时段里的收到新推概率。得到的结果跨度很大——有些人一分钟看到20推,有些人一个月只有20推。

通过乘以一个介于0.5~1之间的随机数,和基于 Twitter 网站的增长速度倒推过来,表明一些账号的时间线上有几百条推文,而另外一些则有上百万条。

在我的显示器上,一条推文的平均高度是 2.4 厘米。也就是说,JephJacques 的推文加起来有 900 米高——高于世界最高楼,而且还在涨。

不过,Jeph 见了 @YOUGAKUDAN__00 也得跪

[-]

这个账号每分钟都会发好多推——大部分都是二进制,少数时候会说人话。 @YOUGAKUDAN__00 现在有3,700万条推文,足以码上地球轨道。

根据 Diego Basch 的统计,以目前 Twitter 全站每日的发推量,在2013年10月,Twitter上共有 3450亿条推文。也就是说,如果你fo了Twitter上所有人,那么你的时间线将会长达 8 百万公里。为了形象比较,这里是地球和你的时间线:

[-]

当然,这只是显示在屏幕上的部分,那么如果算上 过去-现在-未来 全部的时间线,会有多长呢?

[-]

总会有一天,你所fo的最后一个人发出了他的最后一条推。到那时,Timline 将会是是多长?

未来

我们的时间线实际上不会高过摩天大楼,因为Twitter限制了我们能翻阅老推的数量。但是,我们应该可以推算一下 Timeline 最终会达到多高吧?

考虑人类的平均寿命,似乎大部分你fo的账号都会在这个世纪内永远停止发推。不过,像 @big_ben_clock 这样的用户是永生的。

[-]
这是英国「大笨钟」的Twitter账号,整点报时。

Twitter 这个网站能运营这久么?

我不能妄下结论,但是统计学是邪恶的,有个工具可以用。

玩不玩?嗯,看你和谁聊了。

德国坦克问题

假设你在另外一个平行宇宙,打开 IMDb,随便加载一个页面,比如 《The Land Before Time XXVII》 (小恐龙闯天涯 27)

我们就看片名,你觉得在这个宇宙中,一共有多少部 《The Land Before Time》 ?最少有27部对吧,或者更多。

二战时候,盟军也遇到过类似的问题。德军的坦克都有一个序号,大部分都是按顺序排的(1,2……)。假设盟军交警扣下了一辆闯红灯的德国坦克准备罚分,发现编号是 #27,他们可以确定德军最少生产了 27 辆坦克。也可以推测不存在有另外的上百万辆坦克,因为如果真有那么多,他们他们拦到一辆编号只有两位数的坦克的概率很小。

当然,敌军完全可以给每辆坦克一个随机的数字来迷惑盟军。1981年的时候,美国人的确就是这么干的——海军的反恐精英部队「海豹突击队第六分队」这个名字,就是在迷惑苏联间谍,让他们以为还存在有其他5个分队。

假设序号是连续的,使用聪明的贝叶斯算法,你可以从样本中推测出非常接近的敌军坦克数量。

如果你只有一点点样本,那么我们可以玩点数学技巧,我们所讨论的假设是说「随机选择一辆坦克编号的概率问题」,经常有人会觉得所有的数字被选到的概率是一样的。这种观点很快就会被数学击溃,「从1到无穷大的数字,每一个被选中的概率是一样的」这种看法,在概率上是错误的,技术上说,这违法了基本原理。

如果你只有一个样本——就和电影 《The Land Before Time》 一样,最好的策略是把得到的数字乘以二,也就是说,可能存在有 54 部这个系列的电影。

这种方法是假设你的样本正好落在整体偏中间部分——因为你拿到的样本正好在最前面,或者最末尾的概率很小。

奇怪的事情开始了

如果我们把德国坦克问题的结论,引入对人类的研究,我们可以推测人类将在2807年的时候灭绝。

这里是论证过程:

人类总有一天会灭绝的。假设在灭绝以后,外星人复活了所有存在过的地球人,并按照1,2,…… N 的序号排列,并且分成三组 —— 编号前 5% 的,中间 90% 的,和最末尾的 5% :

[-]

现在想象外星人像每一个地球人提问(被问的人不知道他死后有多少地球人存在),「你觉得你被分在哪个组里?」
可能大部分人都不会说英语,而且对自己的现状一脑门子问号。但是由于某些原因,所有人对说自己在中间的那组里,90% 的人都会答对(显而易见)。这对于任意的大小的 N 都成立。

因此,论证继续,我们应当相信自己也处于 90% 的中间部分。现在地球上已经有 100 亿人了, 我们可以推测出,有 95% 的可能性,这个 N 小于 2.2 万亿人。如果不是,这就意味着我们是 5% 那拨人里 —— 如果所有人都这么想,那么大部分人都错了。

更简单的讲:除去那些长生不老的,我们应该相信自己处于中间的位置,总之,大多数人是这样的。

如果我们的人口增长水平维持在 9 亿,这就表明人类将在800年后灭绝,最晚也在16,000后灭绝。

这就是末日论( Doomsday argument )

是的,这太可笑了
几乎所有人听到这样的论证,都会立刻觉得这里面有那里不对劲。

问题在于,每一个人觉得这个论证错了的理由都不一样。而且随着他们更多的研究这个问题,他们也会修正自己的理由。

自从1983年「末日论」发表以来,有成篇累牍的文章来反驳它,还有成篇累牍的文章出来捍卫它,没有让人信服的结论;就好像传送带上的飞机问题一样,但比那还要糟糕。( 小编注:这里有一个知乎上的版本:固定翼飞机能在摩擦力为零的地面起飞吗? 固定翼飞机在与地面水平速度为零的条件下能起飞吗?

这和我们关于 Twitter 的问题有什么关系?
我们姑且当「末日说」言之有理,来讨论 Twitter 的问题。因为已经有 3450 亿条推文,所以我们推测,现在和未来所有的推文总数应该是 6900 亿条。

基于目前每天有 4 亿条推文的速度,根据这个理论,Twitter 还能活 5 年,而且 95% 的可能,Twitter 将在45年内消失。

好像听上去还不算离谱——以目前的科技变化速度,没有理由相信一项因特网服务可以持续10到20年。

但是,这个「末日论」到底靠谱么?

[-]

如果在2018年,我们看到 Twitter 终于偃旗息鼓,这可以成为支持「末日论」的证据么?如果可以,是不是就证明人类还能存在不超过几个世纪了?

可能不是这样的。但是这得看你问的是哪个统计学家。

先不说别的,貌似《小恐龙闯天涯》系列一直在2007年停止制作了,所以,起码我们有信心觉得我们的境遇将不至于那样。

[-]

本文译自 xkcd,由 Junius 编辑发布。

支付宝打赏 [x]
您的大名: 打赏金额:
赞一个 (1)