无厘头研究
oioi @ 2011.07.29 , 16:13
新的算法,能分别Twitter 中的男女以及同性恋
[-]
虽然我们很少碰到这样的问题,到也不可避免有装成MM 的大叔、或者装成大叔的萝莉,在Twitter 中插科打诨。于是,有专家一怒之下,决定研究一下,每个人的tweets ,并从中找出男女发tweets 的规律,制定算法,算法twitter 账户背后的那个人。
语言专家Delip Rao 主导这个项目,他说主要目的还是基于精准的营销(例如只发送给MM),但同时也可以查清楚你自己是否有性格错乱等现象。
之前有个新闻便是Damascus(地名)以大叔在Twitter 上装成了一个女同性恋,他深信自己内心深入是个MM,但同时也喜欢MM。
好吧,算法开始。在这短短(最多)140个字中,要分别出男女可不是一件容易的事情。
在研究中Delip Rao 发现:女性更喜欢使用字符颜文字、重复的字母、缩写的方式来表达情绪,还有女性更喜欢谈论购物等等。通过下面两个图表,你便可以大概分别twitter 的男女,据说正确率在75.8%。
[-]
[-]