我研究了一下北京凌晨不睡觉的人们
上周的某个晚上,我回家差不多是10点,到家之后,我拍了拍猫脑袋,玩了一会儿星露谷物语,看了几篇文章,喝了一杯水又撒了一泡尿,换上睡衣,然后在窗前站了一会儿。
那会儿已经十二点过了,整个世界好像很安静,可如果仔细看,会发现有许多遥远的灯火,点缀在许多不同的大楼里,隐没在广阔的黑色背景中,那是还没有入睡的人们。
即便我身处偏远的通州地界,即便已经是深夜,可这个世界并没有睡着,许许多多的人,由于各种各样的原因,依然没有入睡。
一瞬间我猛然产生了一股强烈的好奇,我想知道每一处灯火下的人,他们是谁,他们在做什么,他们又为什么没有睡觉。
然后我就开始写代码。
老实讲,我已经很久没有写代码了,而且又是用家里的 Windows,差不多到1点半,才写好一个简单的爬虫。
我的计划很简单:从微博的公开广场,获得发布地在「北京」且发布时间在当天凌晨1点到5点的微博。我其实对最后会得到什么不是特别确定,但我依然设置好时间,让这个脚本跑了起来。
受「爬虫写得好,牢饭吃到饱」的理论指导,我的爬虫写的非常简陋,没有并发,没有做任何代理,也不隐藏请求头。从某种意义上讲,我甚至可以用「老实巴交」来形容这个爬虫,同时它也只爬取完全公开的信息。
一周下来,我获得了4万人在凌晨的北京,某个瞬间的小心思。
我没有打码是因为这些都是完全公开的内容,事实上,你用微博去刷同城微博也完全可能刷到。
首先我看了一下性别,和我预料的比较一致:凌晨不睡觉的绝大多数是女性 ( f 是女性,m 是男性 ) :
就我所知道的大多数情况而言,女生的确更容易失眠或晚睡,夜晚会放大人的情绪,女生可能更容易受此影响。
接下来我又看了一下这些微博发布的时间点:
大部分微博是凌晨1点发的,随着夜色渐深,大部分人还是会向睡眠妥协,但即便是5点,也有许多人仍然活跃,4 点和 5 点差不多占据了这些「凌晨微博」的 15%
当然,以上都不是我最关心的内容,通过他们发布的具体微博内容,我可以一窥夜晚深处最隐密的片段。
远超其它,词频排名第一个的词,是「自己」。我猜测在北京的人大都很忙碌,但人总需要留一些时间给自己,如果不在白天,就是在深夜。
我使用百度的短文本情感分析挨个分析了每条微博的情感,我发现,大约有 40% 是正面情绪,这和我预想的不一样。很多人不睡觉是因为开心的事情,我挑了一些来看,发现,真的很让人开心
不过,绝大多数人的「深夜微博」还是带有负面情绪:
在我能够统计到的之所以凌晨还不睡觉的原因里面,大概有以下5种最为高频:
大部分人之所以凌晨还没有睡着,是因为情感上的问题,然而我没想到,因为吃东西而不睡觉这个理由居然也能排到前五,其中我看到了许多海底捞的身影:
在凌晨这个时段,海底捞应该是王者般的存在,虽然麦当劳,肯德基等少数一些店也是24小时的,但其所占有的比例在海底捞面前可以忽略不计。
幸好我只爬取了文字,没有爬图片,不然写这段的时候我可能会饿。
在深夜时候,不睡觉的人们最惦记的的是谁呢?结果如下:
明星的比例特别高,我分析了一下原因,发现这几天貌似有一个明星过生日,这造成了大量凌晨微博:
因为我只搜集了凌晨 1 – 5 点的微博,所以尚且如此,如果我把零点的微博也搜集进来,这根柱子恐怕会高出天际。
明星之外,朋友和对象占了很大的比例,然后就是父母(包括爷爷奶奶),在凌晨的时候提到父母,不看微博的话,我不会想到会是因为什么,但在我看了一下那些提到父母的微博后,我发现这些在深夜时分的碎碎念,可能代表了人们情感中最温暖和柔软的部分:
我稍微留了一手:我还记录了这些微博背后的博主的粉丝数量,因为我想知道大半夜不睡觉的,是普通人多还是大V多,结果出乎我的意料,发布凌晨微博的博主,平均粉丝接近一万:
之前看过某个大V说,他认识的每一个大 V 在生活中都不快乐,是否快乐这一点很难验证,但大 V 比普通人更爱熬夜,这应该是确凿无疑的了。
总的来说,凌晨是一个很奇妙的时刻,情绪会放大,肚子会变空,但这总归是真正属于每个人自己的时间。
我不太想写一些诸如在大城市的人,人生艰难,生活无奈的话,毕竟在这些不睡觉的人里,有许多都是因为有开心的事情,或者对第二天的期待而无法入睡的。
一些 Tips:
- 虽然本文所取数据全部是公开数据,但毕竟还是涉及到许多比较个人的东西,因此不会把源数据公开
- 本次统计基于「关键词词频」抽取,因此可能会存在误差
- 数据图表使用「纽扣词云」「Bdp个人版」「ChartCube」制作完成
- 爬虫的方法和无水印原图在这里:https://mianbaoduo.com/o/bread/YZeTmp8=
一个想法通过代码和数据来分析,有意思
干得漂亮
之前在复旦大学听过一个讲座,就是借助程序收集信息来分析同性恋圈的情况的
女生比男生多是没想到的
睡觉是一件美事
明星相关的内容多跟微博的属性相关
这个假设倒是很有道理,不过作者只是单纯的描述统计,没有去细究其中的原因
为什么rss订阅刷新不出来文章?
真是太棒了!大数据分析呀?
文章不错非常喜欢
好有意思…
文章不错非常喜欢
「凌晨不睡觉的绝大多数是女性」不一定吧。你的统计结果只能说明「凌晨发微博的绝大多数是女性」。因为有可能不睡觉的男性也很多但他们不发微博。
性别的误差是最大的。营销号的性别几乎都是女,然而不少是男。出于其他目的的假性别也很多。
一般社交网站的性别统计,误差都会很大