我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么
听了这么多年民谣,我有一种感觉,就是很多歌都似曾相识,但是仔细一想,又哪一首都想不起来,为了搞清楚这群流浪在祖国大地的现代游吟诗人们都在唱些什么,我做了一些数据分析的工作。
我选取了大约30个或比较大众,或比较小众的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。
我首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌,老实说,大多数歌手被人熟知的歌并不会超过这个数字。
这样,我得到了小一百个装满歌词的文件,我都能感觉到从里面溢出来的文艺了。
接下来,我开始了对这些歌词(约42万字)的分析。
首先是情绪分析,通过对这些歌词的自然语言处理,我知道了不同歌手们吟唱的到底是开心还是不开心的事情:
数值的分布比较平均,但大致可以看得出有三个分类,一类是特别开心的,例如郝云。但是我一开始也不太懂,为什么丢火车的情绪也这么高,后来听了几遍他们的歌,发现他们虽然唱腔惨兮兮的,但是歌词还是充满正能量的,丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。第二类则是比较忧伤的,以我们熟悉的逼哥为代表,他们的歌词中充斥着孤独,沉默,泪水等词语。虽不暴力,但是多少有一些黑暗。
第三类则以赵雷为代表,比较平静,就像一个朋友给你讲故事,不疾不徐,娓娓道来,里面也有开心,也有难过,但总体情绪趋于中值。这也许解释了为什么赵雷这么晚才火起来的原因——平淡的情绪较难快速给人以强烈的冲击。但无论如何,好的音乐总会被人们发掘。
基于某种趣味,我又分析了一下其他风格的音乐的情绪分析:
民谣的情绪很丰富,而摇滚的情绪则大多是负面的,人们说,没有愤怒就没有摇滚,这话至少在歌词的情绪上是正确的。
民谣歌手最喜欢什么季节?通过对歌词的分析,这个问题也可以解决:
其中,春天出现了81次,冬天出现了74次,夏天和秋天各出现了70和47次。由此可见,最受欢迎的是春天和冬天,最不受欢迎的是秋天。但我个人觉得秋天挺好的,秋高气爽,菜价便宜。
同样的,我也分析了歌手们最喜欢的城市,结果如下:
可以看得出,北方城市完全战胜了南方城市,成了在歌词中被唱的最多的地方,特别是北京,一共出现了81次。说到一线城市,人们会说北上广深,但是在民谣的世界里,北京绝对是不可撼动的存在。南方城市只有成都勉强露了几个照面。作为一个成都人,我对此还挺高兴的。
难以理解的是,虽然北方城市大获全胜,但是歌手们却更多的念叨着「南方」而不是「北方」,「南方」比「北方」多出现了大约5.7%
另一个我感兴趣的问题是,民谣歌手们是在向前看还是向后看,是往未来寄托希望,还是缅怀过去?
看得出,民谣歌手是在往前看的,至少是活在当下的,「明天」这个词在歌词中出现的次数最多,接着是「今天」和「昨天」,而「前天」和「后天」则几乎可以忽略不计,这也是可以理解的,比如说「我拿青春赌明天」,这听上去很美好,如果要说「我拿青春赌后天」乃至于「我拿青春赌下个月5号」,就听上去就像一个赌徒发疯了。
在我的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。
如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。
本次分析使用的是腾讯文智和哈工大社会计算与信息检索研究中心的自然语言处理模块,同时也在测试的时候使用了百度AI的自然语言处理,效果不好。
有点意思,服了,很好奇代码,打算开源吗。
打算完善一下再说
你好!关于这篇文章,想跟您联系一下。可以给我发个邮件吗?我想把您的研究结果视频化,做一个短片!
在博客的关于我,可以找到我的联系方式
二维码扫不了!
借机炒作自己。以我看来他分析的好多都不算民谣。丢火车本来就应依独立的创作风格远远超过这些一个格调的中国民谣的范畴。用软件和文库来评价音乐文化就是一种缺乏眼界和缺乏欣赏力的表现。
你来告诉我,什么叫民谣?
虽然现在一些音乐风格的界限过于模糊了,但老实说民谣,摇滚和流行是有本质区别的。别的不说,窦唯不是民谣歌手啊???再有..用完全的数据理性去分析感性的结果(歌词)?这是在开玩笑么,我怎么觉得什么都不能代表呢……试着拿这模版套一下流行乐坛,想象一下?
是不是只有你听着,让你觉得能像个傻逼一样,舒服的躺在床上的和弦才叫民谣?这么说来,是不是加州旅馆也算他妈的流行? 民谣来自于生活,懂吗?不懂就多问,瞎bb是没有用的,争取所谓的优越感只会让你显得如同个loser.
+1
加州确实算流行。但是我们支持你的态度。
@一弦 你来告诉我,什么叫炒作?
可以查字典嘛。
同学,科普一下,对文本的分析,量化的方法称做内容分析,符号学的方法叫做文本分析。只不过根据研究需要,运用不同的研究方法而已。不要说的那么片面。
您好~我是网易新闻数读栏目的编辑,我们想在微信公众号转载您的文章《我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么》…请问可以给下授权吗?
可以
目测此文会火,如果按歌手年龄继续分析下,可能更好玩。
绘制图表是借助API吗❓
感觉一些结果在统计上可能不显著哎
+1
情分析一下重金属,他们为什么如此歇斯底里。到底开不开心,喜欢哪天?
数据说话,前排。
literarische hure
Awesome, smart ass, why not give a go on Dylan, win yourself a Nobel.
你也可以大数据下莎士比亚嘛 等你的好消息哦
应该加上方言民谣,比如五条人和王磊。
这篇文章在即刻上收藏数和评论数都不低呀。
文科渣最近在做相关的论文,给一点建议。量化的内容分析的方法已经足够了,但缺一点符号学的文本分析。毕竟民谣歌词本身有很多语句的外延都很广,作为意象的词汇也非常多。如果把现代的民谣歌词和作为古代歌词的古典诗歌之间做一个比照,相当于一个更宏大的历史叙事,能看出更多的东西,结果可能会非常有意思。希望能够交流一下。
是工大的学长吗⊙﹏⊙
不科学样本里没有矮大紧
想请问一下你提到的正面和负面词语,有没用到什么量表?还有请问你是用什么给歌词分词的?
您好,我是IT之家的新闻编辑,请问可以授权转载您的文章《我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么》吗?我们会标注清楚来源和作者,谢谢~
一觉醒来,你这篇文章果然火了,各大网站转载。
数据分析纵然厉害
但也有点overrated了
用工业化的方法去解构艺术的本质
找到了一丝规律便自觉深谙世间不二法门
多像那些武侠小说里因修行了不完整秘籍而走火入魔的人
对音乐的理解何时沦落到要经过码农的话筒?
我们的大脑真的退化到了这步田地?
必须承认,民谣里滥竽充数的数不胜数
可哪一个领域又何尝不是?
总有人以三流的姿态模仿一流的作品 再借由“万能公式”炮制出许许多多的二流渣滓
这又是何必
作者分析了几十万的歌词
可他永远也没有机会搞清楚歌手们在唱什么了
真正理解语言本质,只言片语的理解或许是第一步
隔岸观火,坐等开源
不过作者的分析挺有意思
尧十三的“尧”都打错,这次研究的严谨性实在不敢恭维
还是第一次见这样的分析嘞 厉害了哈
好耶好耶,如果可以分析所有的民谣音乐就好了,我是说所有国内的,从1997年红磡演唱会以后的民谣都算上,这才是大数据的魅力吧。
某些同学挺有意思的,老觉得如情绪与艺术类的东西不能用代码分析,“用软件和文库来评价音乐文化就是一种缺乏眼界和缺乏欣赏力的表现。”这句话自大到了什么地步……
诚然以艺术的复杂度与难以捉摸,目前的人工分析简直就是不忍直视,作者的这次分析也是好玩为主。不过复杂与难以捉摸不代表神性,不懂所以敬畏如神那是野蛮人。正因为其复杂与不好分析,现在的诸如人工智能与数据分析等相关工作才格外好玩,人类社会也才因为这份好奇心与不惧未知才一步步发展起来,都陶醉在自我麻痹和畏惧如神的情绪中的话,人类现在还在森林里面拜天神呢。
思想还停留在“软件分析文本”这一级别的人,是时候睁开眼睛看看世界了。早些年围棋圈子也是这种心态,不过人家大部分都是聪明人,心态调整快,现在也是乐呵呵的和阿尔法狗斗。但是你自己呢?
结尾不忘黑一下百度,good
占比第二的兰州直接忽略是什么意思,北京的好基友兰州小伙和前女友莎莎都表示失望
你好,请问方便给个源码吗?我想学习一下
数据源方便共享下吗~另外~不知道能不能转载呢?
很多人纠结这个分析准不准能不能体现民谣歌手唱什么,其实用一个IT男的眼光来看 作者只是用一个新颖的角度完了一个有趣的事儿。谁Tm在乎准不准。。只是好玩就行了啊 还有求源码
哈哈,在新周刊上看到了
2020/09/22 16:51