之前我以 “怀旧” 区文章为目标,试着完成了一套简单的数据挖掘分析流程。最初其实是想写个名叫 “如何扒光机核” 之类的挖掘数据教程,但是做完之后发现这就是个 “难者不会,会者不难” 的东西,写出来估计是吃力不讨好。反而是扒下来的那些数据倒是引起了我的兴趣。我是个很爱怀旧的人,对于 “怀旧” 区的文章有自己的偏好,这也是我从它开始入手的原因。
我一直觉得,“怀旧” 是一个非常主观的情绪,与 “考古” 应该有很大的差别。对于童年看 《火影忍者》的朋友,再回头去看《圣斗士星矢》的话,我会称之为 “考古” 而非 “怀旧”。毕竟你怀念的,不是那些动画片,而是当时看那些动画片却再也回不去了的自己。怀旧的文章,与其说是写给别人分享,不如说是自己和自己的倾谈。
虽然我这里按照文章的类别进行分析,但是对于这个分类本身也是有很多值得思考的地方。在你投稿的时候,你自己可以选择你文章属于哪一个分类。然后最终的分类是由编辑参考你的分类选择以及文章内容决定的。我认为文章分类之后,应该是可以帮助读者更容易找到自己喜欢的文章。比如我想玩点新游戏,那么我会去找 “安利大帝” 或是 “原创力量”;如果我想了解奇人奇事,那么我就会去 “人物”;如果想感受一下玩家们的创造力,那么我就会去 “玩出花儿来”。通过这样主动的搜索,确实是能找到不少惊喜。
但是有不少时候,我还是会觉得这些分类并没有很好的帮助我找到期待的那些内容。原因之一可能是分类本身就不够清晰。一篇文章可能有怀旧情绪,也涉及到了二次元,或者是针对游戏改编的电影的不吐不快。由于一篇文章最终只能有一个分类,这样的单一标签自然是无法涵盖文章所有内容的。原因之二可能是确定分类的标准比较模糊。作为作者,给文章选择类别其实有时候也是一件头疼的事情。比如我的三篇 “游戏门外汉” ,本来是想自成一系列。这样统一的描述既可以帮助读者轻松找到这系列全部文章,也可以帮助作者建立起属于自己的品牌。但是考虑到具体每篇文章的内容后,最终它们三还是被分到了三个不同的类别中。如何更高效的利用分类,标签,以及关键词,应该成为大家的必修课。
上面这个图展示的就是各个板块中投稿者的人数。白色的点代表不同的作者,紫色的圆代表不同的文章区版块,连线表示作者给这个版块进行过投稿。线越深越粗,表示投过的稿件数量越多。紫色圆越大,表示投稿人数越多。大家对比一下上文提到的投稿数排名,应该可以发现许多有趣的现象。文章最多的 “玩出花儿来” 投稿人数却大大落后于其它几个兄弟版块。“不吐不快” 的登榜是否意味着机核全民吐槽(胡逼)?在 “知识挖掘机” ,“安利大帝” 里,我又常会感叹机核读者藏龙卧虎,大量质量过硬的专业文章读起来真的是过瘾。
在这里稍微插入点关于这个图的小知识。正如前面介绍的,图上每一个点就是一个数据(作者或是分类),有的点之间存在的有向连线(作者向某一类别投稿)可以成为是 “边”。“点“ 和 ”边“ 就构成了 ”图“。连线也可以是无方向的。为了将数据关系用图清晰的展现出来,就需要考虑到图的布局。最简单的一种,就是直接把点铺在空间中,然后用直线把相关的点连上。而最有名的图形布局算法之一,就是这里用到的 Fruchterman-Reingold (FR) ,可以称为力导向 (或基于能量的)的布局算法。它的原则是尽量保证各个连线长度相等,并且不相交。节点和连线有各自的 “质量”:节点的 “质量” 可以用它的 “出/入度” 来描述(作者投出文章就是它的出度,各分类接受文章就是它的入度),连线的 “质量” 就是该作者给指定分类投出的文章数。
在图中,我采用了入度来决定节点的大小,所以所有的作者都是一样大小的小白点,因为他们的入度都是 0 。而各分类的大小则反映了他们的入度,即有多少作者给它们投过稿。紫色的连线粗细不一,外围的白点上连出的都是很细的线,因为他们只投出过一篇文章。而到了图形中间,可以看到一些 “专栏作家” 就出现啦。特别是 “玩出花儿来”,有好些个作者都是它的常客啦。
每个节点的 “质量” 有了,再加上根据位置和连线来定义施加在它们身上的 “力”,那么我们就能够用方程描述出整个系统的能量。在力的作用下,节点和连线的位置按照体统能量下降的趋势不断变化,直到达到低能量稳定状态才停止。所以我们才能看到投过一篇稿件的作者们会集中在自己文章分类的外围一小片区域,而投稿较多的作者由于多鼓力量的拉扯,不得不落在了系统的中间部分。对于各个分类而言,较大的质量导致他们会将它们的投稿者吸引到自己身边,但同时也由于连接的节点数量过多,而稳定在了一个很微妙的平衡位置上。
细心的读者应该已经数出来了,我们这里一共有 798 名作者,3968 篇文章,平均每人发表文章数量是 4.972 篇。上图显示的是发表文章数量达到两位数的作者的光荣板。是不是都是大家耳熟能详的名字呢?向这些同志们致敬!大家都知道著名的 80/20 法则:比如80% 的文章是由 20% 的作者提供的。你觉得这个法则在机核还适用吗?
在机核,排名前 20% 的投稿者一共投出了 3085 篇文章,占总数的 77.7%。
下面的柱状图显示的是不同投稿数量下投稿者的人数。只发表过一篇文章的作者有 459 人,发表过两篇文章的作者有 113 人,发表过三篇文章的作者有 71 人。按照上文提到的 “知乎活跃原理”,如果能够让只发表过一篇文章的作者,再投出第二稿,这样不仅仅是可以大量增加机核文章区的内容,吸引来更多的朋友,同时也可以大大增强这部分朋友对于机核网的粘性。
总结一下,这一篇文章仍旧是以数据统计为主,试图挖掘出机核文章区投稿的一些特点。一方面可以看到机核的一批 “核心作者” 为文章区打下了坚实的基础,同时读者们的积极参与也让文章区变成了一个大家分享交流自己爱好和才华的好地方。正如我副标题所说的,在我这篇文章发布的时候,里面的数据已经早就过时了。不过这样的过时,希望今后能够来得更快更猛一些吧。
后记:“工欲善其事,必先利其器”。在上一篇文章中,我的主要工作是建立好了整个数据分析流程,而拿到数据后简单的做了一些展示。而这一次,因为有了之前的基础,使得我可以很快获取更多的数据,可以将大部分的时候都用在了分析绘图之上。虽然只有三个图,但是在上面投入的时间是大大胜过之前那些图片的。正所谓:千言万语不及一幅画啊。
评论区
共 79 条评论热门最新