前几天在网上冲浪的时候偶然发现了《Video Sales Data》这样一个数据集,非常开心,于是着手做了一些分析,希望能跟大家一起从数据分析的角度来感受一下游戏世界。
数据集中包含55864条游戏数据,记录了这些游戏的名称、发行时间、平台、发行商、全区销量(百万)、主要分区销量(百万)等信息。
由于游戏销售额并不是公开数据,数据来源的销售数据实际上是估计值,所以在一定程度上,会有实际值与数据中的估计值存在偏差的现象。有些游戏并没有销售额数据,仅有发售数量数据,由于我们很难从发售数量估计销售额,所以在分析中忽略了这一小部分游戏。其中包括1985年发售的《马里奥兄弟》、06年发售的《Wii Sports》、17年PC平台的《PUBG》等。另外,有些游戏是没有评估销量数据的,比如,(划掉)黑暗剑(划掉)《黑暗之魂3》,所以没法出现在我们的分析中。遗憾,遗憾。
也由于数据本身的不够充足,以及作者能力的有限,本文的分析无法达到100%的真实。希望拥有更完善的数据的朋友能够分享给我,非常欢迎指导、讨论,感谢。
从数据集里首先我们就得到了从1970年到2019年初所有电子游戏的名字。不如来分析一下开发者最喜欢给游戏起什么样的名字吧。
对游戏名称进行文本分析,将游戏名拆分成英文词根,分析每个词根出现的词数,前15名常出现在游戏名称里的英文词根分别有:
你能列举出多少个名字里有 game 或者 world 的游戏呢?虽然 game 和 world 这两个词最常出现,但目前没有一个游戏的名字里同时包含这两个词的。也是很神秘。
这样的图或许在感官上还是没有什么确实的感觉,我做一个词云来感受一下:
美妙的事情出现了,图中心的两个最高频词是 Game World。我们在探索游戏世界的路上,肩膀不小心就碰到了游戏世界本身啊。game 和 world 其实就像"小红"和"小明",每年有多少"父母"给"孩子"起名叫他们俩呢?
看来很久之前叫小明的更多,但是在05年的时候小红突然反超,甚至在09年的时候它俩一起登上了取名顶峰。09年发生了啥?
原来是09年发售了非常非常多的游戏,高达四千多个。为什么09年游戏这么多呢?作者也很好奇这个问题的答案,非常希望有人能解答一下:)从图中我们也可以看到,过去的几年,或者说到今天我们也正在经历游戏发售量的下跌。
大家应该都有一种感觉:每年元旦之后的一小段时间里新游戏总是特别多。我们的这种感受符合真实情况吗?来看看1970年到2019年初,每个月的游戏总发售数量:
的确,每年1月份的游戏发售量是全年最高的,或许是大家都赶着过年,都想新年新气象在一月发游戏,12月的新游戏数量非常低,2月的新游戏数量出现了非常明显的下跌。第二个发游戏高峰月是11月。或许有厂商再发新游戏可以选择新游戏最少的五月,1月攒的游戏都打完了,大家的钱包都鼓鼓的,竞争对手还少了不少。
看到数据集中包含平台信息,微软、任天堂、PlayStation(排名不分先后!)三大平台的粉丝可能已经在摩拳擦掌了。好了啦不要再打了啦,让我们看看从1970年到2019年初,各个平台的总销售额到底谁高谁低:
前五名PS就包揽了4位。还能说什么呢,索尼大法赚钱就完事了。
游戏发行商是玩家的老朋友了。这些年来,哪些发行商从我们口袋里拿走的钱最多呢?
动视、EA、育碧、索尼都是抢钱高手。值得一提的是动视的使命召唤系列,在文章后续部分也会提到,使命召唤系列游戏的销售额非常惊人,惊人之处不只是销量高,而是整个系列销量非常高的作品又非常多。真的是赚到极致。
看到销售额前几名,或许我们会觉得游戏发行公司是不是都很赚钱?其实不是的。除去没有记录发行商的游戏,在所有在册的3146家发行商中,有1171个发行商只发行过1个游戏。发行过5个游戏以下的发行商有2299个,占全部的73%。
实际上,发行超过50个游戏的公司已经是凤毛麟角了。超过150个的发行商少到被这张图忽略。在大厂疯狂赚钱的同时,还有很多小厂在默默努力着,也有非常多的发行商简单试水之后就不再选择继续发行游戏了。
如果你是欧美玩家,你可能觉得世界上卖得最好的游戏是《GTA5》,但如果你是日本玩家,或许你会觉得卖得最好的是《怪物猎人:世界》。欧洲、美国、日本,这些不同地区和文化的玩家对于游戏的选择会有很大的不同吗?
如果我们把卖得好定义为,一个游戏的销售额超过了这个区域的95%的游戏,也就是,超过了95%分位数;把卖得没有别的地区好定义为,销售额小于95%分位数的80%。那我们就可以根据这个标准衡量一下各个地区的"只有我们get得到"的游戏清单。以下列出了各个地区独有的前十名:
从"All"表格里我们能看到 COD 系列的惊人程度:三个大区都卖得非常好,前十位占了六个。强。从北美才get得到的表格里我们能看到有不少体育游戏,和美国的体育文化非常符合。从日本才get得到的表格里有很多只在日本发行的游戏,这些游戏也和日本的审美、文化比较一致。
我在这里使用了随机森林方法,用游戏的类型、发行月份、发行商、开发商、平台五个变量对北美地区的销售额进行建模。之所以这样的原因是这几个变量是数据集目前能够提供的变量以及我自己思考从数据集中衍生出来的变量,而选择北美地区则是考虑到不希望地区对销售数据产生过多干扰,而随机森林方法个人觉得在这里更合适一点。最后得到的结果是模型的正确率为78.6%。
由于建模过程以及手段方法大部分玩家读者应该都不熟悉、也不太感兴趣,所以我不浪费篇幅描述了。得到这个模型的好处是,如果有新游戏发售,这个模型都有78.6%的几率能正确预测最终销售额取值区间。(这个区间并不是很宽泛。)
虽然说游戏卖座有些不太恰当,但在文章的最后,还是让我们来看看十年来每一年卖得最好的游戏都是哪些吧:
从2013年开始销量最高的游戏从 X360 平台转移到了PS平台上,到2018年都没有回头。《GTA5》竟然连续两年在不同的平台上卖出了全年最高的成绩,而且单年的销量至今无人超越,更不用说多平台多年的总数了。COD系列在 X360 之外的 PS4 上也能杀出重围,真是迷人。《FIFA 17》和 《荒野大镖客2》 牛逼。
评论区
共 25 条评论热门最新