导语:从DeepMind使用强化学习来玩Atari的游戏开始,到现在的AlphaGo与围棋大师较量,强化学习的应用越来越多。我从接触了强化学习这个概念,到学习的过程中,发现了其理论与游戏设计的联系,所以想要通过这篇文章来讨论一下我认为的可玩性的影响因素。本文是一个思考历程的重现,如果大家有不同意见的话,也欢迎在评论区发表自己的观点并参与讨论。
怎样才算一款可玩性高的游戏?在翻阅我的Steam库时发现,唯一一个超过1千小时的游戏也就是DOTA了。虽然我玩过的游戏也非常多,例如守望先锋,炉石传说,战地,LOL。不过这篇文章并不是来讨论我玩过什么,所以我就直接选取DOTA和守望先锋作为讨论对象了。
那么这样就产生了一个问题,为什么我玩DOTA能玩得比守望先锋久?推广开来,那就是为什么你玩一款游戏会比另一款久?
当然你可以说,这个游戏更好玩。好玩的定义每个人都不一样,好玩也是一个人的感觉。但是从理论的角度,怎么去定义这样的一种感觉呢?我想用我所学习到的知识来讨论一下。
如果我们将人类玩游戏的过程,用强化学习的概念去表达,会分成四个阶段:
观察自己的角色在游戏中的状态(State)。比如DOTA中,你看到了你的金币超过了一个想要 购买的装备的价格。比如守望先锋中,你看到了你的终极大招的进度条已满。
根据上面获得的状态,你现在会根据一定的策略(Policy)来选择行为(Action)。比如DOTA中,你可以在金币达到数量的时候立马购买想要的装备,也可以等待合适的时机来决定是否要购买更高级的装备。在守望先锋中你也有同样的选择,是选择现在就直接释放大招,还是等待合适的时机。
在选择行为之后,你就会执行行为。你可能发现等待时机是一个很好的行为,因为大部分新手会立马去买装备或者释放大招,而老练的玩家会等待合适的时机。无论如何,选择的行为都会获得回报(Reward)。比如立即释放大招的回报可能是一个都没有杀死,也就是回报为0,而等待合适的时机去释放大招杀死了5个人,也就是回报为5。回报可以有不同的定义,有些人觉得团灭对方是一件很爽的事情,但是有些人只是为了赢得比赛。
玩家在观察到自己的行为产生的回报之后,会调整自己的策略,从而采取未来回报最高的行为。
这四个阶段的不断循环,就是一个人玩游戏并不断练习自己的技巧的过程。当然这个过程还可以描述的更复杂一点,比如一个人会有计划的去执行自己的想法,会根据当前的状态去评估整体的局势,从而采取不同的策略。但是总的来说离不开这四个重要的概念,状态(State),策略(Policy),行为(Action),回报(Reward)。这里就不使用公式什么来解释专业的知识了,主要的目的还是为了通俗易懂。
那么为什么我们会继续玩一个游戏呢?从上面的过程可以看出,改变我们的策略的重要因素是获得的回报多少。不断尝试新的策略,从而摸索获得最大回报的最佳途径,就是游戏过程。这其中重要的是玩家需要获得回报,获得奖励。
比如我们生活中会碰到这样的情况,有些不会玩游戏的人刚开始并不是完全不尝试游戏的。有些朋友可能在玩一款游戏,比如LOL,然后就会想要带着这个平时不玩游戏的人一起玩。但是在玩了几局之后,这个平时不玩游戏的人并没有融入这个游戏,他觉得每次会玩的朋友都责怪他不会出装备,不会补兵,不会走位,不会这个那个的。最后的结果就是导致了这局输了。而会玩的朋友一般不会认为是自己的原因,而是觉得是新手太不会玩这个游戏了,导致了这个团队游戏输了。在输了几局之后,这个平时不玩游戏的人决定放弃这样的一个游戏,觉得玩游戏不适合他。
为什么会发生这样的情况?我们可以看到,在玩游戏的过程中,不会玩的人一上来就要处理比较难的状况。他的策略首先是不固定的,因为他并不知道他应该做什么,什么才是回报最高的行为。对他来说所有的行为看上去都是一样的,没有任何差别。他不知道如何获得金钱奖励,也不知道怎么将金钱转换成装备的优势,从而获得胜利。那么在整个游戏的过程中,他获得的回报是微乎其微的。他可能没有能力去击败对方玩家,只会被对方玩家击败。再加上整个游戏可能输了,因此他获得的回报不是正面的,而是负面的。这样就造成了他不知道做什么才是对的,因为他尝试了不同的方法,好像都不奏效,所以大部分人就倾向于“这个游戏很难,不适合我”的观点了。
同样的道理也适用于所有的游戏。如果一个游戏想要吸引玩家,那么首先需要的是给予玩家足够多的正面奖励。但只有这样也是不够的。
为什么单单给予玩家奖励是不够的呢?我们思考一种情况,设想有两种迷宫游戏,一种游戏迷宫是固定的,每一关迷宫都是一样的,在限定时间内到达终点的时候玩家会加一分,另一种迷宫是不固定的,每一关会随机生成,在限定时间内到达终点的时候同样会给玩家加一分。你会更倾向于继续玩哪一种游戏?很明显是后者。因为随机生成的迷宫带给你一种不同的体验,你需要从新的迷宫中寻找新的路径,而不是重复同一个迷宫的路径。可以看到即使两种游戏的奖励机制都是一样的,都是在限定时间内到达终点的话就获得一分。
因为你在玩两种迷宫游戏的策略是不同的。在玩第一种游戏的时候,你的策略倾向于固定,你也知道你走这条路或者这个转弯会让你到达终点从而获得一分。在玩第二种游戏的时候,你的策略是不固定的,你每次前进转弯的位置都不一样,你也不太能完全预测这条路就是正确的路,你只能根据你当前的位置与终点的距离,还有观察岔口处走哪条不是死路来确定你要走的路。
以迷宫为例子,我们就可以发现,吸引人继续玩下去不只是能够获得奖励这么简单,还在于玩家不能使用固定的策略来进行游戏。他需要不停的变换策略,才能从中获得乐趣。
回到DOTA与守望先锋的讨论中来。两者都是团队游戏,都有赢得胜利的快感,也就是你都能够从胜局获得正面的回报。那为什么有些人在守望先锋出了这么久之后倾向于放弃这款游戏?就像机核其中一期电台节目里说的那样,守望先锋如果为了赢得比赛,很可能大家会使用固定的阵容。而守望先锋可以选择的英雄本来就比较少,再加上每个英雄的定位是分开来的,导致在组建团队时如果缺少某个定位的英雄,那么玩家就必须要选出一个这样定位的英雄。比如在推车中,通常会有一个大锤,因为他的定位在游戏中是非常重要的。那么一旦阵容固定了,就说明每个人的打法基本上固定了,就像前面的不会改变的迷宫一样,你的策略固定了。那么虽然这样的阵容能够让你获得胜利,但是正是因为你的策略比较固定,你从中获得的乐趣将会变得越来越少。
而对于DOTA来说,它是一个发展时间比较长的游戏,所以它所拥有的英雄池相对于守望先锋是非常庞大的,可以组合的阵容也就变得比较多。当然英雄多并不是代表这个游戏就会拥有更多的乐趣,因为LOL,300英雄都比DOTA现有的英雄要多。我认为乐趣还是体现在策略的变化上。例如LOL的定位就非常固定,如果你是一个辅助,那么你就是没法做到像中单那样的拯救团队的效果。但是DOTA中就不一样,拉比克也是被定义为辅助,但是在一场团战中,如果拉比克能够偷到对方英雄的大招并反手打击对方,那么整个团战的局势就被逆转了。
还有几个重要的游戏机制是DOTA与其他游戏不同的地方。例如能够使得玩家位移的各种东西的多少。因为玩家如果能在游戏中位移,那说明他能够通过这样的操作走位来躲避技能。正是因为走位在MOBA类的游戏中是非常重要的,所以位移有时候能够扭转局势。在DOTA中有三件装备可以让玩家产生位移,比如原力法杖,闪烁匕首,飓风长戟。而拥有位移技能的英雄也比较多,位移技能也多种多样。而在LOL当中,最重要的位移技能就是闪现了,而且闪现的CD相比于这些装备之类的长很多。位移方式的多样性导致了局势变化的多样性,从而你选择的策略也变得多样起来。
总的来说,策略的变化与持续的奖励才使得游戏变得好玩。首先玩家需要持续的奖励,无论是游戏过程中获得的奖励,还是游戏一局结束之后获得的胜局奖励。其次是玩家可以采取的策略的变化,拥有多样化的策略选择才能让玩家有持续玩下去的动力。当然这个问题还能够讨论的更复杂一些,例如玩家在头脑中怎样对游戏进行建模,从而对自己所要采取的行为所产生的结果进行预测,根据预测来计划自己的行为。为了使这篇不要太长,在这里就不更细的讨论了,因为文章更短就能更早让读者体会到读完文章获得的正面回报。
另外说一句,按照上面的理论来解释,西蒙刚开始觉得无人深空牛逼疯了,主要还是因为宣传导致了他认为自己能够从游戏中体会到各种不同的策略所带来的环境的变化和不同的回报奖励,然而在进行游戏之后他发现能选择的策略降低了好几个数量级。那么玩家体验到的不是从刚开始的无策略到固定的策略,而是从想象中的很多策略降低到了固定的策略,那么玩家的乐趣就会急剧减少了。嗯,大概就是这样的一个道理。
评论区
共 93 条评论热门最新