美剧《西部世界》有着引人入胜的剧情背景、极其开放的自然环境和栩栩如生的 NPC 接待员。在这个世界中,没有人告诉你应该做什么,或者你需要做什么,一切剧情的发展都是你来决定。
虽然《西部世界》中自由且开放的剧情暂时无法在生活中实现,但有了混沌球算法,我们可以在游戏中打造极具个性化的剧情与体验。
你可以和 NPC 们诉说自己的心情、分享自己的故事、表达自己对其他 NPC 的不满、感叹人生的无常,他们也会像真人一样倾听你的故事,或是表达对其他角色的想法,或是告诉你他知道的一些秘密,或是参与到你对人生的讨论中。
当你和他们击掌、拥抱或者牵手时,他们不仅会如同真人般作出具体的交互反应,甚至还会因此对你产生不一样的情感,友情、爱情、亲情或其它,从而进一步生成不同的对话,推动不同剧情的发生。
而此类体验的本质,是让玩家通过一系列意料之外的微小的交互和剧情,逐渐相信这个与之交互的虚拟角色真的“生活”在这样一个庞大的虚拟世界里。2020 年非常火爆的一款游戏《集合啦!动物森友会》就是这一核心玩法下的代表作。
但《集合啦!动物森友会》中的巧妙体验,来源于任天堂将近 20 年的积累。任天堂在动森系列上数十年如一日死磕的工匠精神才成就了用户今天感受到的惊喜。
除此之外,为了实现《侠盗猎车手 5》这部游戏中的体验,R 星就需要 1000 多人的剧本策划和脚本策划团队,时间、金钱和资源的花费都相当惊人。
《侠盗猎车手 5》的开发成本已经高达 2 亿美元,《荒野大镖客 2》更是花掉接近 8 亿美元。玩家在体验开放世界的过程中,每一秒都是经费的燃烧。而中小型团队和独立游戏开发者想实现这种效果更是不可想像。
然而,基于深度强化学习的 AI 技术,rct 团队突破了传统生产流程的限制。在玩家和 NPC 之间的任意交互的基础上,算法能够自动生成几乎无限的个性化剧情,从而打造出一种全新的游戏体验。
为了更好的展示这种新的游戏体验,我们基于之前发布的混沌球(Chaos Box),专门制作了一个用于演示的最小游戏原型,我们称它为“盗梦人”(The Extractors)。
“盗梦人”这个名字的灵感,来源于著名导演克里斯托弗·诺兰所拍摄的电影《盗梦空间》。在这个技术 demo 中,玩家的目标是:在有限的时间内尽可能地窃取更多的钱,并成功从密室逃脱。
其中最核心的剧情部分,混沌球算法仅仅用了 1 个小时,就生成了几乎无限的剧情可能性。
在此基础上,我们又花了一个月的时间,将其完善成一个简单的小游戏。在“盗梦人”中,玩家每次都能体验到不一样的剧情和乐趣。
在“盗梦人”中,玩家扮演“刚子 Chance”和伙伴“大力 Dozer”一起进入一个密室逃脱的场景,在这个场景里还有其他三个角色:柜员茹茹,经理和顾客。
每个角色背后都有自己的故事和人物设定,比如银行柜员茹茹,是第一天来上班,其实很不老练;比如顾客其实是个投机的人,虽然他也没经历过什么激烈的大场面,但是他就是那种会想办法占一点便宜的人……
在“盗梦人”的开发过程中,我们没有提前准备任何关于人物或剧情方面的脚本,来预先规划好 NPC 的行为树、可能说的话与可能会做的动作。我们所做的仅仅是关于这个场景的背景、人物和物理规则的设定。
在这个场景中,玩家可以输入任意文字和NP 进行对话;可以使用键盘上的 W A S D 键控制角色行动;可以使用鼠标滚轮切换道具,用“枪”威胁或者射击 NPC;用“包”来装钱等等,从而推动不同剧情的发展。
玩家的交互不再受限于固定的选项,而是以完全开放和沉浸的自由度进入游戏世界。
值得注意的是,文本对话其实是交互中非常重要的一块内容,为了让“盗梦人”中的 NPC 能够产生智能且动态的对话文本,我们将 OpenAI 最新发布的 OpenAI API 也融合进了混沌球算法之中,这使我们极大丰富了游戏的可玩性与内容。
在加入了 OpenAI API 后,我们的核心技术能够让 NPC 自发地产生几乎无限的又非常生动有趣的自然语言对话:
早在今年二月,rct 团队就已经在旧金山与 OpenAI 接触。对于未来 AI 在细分领域的应用,双方都充满了信心,并交流了各自的发展计划。
2020 年 6 月,OpenAI 以限量发布的方式推出了第一个通用 AI API。该 API 并不是为任何一个应用程序而设计的,本质上是用来处理任意的自然语言任务。目前,rct 也是中国乃至世界范围内为数不多最先获得 OpenAI API 内测使用权的团队之一。
对于“盗梦人”,我们在团队内部进行了相当长一段时间的内测,在测试的过程中,我们进行过很多有意思的尝试,也诞生了非常非常多有趣的剧情,其中甚至有不少剧情,是我们在尝试前完全没有想到过的。
在这个剧情里,柜员茹茹已经不幸丧命,玩家也成功地打开了保险柜并提着装满钱的包准备离开。可能是因为玩家的同伙在开始后不久因为害怕逃离了银行,再加上茹茹也已经被击倒,此刻这位贪婪的顾客判断玩家手中的枪已经没有了子弹,便突然上前,从玩家手中同时夺取了包和枪。此刻的玩家是懵的,完全没有预料到顾客竟然会做出这样的行为。玩家呆滞了两秒才反应过来,并立刻报复性打击顾客。顾客由于害怕,便提着包、拿着枪,到处躲避玩家的追打,最终还是被玩家逼到了角落。为了夺回钱,玩家不得已痛下杀手。这不仅让夺包的顾客连连救命,也惊吓到站在一旁的经理,赶忙转身劝玩家冷静下来。
在这个例子中,玩家和同伴犹豫地走进了银行。环顾四周后,玩家见同伴毫无反应,便推搡了同伴一把,自己向柜台走去。此刻顾客看到有两个鬼鬼祟祟的人走进了银行,出于好奇便逐渐走向玩家。同伴看到顾客不断走向玩家,内心慌了,并开始四处张望,生怕有人发现自己的意图。思考再三后,同伴还是觉得走为上计,于是便头也不回地走出了银行大门。玩家这时不知所措,说好的一起打劫,同伴这就跑了。当顾客看见另一个劫匪已经逃走,自己便更加肆无忌惮地跟着玩家,视其所以,观其所由,察其所安。
还有些更有趣的例子,如果玩家以第一视角进入游戏,其中的细节是不可能发现的。
比如当玩家一开始用凶狠的语气让茹茹把柜台里的钱都拿出来的时候,茹茹有的时候会选择偷偷地把柜台里的一部分钱藏到自己身上。由于是上帝视角,玩家在现在的原型里是可以看到她的行为的,但是在第一视角下的话,玩家是不会发现茹茹的行为的。因为玩家并不知道柜台里原本就有多少钱,茹茹选择的行为实际上非常的聪明,也不会给自己招来更大的危险。
在这些玩家所看到的人物表现背后,每一个虚拟角色都是由很多很多的参数来决定的。这就像是《西部世界》里的工程师为机器人去设置他们的参数一样。在开发过程中,我们也在通过不断地调整人物的性格和动机参数,从而可以快速获得完全不一样的人设下的智能。
当我们调整了顾客的个人能力参数后,在类似于上面提到的例子里,我们会发现,顾客有的时候会选择加入玩家和他的同伙,有的时候又会选择一人单挑玩家和他的同伙,从而坐收渔翁之利,他的性格和产生的行为会更加的具有戏剧冲突性:
这些,都是很多玩家和制作人梦想中的体验,也是在传统的游戏制作流程里,倾其所有也只能触其皮毛的体验。如今,我们将游戏内交互内容的生成,从传统的纯手工流水线的生产方式,变革升级成了全自动化的流水线生产方式。
而创作者只需要去调试和控制这个系统,就能够轻松地以数十倍少于传统工作流程的人力投入来实现数十倍大于传统游戏体验的丰富程度。
虽然这只是一个技术演示原型,但我们看到的是未来 AI 与游戏体验和游戏制作的深度结合。尽管时至今日,游戏领域的 AI 还是以传统的决策树为核心,而机器学习体系下的 AI 却已经在游戏领域展现惊人的潜力。
目前,强化学习在数字娱乐领域的应用主要是在智能体的开发上,它使得我们不需要标记的样本就能让智能体自主地在虚拟世界中进行探索与学习。比如,DeepMind 用 DQN 玩 Atari 游戏,用 AlphaGo 打败围棋高手。
而在以剧情或以故事体验为主的数字娱乐场景下,目前还没有较为成熟和高效的强化学习框架和解决方案。这类数字娱乐内容里的智能体往往更加的多样和独立,且最重要的是,每个智能体的目标不像竞技性场景下那样明确和易于定义,因此我们称之为“多智能体多目标”的环境。
当玩家在虚拟世界中做出行动或说话时,每个 NPC 都会拥有自己独立的 AI 模型,它们将根据自己的决策模型做出反应,在有限的场景中提供动态和近乎无限的选择。
同时,AI 驱动的角色将与玩家一起协同产生更加复杂的故事情节,玩家也将不再局限于 NPC 之间的固定对话和“僵硬”的互动,从而获取无限且独特的娱乐体验。
在“盗梦人”背后,针对“多智能体多目标”的环境,我们打造了混沌球算法和大规模的自动化仿真系统。通过这些系统,我们能够为 NPC 们生成必要的训练数据和情景。
值得注意的是,我们目前使用的算力只是预期最终目标的万分之一,但我们却已经能够像上面那些例子里所展现的一样,在一些细节上看到了非常令人惊喜的输出。这意味着随着算力的堆积,在未来,我们非常有信心看到像 AlphaGo Zero 那样惊人的表现。
参考数字娱乐内容行业中的场景化创作的手法,我们把整个交互式数字娱乐体验的整体流程切片为一个一个的场景,每个场景需要确定的输入和输出,同时给出对应的设定。
场景之内的环境是封闭的,除了输入和输出之外,在进行过程中不与外界发生交互。我们可以用一张图来表示传统的叙事方式和基于混沌球的叙事方式的不同:
可以看到,传统的叙事,无论是单分支的叙事,还是现在几乎所有的所谓“交互式电影”里的多分支“交互式叙事”,都仍然是基于“事件”作为叙事的基本单元,也就是什么事情发生了,然后什么事情发生了。
无非是让用户可以自由地从给定的两到三个选项中,选择不同的接下来会发生的事件,整个叙事仍然是基于预先定义的路径来往前推进的。
而混沌球的不同点在于,我们将“事件”替换为一个又一个明确定义了入口和出口的黑盒。
你可以简单理解为,在每一个切片的混沌球里,开始和结局(一个或者多个)是确定的,但是玩家每一次如何从开始到达结局,则是混沌的,是路径不明确的。
这个路径只有当玩家不断地和虚拟世界里的虚拟人物 NPC 作出交互,这些 NPC 根据深度强化学习训练后的模型作出动态且实时的反应来推动剧情发展之后,才会不断地坍缩,直到最终被确定下来。
⼀个混沌球是⼀个具体的游戏场景中的最⼩逻辑单元,定义了在场景中的⻆⾊与此场景下⻆⾊的⾏为逻辑。
“盗梦人”项目也正式地标志着下一代游戏新体验的诞生,这不仅仅是一场游戏产业期待已久的革命,更是人类在探索自身道路上的一个重要里程碑。
为数字娱乐内容里的虚拟角色赋予智能的行为方式、让虚拟角色可以自主和智能地推动故事和剧情的发展、探索开放性的结局,无疑是非常有挑战性的工作。
我们针对这种多智能体、多目标的场景提出了一套较为完整的解决方案,包括场景定义、仿真框架、学习模型以及评价标准,也取得了初步的成果。
类似深度学习给计算机视觉领域带来了革命性的变化,我们相信,深度强化学习(Deep Reinforcement Learning)会越来越广泛的应用于数字娱乐行业以及我们生活的方方面面。
强化学习的框架能够与环境进行交互,在过程中学习,并且学习的模型具备迁移性。这些特点,都是基于统计的监督学习所不具备的,也是人类最终通向强人工智能的必由之路。
rct 成立于 2018 年,Y Combinator W19 成员,汇聚了来自人工智能、游戏、设计和商业化等各领域的人才。rct 致力于使用人工智能打造下一代交互式娱乐体验,我们的使命是帮助人类更多地了解自己。至今 rct 已从星瀚资本、Y Combinator 和 Makers Fund 获得了共计千万美元的融资。
评论区
共 21 条评论热门最新