在PS5为我们带来的众多新技术中,3D音频技术(3D Audio)是在游戏音频体验上的一次大进步。3D音频到底是如何实现,又能在体验上为我们带来怎样的提升呢?这里我以自己的个人观点和大家谈谈这背后的技术原理,并一同展望其将在不远的未来给我们带来的全新体验。
我们的耳朵及相关的神经结构有着非常发达的功能。除了感知机械波并自带频谱分析功能外,对于声源的位置也有非常强的锁定功能。
举一个简单的例子,当我们在大街上被人叫住时,我们会下意识地在非常短的时间内把头转向声音发出的方向。这一过程的迅速和精准度背后,是我们从耳廓到神经系统的精密协同运作。我们会利用两耳听到声音的细微时间差、音量差、耳廓对不同方向声音的衰减作用、头部在声音穿过时的衰减作用、不同空间的回声……等等参数来确定声源的位置。
更厉害的是,这一定位并不仅仅局限于水平面上的360度,而是包含了前后、左右、上下、远近的八个自由度。也就是说,我们的听觉系统每时每刻都在感知整个三维空间中各个位置所发出的声音!
说到这里,大家应该明白传统的单声道或者双声道声音系统对声音的位置信息有多么巨量的损失了。那我们如何还原声音的位置信息、以达到更贴近真实的效果呢?要做到这一步,我们首先需要一些数学工具来帮助我们更好地了解人耳的工作机制。
爱好音乐的朋友应该听说过“人头录音”的概念:比起传统的麦克风录制方法,如果我们在专辑制作时就确定面向使用耳机听音乐的用户,那我们就可以使用类似人头的收音设备进行录制。这样,我们相当于在录制的过程中就包含了上述的一系列时间差等参数,那么使用耳机聆听的时候也就能感知到声源的位置信息了。
然而对于游戏来说,由于我们无法提前确定声音发出时相对于玩家的位置,自然也无法在制作音效时使用人头录音的方法。因此,我们需要将声音从声源传递到两耳的过程用函数表示出来,再对录制好的声音根据其触发时的空间位置进行实时的计算,从而将位置信息加入声音当中。
这样的函数被称为“头相关传输函数”(Head-Related Tranfer Function, HRTF)。类似于二次函数是对抛物线这一物理现象的数学描述,HRTF就是我们对整个声场这一物理对象的数学描述。
传统上对HRTF的测量有两种方法:第一种是直接请本人坐在一个可以移动的音响中间,并在两耳佩戴麦克风,然后让音响做360度的移动,并记录下每时每刻麦克风所收集到的声音,从而得到HRTF的参数;第二种是对本人的上半身数据进行精细化的3D建模,然后使用仿真软件对这一建模的声学特性进行计算来得到参数。
无论哪一种,这一过程都十分费时费力:不仅需要用户亲自提供测量数据,其成本也大大超过了一般消费者能承受的范围。不过听说国内有不少耳机爱好者已经在使用第一种方法进行测量了。
正是在这HRTF的方面,我查到了索尼在2020年2月被美国专利局公开的专利,其标题为“HRTF的检测方法、检测设备和程序”。索尼似乎发明了一种更为简便的HRTF测量方法,可以利用耳机上的麦克风和相应的软硬件进行测量。笔者忍耐不住激动的心情想喊出*那五个字*,并且期待我们能在PS5上看到这样的系统或者其带来的成果。
如上所述,在游戏中制作3D音频的难度要远大于录制音乐。除了可以任意移动的声源,游戏中的空间场景也在不断变化,而不同的大小和材质的空间都会对声音的混响有相当程度的影响。举个简单的例子,许多喜欢在洗澡时唱歌的朋友会感觉洗澡时唱歌的声音更好听,除了洗澡时心情舒畅的原因之外,也可能是因为浴室的狭小空间和光滑的瓷砖造成了更大的混响效果。这样的效果可以使声音听起来更丰满。
说回游戏,我们在游戏中的空间每时每刻都在变化,因此声音的反射也会时刻变化。游戏引擎需要根据当前空间环境实时对声场的变化进行计算。
在此前放出的Unreal Engine 5演示中,UE5开发团队便向我们介绍了新的卷积混响和声场渲染功能。卷积混响就是利用提前获取的山洞、房间等空间的混响信息,进行实时的计算。而声场渲染则是可以对声源的空间信息进行设定,正是前文所述的八个自由度。
不过,这一系统还并未达到理论上最完美的效果:我们可能需要一个类似光线追踪技术的声波追踪才能实现。然而如果真的要进行这样的追踪,其计算量甚至可能会超过光线追踪系统,希望我们在有生之年能看到这一究极声场技术的出现吧!
说回PS5,我们希望在一台封闭系统的主机上看到那些3D音频的技术?从底层技术到应用,首先是足够强大的计算力以支持3D音频的实时计算,最好能有专用的DSP芯片。其次是更多的音频设备,比如更好的音响系统和麦克风。然后,在硬件的基础上,在引擎中加入对HRTF、卷积混响、声场渲染等功能的支持。有了引擎的支持,PS5的系统开发者就可以加入前文专利所述的HRTF测量系统等便利的功能。
最后,是游戏开发者利用这些工具,在游戏中给我们带来更加真实、更加沉浸化的音频体验。
索尼在PS5上使用的声音引擎被命名为Tempest Engine。在此前的技术演示中,索尼的系统架构师Mark Cerny表示Tempest Engine拥有更加强大的音频处理单元、支持GPU并行运算,可以支持一百个不同方向的声源。同时,索尼已经进行了一百人左右的HRTF数据采集(或许是使用上述的专利方法),并且在此基础上提供了五种HRTF预设供玩家选择。这样的方法或许是一个很好的折中,能够以可实现的成本让更多玩家获得更好的3D音频体验。
从游戏开发的角度上说,一些游戏对音频定位的准确度会有比较高的要求,而利用HRTF等3D音频技术,玩家可以像在现实里一样,对声源进行快速而精准的定位。
在吃鸡玩法的游戏中,或许这就是决定你是否“落地成盒”的关键。而我觉得在《艾迪芬奇的记忆》这类游戏中,3D音频也可以带来更好的沉浸式体验。想象一下ASMR效果的游戏旁白,甚至能跟随玩家的视角移动实时变换位置……应该能带来一种不可描述的快感。
除了第一人称类游戏,本次介绍中公开的《GT赛车7》也能享受到新技术的福利。声浪和刹车都将有明确的指向,想象一下在超车的瞬间,对手车的声浪从前方慢慢过渡到后方的感觉……应该也是一种不可描述的快感。
能够见证技术的发展是我们的幸事,一代又一代的技术在不断将游戏体验提升到新的高度的同时,也会成为我们的集体回忆。期待PS5上能够产生更多利用好3D音频技术的优秀游戏作品,让我们体会到索尼新宣传语 “Play Has No Limits” 的真正含义。
评论区
共 37 条评论热门最新