美国时间2020年3月16日,凌晨5点,微软毫无预兆地再次发布次世代主机 Xbox Series X 的详细规格。这次, 关于这台新主机的神秘面纱已经全部揭开, 其最终官方硬件规格参数、外设、采用的独有新技术、向下兼容等服务,都已经完整的暴露在我们面前。
此前备受关注的 SSD、光线追踪等次世代技术也做了全面、完整的展示。
微软在这次突爆猛料之前,邀请了 Digital Foundry 「数毛社」和 Austin Evans 与 John Linneman 前往华盛顿州的 Redmond 总部,提前体验和评测了 Xbox Series X 真机。DF 油管频道和官方公关稿同步发出了这款视频。
我怀着激动的心情,连夜赶制了这段视频的完整中文字幕,奉献给大家。翻译完成之后,我只想说,这注定将成为一台划时代的游戏主机,它所蕴含的智慧和工程上的努力,登峰造极、史无前例。
来不及/不方便看视频的朋友,一下为整理字幕中的重点:
1. 定制 CPU 细节:4倍于X1X,两种运行模式
8核 定制 Zen 2 CPU,这颗芯片集成了8个CPU核心,16线程。其中4个核心各组成一个集群(cluster,又译「簇」),一共2个集群,集成在同一颗芯片上。1颗CPU核心(或者说2个线程)留给底层滞留的操作系统和Shell程序(命令解释器)用于前端。
微软承诺过,新主机的性能是上代 Xbox One X 的四倍,不论是单核性能还是整体输出。让人印象深刻的是这颗CPU的速度。峰值时钟频率达到了 3.8GHz 这个数值是 SMT 超线程特性关闭的情况下。有趣的是,开发者可以自己选择运行模式:
所有这些时钟频率都是 完全锁死 的,不会允许开发者根据芯片载入或根据发热情况进行调整。有趣的是,在我们访问期间,这一点微软强调了好几次。这是我们第一个大惊喜,因为在我们基于PC平台的测试中,SMT开启情况下,能给游戏的各方面表现带来30%,甚至是更多的性能表现提升。在那些针对多线程优化的程序中其中也包括游戏。
然而微软所希望的是,至少是首发游戏,希望开发者能针对更高频的 3.8GHz 模式做优化,从而关闭 SMT 超线程模式。因为本世代的游戏引擎,都是针对7个CPU核心或7工作线程打造的。关闭 SMT 超线程之后, 这些引擎可以直接映射到 Xbox Series X 的同样的7个核心上从而会获得巨大的性能增益。
12 TFLOPS,52CU@ 1.825 GHz定制 RDNA 2 GPU。其中单精度浮点算力的精确数字是:12.155 TFLOPS。3328 根渲染管线分配给 52个计算单元,运行时始终锁定在 1825MHz 的频率上。 芯片上原本其实有 56个计算单元,但是弃用了其中的4个, 以便确保流水线上的良品率,保证零售主机能正常量产。所以看起来微软又一次非常坚定的选择,锁定所有区域的所有时钟频率。所以不会有什么超频模式或任何变通。看起来微软深信, 主机体验的核心标准在于一致性, 每台发售的主机都应该有整齐划一的表现。PC GPU 根据发热情况,可以灵活调整性能表现,但 XSX 可不会。
12TFLOPS 对于次世代游戏体验来说已经足够。在这一点上,我们需要重申一遍: 计算性能不能决定游戏实际表现的全部,只能决定其中一项。 我举个例子。《巫师3》跑分软件,使用了多项AMD 新技术,可以演示各种算力水平。这个跑分就非常能说明这个问题。我们演示了这个跑分好几个月来说明 AMD 的 RDNA 架构,可以在相同的浮点算力水平下,比老一代的 GCN 架构跑出更好的性能。而 XSX 则拥有更新的RDNA2 架构,将带来更多先进特性。
不过重点在于要全面放大这种优势。要通过在游戏设计中融入这些新特性,才能发挥出它们的最好效果。比如可变速率着色(VRS)技术。这项技术简单说就是根据场景的可见性,增加或减少着色精度。
我最为欣赏的部分,不只是高性能,更是整体设计的高效率。要做到这一点就要求创新。比如说要解决 384位高速 GDDR6 内存所存在的信号传输问题, 微软就研发了 320位的解决方案:混合使用了6块2GB内存模块,加4块1GB内存模块的芯片。
于是我们终于得以解释之前的 Project Scarlett 预览视频里那堆混搭的芯片到底是怎么回事?
主机拥有总共16GB的系统内存: 其中有 10GB 吞吐性能为 560GB 每秒,这部分称为 XSX 的「GPU优化内存」。另外 6GB 运行在性能较低的 336GB 每秒下。 理想情况下,所有图形处理都会在「GPU优化空间」里完成。而 CPU、音频、输入输出接口管控等则存在「标准内存」的标准内存池中。「标准内存」又被再划分, 其中 2.5 GB 用于待机的操作系统,另外 3.5 GB 用于游戏。
总结起来就是: 两个内存池,一共有 13.5 GB 用于游戏访问。 这样开发者仍然可以访问共享内存,但显然性能表现就取决于访问的是哪个内存池。为什么这么设计?Xbox 系统架构师 Andrew Goossen 明确告诉了我答案:这项创新是必要的。这种设计既能保证最好的性能表现,又兼顾了主机设计的实操性,确保能够按时量产发售,而这点尤其关键。
硬件加速的光线追踪,这实在让人热血沸腾。我们数毛社一直以来都在追踪光追技术的演化进程,从 DXR 到 Vulcan 接口的游戏。你也看到了在 Nvidia 的 RTX 系列显卡跑出来的效果。我们一直说这不是 Nvidia 的专利技术;我们一直在说,这只是一个标准,而其他人都会跟进。
现在第一次,你不仅仅看到主机平台上实现了光线追踪,而且还是在 AMD GPU 上实现的。
现在演示的《我的世界 DXR版》是一个人一个多月的工作成果。利用了我们之前见过的《我的世界 RTX版》作为基础,然后就实现了我们现在看到的效果。这都是可实现的,因为光线追踪并不是一项专利垄断技术。这里的实现路径靠的是《我的世界》的 DirectX 光线追踪API。RDNA2 架构完全支持最新的 DXR 1.1版标准。这个标准类似于图灵架构的 RT core,能加速生成所谓的「BVH结构」。这种结构用于通过几何体的遍历和求交算法,做到精确映射。
简单说,就像是真实世界里的光线折射,一道光线在硬件加速的光线追踪映射中,光线的遍历和求交算法频率,每秒钟可高达 3800亿次。如果 XSX 没有硬件光线追踪的话,这些计算工作量就只能直接跑在标准渲染管线上。
唯一的问题就是,单单这,就会消耗掉大约 13 TFLOPS 的算力。而新一代主机可以卸载这些工作量,用标准渲染管线对它们进行并行处理。
微软和 AMD 携手共同研发了基于标准渲染管线的全新实现方法:利用 12TFLOPS 的单精度浮点(FP32)算力。 RDNA2 架构也允许进行两倍的半精度浮点计算(FP16)。没错,快速堆叠计算(Rapid Packed Math,RPM)又回来了。
所以在这个特定场景下,实际上在进行光线追踪时,你最高可以获得 25TFLOPS 的峰值处理性能。
不过重要的是必须强调:这里的特定场景是,由于工作量同时由 RT 硬件和渲染管线负担,所以计算 BVH 结构,只是光线追踪工作中的一部分。GPU里的标准渲染管线仍旧要进行正常的计算。所以实际上光照计算这样的元素,依然跑在标准的渲染管线上。
所以总结一下,我们在PC平台上已经见过:光线追踪的确和性能表现下降(帧率下降)关系密切,这种现象也会来到主机平台。但受益于全新设计的主机架构,我们可以期待开发者采用更有效的优化措施并做创新。
这里就有个好消息: 微软允许开发者绕过 DXR 接口,直接底层访问光线追踪加速硬件,这就给开发者进一步挖掘潜力创造了机会。
这块 GPU 也支持网格着色(Mesh Shading),这是一项全新的特性,最早在 Nvidia 的图灵架构中出现,效果就是你现在在演示中看到的。有史以来第一次这一特性将来到主机平台,也将有望在 AMD GPU 中使用。这项技术有望带来更复杂的几何表面,而不增加CPU负担。说到这里,我认为:这块新芯片可谓潜力无穷。
没错,固态硬盘存储来了。新存储非常快,微软公布的数字是 2.4 GB每秒 I/O 吞吐量,比本世代主机大约快了 40倍。其实这远远不是全部。
我们讨论的是一块定制的 Nvme 硬盘。不同于其他任何你之前见过的 SSD。首先它很短小,看起来像是以前的记忆棒。而且这个硬盘出人意料的沉甸甸。似乎完全是金属质地。上面印有希捷标志。如此设计可能是为了承受主板的发热。要知道主板可是每时每刻都在消耗大概 3.8 到 4瓦的电力。
随着热度的上升,我们知道 PC 平台许多 SSD 的问题是其性能会「衰减」。
就像 CPU 和 GPU 时钟频率被锁死,微软不接受上下波动的表现,所有部件都有稳定的性能。在他们看来是必须的,这对他们的主机设计至关重要。规格参数很有趣,2.4 GB每秒,这个表现已经很不错了。但是定制化的 API 接口和定制化的硬件被写入了系统芯片,带来了新功能。
微软认为是革命性的硬盘使用新方式,大概意思是把硬盘作为内存补充。
这个基本概念其实也很简单。游戏包,或者说,游戏安装文件占据了存储空间。这就等于像是延伸出的内存,允许 100GB 的游戏素材,可以被开发者瞬间访问。
这个系统微软称为速率架构(Velocity Architecture)。而 SSD 本身就是系统的一部分。XSX 系统级芯片定制的硬件单元,把 CPU 从解压缩任务中解放出来,能提供每秒 6GB 解压缩性能。而 I/O 系统标准非常古老,都30年没变了,如今看来已经过时。
在微软发明新方案之前,数据吞吐和解压缩可能要占用最多整整 5颗 Zen2 CPU 核心。而定制化的解压缩技术和全新的直接存储API, 把负担降到十分之一,只占用一颗 Zen2 CPU核心。 这意味着游戏素材传输和游戏中的卡顿将会极大改善。这或许解释了我们在 XSX 公开预告片中看到的那种程度的细节和变化。
16GB 内存本身,看起来不属于传统意义上的重大代际提升。GDDR6 的价格已经炒上天。
所以直接存取技术,允许开发者直接进入存储在 SSD 上的游戏素材库,几乎就像是对传统内存的延伸。而优化贴图材质传输又是重中之重。这里就要提到另一项重大改进。 听起来疯狂但是真的:微软在 Xbox One X 中植入了内置硬件,紧密监控到底哪些材质数据被游戏调用了。
结果微软发现:其实只有很少比例的材质是真正被调用,被呈现在屏幕上的。统一内存里只有近三分之一到二分之一的材质被调用;其他部分则被闲置。
强化版材质传输就试图瞄准真正需要的材质进行传输。这一功能被内置到了直接存取系统里。是的,微软认为这会是一项重大突破。理论上,这会是物理内存使用方式的效率放大器。你会注意到游戏世界更加真实、更多细节。然而背后却是一场重大的效率上的胜利。
「速率架构」更进一步。「快速继续」功能非常惊艳,允许用户在多个暂存的游戏状态中来回切换,只要几秒钟载入。当你离开一款游戏时,系统缓存就会把游戏数据转存到 SSD 上,当你切换到另一款游戏,SSD 的数据就会恢复到内存。 如果站在游戏本身的角度,它甚至不知道背后发生了什么。 只会觉得是用户按了一下「导航」按钮,然后每个游戏都跟没事一样正常继续。
我们在这里放了几段真实的视频,说明这个系统在真实的 XSX 硬件上,是如何实现的。这一功能的理想是可以同时支持3-4款XSX游戏。不过用到较少内存的游戏,比如你现在在演示里看到的。由于是本世代的老游戏,他们占用的资源较少,内存足迹就相对简单,意味着更多这类游戏可以被缓存起来。
这套设计思想的核心是: 「性能」和「速度」是 XSX 体验的两大核心。
评论区
共 75 条评论热门最新