在二维平面中有一个向量,它代表了我们生活在二维空间中的主角当下运动的状态。向量的方向即运动方向,向量的大小即速度大小。如果我们不在于主角的移动速度,只是想得到他的运动方向,也就是我们常说的方向向量,我们该如何计算?
很简单,我们利用勾股定理 a^2 + b^2 = c^2 即可求得向量长度的二次方,随后我们再对结果做平方根运算,得到的值为向量的大小,最后我们再用原向量除以向量大小,得到的结果即为方向向量,这个计算方法通常被叫做归一化(normalize),得到的向量我们也可以叫做单位向量。
方向向量不仅是在游戏中的物理模拟非常重要,对于渲染来说也是一样的。它能用来指明光线与三角面的方向,而方向则决定了光照程度、材质质感等关键效果的计算结果。
我们用简单的式子来描述一下这个计算过程:V / ||V||,其中 V 为任意向量,||V|| 为向量大小。也就是说,我们只要得到一个向量大小的倒数,即 1 / ||V||,就可以快速计算出方向向量。而 ||V|| 又涉及到平方根操作,所以最终我们要计算的其实是平方根的倒数。
当然我们可以把倒数与平方根运算分开操作,但是在游戏开发的蛮荒时代,平方根运算并不容易,倒数的操作也不是非常快速的简单运算。被机能困在旧时代的开发者们渴望得到一个快速算法,能够解决游戏开发中涉及到的大量的平方根倒数运算。
所以我们可知,函数 f(x) = x^2 - 2 与 x 轴的交点即为 √2 的值,函数图像如下:
观察图像,我们可以推测这个值介于 1 与 1.5 之间。
上面的函数与方程只能让我们得到 √2 这种形式的数值表达形式,那么我们怎么求得 √2 具体值呢?
如上图所示,我们画一条线,这条线与函数 f(x) 的曲线相切于点(2,2),并且这条线与 x 轴的交点十分的接近我们要求得的那个点,这是一个好现象。也就是说,我们只要找出这条线的函数形式,并求得这条线与 x 轴的交点,我们就能的到一个 √2 的近似值。
首先我们知道这条线经过点(2,2),那么如果我们还能得到线的斜率,通过点斜式即可求得函数。
因为这条线本质上是函数 f(x) 在点(2,2)切线,所以它的斜率就是 f(x) 在这一点的导数。
所谓的函数的导数,它表示这个函数在某一点上变化的趋势与程度。这一概念其实与经过切点的切线是保持一致的。切线的倾斜程度(即斜率)不就是代表了这条线上的值的变化程度吗?
我们用 f '(x) 来表示函数 f(x) 的导函数,对于 f(x) = x^2 - 2 来说,f '(x) = 2x。
其实对于类似 f(x) = ax^n + b 这种形式的函数来说,导函数的形式非常简单,就是 x 的指数减一,得到的值与 x 的系数相乘,偏移量 b 因为是常数,所以会被省略。按照这个规则,f(x) = ax^n + b 的导数就是 f ‘(x) = an * x^(n-1),所以 f(x) = x^2 - 2 导数即为 f '(x) = 2x。
我们将点(2,2)带入函数 f '(x) = 2x 求得此处的导数为 4,即经过此处的切线的斜率为 4。
现在切线的斜率与切线经过的点都有了,带入点斜式我们可得:
y - b = k(x - a);a,b 为函数图像经过的点
即切线函数为 g(x) = 4x - 6,并计算 0 = 4x - 6,所以切线与 x 轴的交点为(1.5, 0)。那么我们要求的 √2 近似值即为1.5。
1.5 这个值明显并不精确,它有点过于“近似”了。从图上我们也能观察到它与真正的 √2 的值还是有一定差距的。但是我们已经掌握了求近似值的方法,那么我们是否可以重复上述过程,来进一步接近正确值呢?
答案当然是肯定的。我们已经得到了一个接近 √2 的值 1.5,那我们可以尝试以这个值为基础,再做一次上面的运算。
首先我们将 1.5 带入 f(x),求得一个新的切点:
f(x) = x^2 - 2 = 1.5^2 - 2 = 0.25
f '(x) = 2x = 2 * 1.5 = 3
正如我们设想的那样,运算的得到的结果作为下一次运算的初始值,递归运算下去,我们就能不断的接近那个我们想要的值。
我们再从全局的角度观察一下我们的计算的流程。我们有两个关键函数,f(x) 和它的导函数 f '(x),用它们我们可以求得切点与斜率,再带入点斜式求得切线函数,最后得到切线与 x 轴的交点,即为我们想要的值。从这个过程来看,我们好像可以总结出一个更简单的公式,来表示这个计算过程,我们来尝试一下。
点斜式 y - b = k(x - a),因为我们最后要求得的值为函数与 x 轴交点中的横坐标值,即点斜式中的 a 值;又因为 x 轴交点的纵坐标必为 0,所以我们将点斜式变化为:
其中 x 与 y 组成我们当前已知的切点(例如上述第一次计算过程中的点 2,2),y 由 f(x) 计算得到,所以 y = f(x);k 为斜率,由导函数 f ’(x) 计算的到,所以 k = f ’(x)。
我们还知道 a 为我们要求得的最新的近似值,我们设它为Xn+1;x 为我们当前已经求得的近似值,我们设它为Xn。
Xn+1 = Xn - f(Xn) / f '(Xn);
第一个切点我们选(2,2),并且我们有 f(x) = x^2 - 2,f '(x) = 2x,带入公式即为:
Xn+1 = 2 - (2^2 - 2)/(2*2) = 2 - 1/2 = 1.5。
在这个过程中,我们不难发现牛顿灵活的运用了近似值这个概念,以近似值的方式,不断逼近精确值。与其说是算法, 不如说是一种策略。
对于这条所谓的咒语来说,它不仅简单,而且还特别适合用代码实现,我们可以用 for 或 while 为循环计算提供动力,直到计算出我们想要的精度,一次平方根计算就完成了。
但是,我们开头也提到过,这是一个蛮荒的时代,计算机的算力有限,而我们要完成的却有很多,我们很难使用一个依赖循环次数得到确切值的算法。循环就像一个吞噬算力的猛兽,它很快就会让机器的计算能力变得捉襟见肘。
没错,只进行一次牛顿迭代法。不是不可能,只不过需要我们首次提供的 Xn 就足够精确罢了,足够精确的 Xn 得到更精确的 Xn+1。
假设我们有一个数字,30000,用科学计数法表示它即为,3 * 10^4。不难发现 10 的指数其实就是数值中 0 的个数。
十进制的规则深入我们的骨髓,其中的道理也无需多言。
假设我们有一个二进制数 10000(十进制值为 16),我们类比上面的十进制规则,那么二进制 10000 的科学计数法表示形式即为 1 * 2^4。此处与十进制不同的是,二进制是以 2 为底的指数形式。你可以仔细品味一下乘法的本质,再从十进制类比到二进制。
十进制数 31000,用科学计数法表示即为 3.1 * 10^4,观察这个表达形式,我们不难发现,10 的指数本质其实是在表明小数点的移动位数。
那么类比到二进制中,二进制数 11000 (十进制值为 24)的科学计数法表达形式即为 1.1 * 2^4,符合我们上面观察到的规律。
如上图所示,浮点数在计算机中的二进制存储模式被分为三个部分,首位是符号位,用来标识数字的正负号;后八位是偏执指数位,用来表示在科学计数法下小数点偏移的位数;最后的二十三为则表示在科学计数法下,小数点后面的数字排列,这部分融合了原数字的整数与小数两个部分。
我们以一个具体的数字来举例,二进制 111 的科学计数法表达形式为:
以浮点数编码规则编码后,在计算机中的二进制形式为:
其中指数位的计算规则是,小数点偏移量 + 127。以 111 为例,科学计数法表达后小数点向左偏移两位,所以指数位为 2 + 127 = 129,二进制表达即为 10000001。
至于尾数位,因为二进制科学计数法的规则就是小数点会停留在首个不为 0 的位数后面,所以我们只需要去掉科学计数法中的“1.”,剩下的部分就是尾数位的本体。
关于浮点数,我们前面所讨论的一直都是科学计数法到浮点数二进制形式的转换,那我们就忍不住好奇,将这个过程反过来呢?浮点数二进制形式如何转化为科学计数法呢?
很简单,对于偏置指数位来说,我们只需要用 偏执指数位 - 127 ,结果就是科学计数法中的小数点偏移量,就上述中的例子来说:
对于尾数位来说,反向推到科学计数法的表达形式时,需要在尾数位前面加上“1.”,就上述中的例子来说,也就是在 “11000……” 前面加上 “1.”,即 1.11,0 被省略。
这还不够,根据上面的文字描述,我们可以试着总结出一条公式。
我们设尾数位为 M,因为尾数位共 23 位,尾数位反推至科学计数法时,小数点要出现在尾数位形式之前,那么根据我们前面提到的二进制位移规则,尾数位小数点向左移动 23 位,即 M / 2^23,最后别忘了,我们还要加上一个“1.”,所以最终公式应该为:1 + M / 2^23;
接着我们设偏置指数位为E,则科学计数法中小数点偏移量的计算为:E - 127。
结合尾数位部分的公式,我们可以得到(这里我们省略的符号位,因为加入符号位很简单,而且后续我们的讨论也不需要符号位):
科学计数法表达形式 = (1 + M / 2^23) * 2^(E - 127)
对比一下例子中的科学计数法表达:1.11 * 2^2
那么这个公式有什么用呢?我们先来随意摆弄一下它看看会发生什么。
因为公式很明显被乘法分为两个部分,并且其中一部分还是 2^(E - 127) 这种 2 的指数形式,那么我们不防试试对数?
它能将乘法的两部分,变为加法(第一条);还能将指数转变为乘法(第四条)。这两条都存在于我们的公式之中,那我们就来试试。
设 a = (1 + M / 2^23) * 2^(E - 127),我们对两边都进行以 2 为底的对数运算,可得:
㏒₂a = ㏒₂((1 + M / 2^23) * 2^(E - 127))
㏒₂a = ㏒₂(1 + M / 2^23) + ㏒₂2^(E - 127)
㏒₂a = ㏒₂(1 + M / 2^23) + ㏒₂2 * E - 127
㏒₂a = ㏒₂(1 + M / 2^23) + E - 127
唉?有趣,2 的指数形式消失了,只剩下 E - 127,从某种角度来说,整体运算变得简单了。那 ㏒₂(1 + M / 2^23) 部分呢?
我们知道 M 作为尾数位的二进制形式,具体二进制取决于我们浮点数的具体数值,所以这里可以把它看做是一个变量,M / 2^23 自然也是随着 M 的变化而变化的,我们不防暂时先将他们看做一个整体 x。于是 ㏒₂(1 + M / 2^23) 就变成了 ㏒₂(1 + x)。这就又简化了我们的式子,因为 ㏒₂x 本身就是一个很常见的对数函数,图像如下:
这还没完,因为我们知道 M / 2^23 必然大于 0 小于 1,所以 ㏒₂(1 + x) 中,x 的取值范围也在 0 至 1 之间,那么我们放大这个图像的细节到 x 的 0 至 1 区间:
从图像中可以看到,这条曲线在 0 到 1 之间的部分,其实近乎于直线,再回想一下我们从牛顿的咒语中学到了什么?
没错,近似值。在我们实际的工程应用中,很多数值都不是十分精确的,或者说对数值的精确度要求是变化的。所以既然它接近于一条支线,那我们为什么不就把它当做一条支线呢?
因为曲线经过点原点与点(1,1),所以我们可以把它看做 y = x:
从图上可以观察到,y = x 与 ㏒₂(1 + x) 在 0 至 1 区间的值,真的非常相近。
㏒₂(1 + M / 2^23) ≈ M / 2^23
㏒₂a = ㏒₂(1 + M / 2^23) + E - 127
到这里还不够,我们再稍作变形,将 M / 2^23 + E - 127 中 M / 2^23 + E 提取 1 / 2^23 可得:
1 / 2^23 * (M + E * 2^23) - 127
观察式子中的 M + E * 2^23,你看它像什么?
还是 1.11 * 2^2 的二进制形式为例,它的二进制形式为:
其中,M = 11000000000000000000000;
那么,E * 2^23 根据二进制位移规则,就是将小数点向右移动 23 位,就是说要在 E 后面添加 23 个 0:
E * 2^23 = 10000001 00000000000000000000000;
10000001 00000000000000000000000
10000001 11000000000000000000000
原来,M + E * 2^23 就是这个 M 和 E 所代表的那个数字的二进制形式。
㏒₂a = ㏒₂(1 + M / 2^23) + E - 127
= 1 / 2^23 * (M + E * 2^23) - 127
对于数字 a,设 A 为浮点数 a 二进制形式,那么:
也就是说我们得到了一个快速计算对数的算法,只要利用浮点数二进制就可以快速计算。
还记得我们最开始的目的吗?我们是为了计算平方根倒数,那这个快速计算对数的方法和平方根倒数计算又有什么关系呢?别着急,我们接着来。
我们设 a 的平方根倒数,即 1/√a ,为 y,那么我们有:
= -1/2 * ㏒₂a = -1/2 * ((1 / 2^23) * A - 127)
㏒₂y = -1/2 * ((1 / 2^23) * A - 127)
y 虽然是 1/√a 的符号表现,但是,y 最终一定有一个值对不对?它既然是一个值,那就必然可以表达为浮点数的二进制形式,我们就设浮点数 y 的二进制形式为 Y。这个时候我们就可以 ㏒₂y 也转化为二进制快速计算对数的形式:
㏒₂y = (1 / 2^23) * Y - 127
而 Y 是浮点数 y 的二进制形式,也就代表了 y 的值,即 1/√a,也就是我们想要求得的 a 的平方根倒数。
(1 / 2^23) * Y - 127 = -1/2 * ((1 / 2^23) * A - 127)
如果我们用符号 “>>” 表示二进制向右的移动,那么考虑到我们前面所提到的二进制位移规则, 1/2 * A 就等同于 A >> 1,它表示将二进制 A 向右移动一位;如果我们将 1598029824 转化为十六进制,那么最终的式子就变为:
将浮点数 a 的二进制形式所代表的值乘以0.5,再与数值 1598029824 作差,结果的绝对值即为 A 的平方根倒数。
这就是卡马克在雷神之锤 3 中所写下的快速平方根倒数算法。它巧妙的将浮点数的编码规则与平方根倒数的计算相结合,一切都显得如此自然又仿佛是巧合。
其中第七行代码,先将 y 值转化为 long 型,因为整型的编码就是简单的二进制与十进制的转换,不涉及类似于浮点数编码规则对二进制数的特别解读,所以转化为 long 型,就相当于是原封不动的保存了浮点数 y 的二进制。
第八行代码与我们上面推导出的 Y = 5F400000 - A >> 1 相似,不同的点在于减数,代码中的减数 0x5f3759df 看起来比我们的 5F400000 要更加精确。这也是事实,还记得我们上面提到过的 y = x 与 ㏒₂(1 + x) 在 0 至 1 区间的图像对比吗?
我们能看到,虽然两个函数的图像在 0 至 1 区间内相似,但是归根结底还是不同的,然而我们的所有推导,都是建立在他们非常相似的基础上,它们越相似,我们的误差就越小,算法的精度就越高。如果我们将 y = x 变为 y = x + 0.05,则图像如下:
这个 0.05 我们可以叫做修正值。这个修正值在我们的计算过程中,最终会以常数的形式与 5F400000 相加,实际代码中的 0x5f3759df 就是这么来的。这个修正值可以按照一定的策略来做尝试,比如我们可以使用二分法,快速缩减尝试范围,最红确定一个相对精确的修正值。
最后第十一行代码,使用了牛顿迭代法进一精确我们得到的数值。具体代码的逻辑为:
即,我们有函数 f(Y) = 1/Y^2 - x,此函数当 x 为 0 时的图像如下:
由图可知,当 x = 0 时,函数图像无限接近 x 轴,但并不与 x 轴相交;如果 x >= 0,我们可以想象,函数图像会向下位移,之后与 x 轴相交处,即是我们要求得的 x 的平方根倒数。
因为 x 是我们想要求得平方根倒数的目标数值,所以对于每次计算来说,这都是一个常数,那么根据牛顿迭代法可得:
Yn+1 = Yn - f(Yn) / f '(Yn)
=> Yn - (1/Yn^2 - x) / (-2/Y^3)
=> Yn * (3/2 - x/2 * Yn^2)
y = y * ( threeHalfs - ( x2 * y * y ) );
这与我们在牛顿的魔法一节最后提到的,以一个相对精确值得到更精确值的目标相对应。
最后值得一说的是,其实这个快速计算平方根倒数的算法并非出自卡马克之手,不然卡马克的注释也不会是 WTF?了。
对于这个算法最初的发明者,我们可以参考 wiki 上的说法:
威廉·卡汉 (William Kahan) 和 K.C. 伯克利分校的 Ng 于 1986 年 5 月写了一篇未发表的论文,描述了如何通过使用比特微调技术(bit-fiddling techniques)和牛顿迭代法来计算平方根。 20 世纪 80 年代末,Ardent Computer 的 Cleve Moler 了解了这项技术,并将其传授给了他的同事 Greg Walsh。 Greg Walsh 设计了现在著名的常数和快速反平方根算法。 Gary Tarolli 正在为 Kubota(该公司当时为 Ardent 提供资金)提供咨询,并可能在 1994 年左右将该算法引入 3dfx Interactive
Jim Blinn 在 1997 年 IEEE 计算机图形和应用专栏中演示了平方根倒数的简单近似值计算。对其他当代 3D 视频游戏的逆向工程中,发现了动视 1997 年 Interstate '76 中算法的变体。
Quake III Arena 是一款第一人称射击游戏,由 id Software 于 1999 年发布,并使用了该算法。 Brian Hook 可能将 3dfx 的算法引入了 id Software。2000 年,中国开发者论坛 CSDN 上出现了对该代码的讨论,Usenet 和 gamedev.net 论坛于 2002 年和 2003 年广泛传播了该代码。人们开始猜测谁编写了该算法以及该常数是如何导出的。 有些人猜测是约翰·卡马克。Quake III 的完整源代码在 QuakeCon 2005 上发布,但没有提供答案。 2006 年,当 Greg Walsh 联系 Beyond3D 时,作者身份问题得到了解答,因为他们的猜测在 Slashdot 上广受欢迎。
2007 年,该算法在一些使用现场可编程门阵列 (FPGA) 的专用硬件顶点着色器中实现。
评论区
共 4 条评论热门最新