如果说2025年春节期间有什么关键词,DeepSeek和AI肯定是其中之一。虽然敲一些关键字就能生成游戏的时代还没有完全到来,但AI确实在快速更新人们使用计算机和互联网的方式。
以我个人体验来说,目前DeepSeek在很多时候都是比百度和google更好的查资料来源(知识类、交通出行、概括总结等);虽然偶尔也有一些细节上的错误,但也可以通过对话指出其问题使其自动纠错。
而在游戏相关的领域,其实之前虚幻官方力推的 基于照片扫描的三维重建(3D Reconstruction) 就已经得到广泛应用了。这是一项从前AI时代就开始提出的技术线,现在正在被AI深度学习狠狠地加持发展。如果说之前提这个事情还比较抽象的话,相信经历了《黑神话:悟空》以后,大部分玩家应该也清楚了照片扫描能达到的效果。
AI三维重建的另外几个方向,比如视频生成、3D模型生成等也在不断发展。在目前比较新的技术线上,其推算与生成的性能和准确度是由被称为 高斯点云渲染(Gaussian Splatting) 的算法来保证,而其在AI领域的更早期的技术是 神经网络辐照度场(NeRF) 。这些可能都是我后面会读到的内容——在这个系列的“上半场”应该都还不会读到AI相关的内容,而是以一些基础算法和理论为主。
至于AI生成图象和动画,以及从视频进行动作捕捉等,目前已经进入了非常成熟足够商用的阶段了。但我个人的读文章系列中可能不会涉及这两部分。
对我个人而言,要基本看懂三维重建相关的内容还是难度不小的。目前这个系列我计划在一年内以写翻译笔记的形式更新我的学习心得,如果有理解得不对的地方也欢迎指正。
为了赶时髦,我让DeepSeek帮我总结了一下三维重建的一些关键点,构成了第一部分。另外还是老样子,PPT部分以翻译为主,打星号的部分是我的个人理解或补充。
*这部分DeepSeek的概括我觉得足够好了,因此就没删改(包括标点符号和样式)——大家可以感受下。基本上我的三维重建粗读计划就是基于这些关键词来进行的。
三维重建技术的发展历程反映了计算机视觉、传感器技术和人工智能等多个领域的进步,未来有望在更多应用场景中发挥重要作用。
*这次读立体视觉(Stereo Vision)我选择了斯坦福大学Professor Fei-Fei Li 在2021年的课件。篇幅原因这次会读其中的前半部分。
二、立体视觉概述——Introduction to stereo vision
*部分页数显示不连贯,可能是我抽选了一些页,也有些是课件本身就没标。
*这里提出了降维机器(3D到2D)的概念,例如相机就是一种降维机器。
能对焦点前方的范围成像
移动成像平面能使图像内容缩放
*图中标出了在前后等距的位置可以视为有一个“虚拟图像”,前后两者是颠倒但是尺寸相同的。
*这里列出了一个基础的 齐次坐标 (homogeneous coordinates) 变换,其目的是计算真实世界的一点P是如何对应到成像平面的P'点的。其中XYZ是P的坐标。
*这里假设了变换矩阵M是一个“理想型”,即它符合这些预设:
*齐次坐标我还能联想到的应用就是在游戏引擎计算 视锥体透视投影 时。这里附一张图但是不展开了,有兴趣的还是可以去看Games101。
内在假设:光学中心在(u0,v0)点;矩形像素点阵;轻微的偏斜。
*这部分内在假设反映在变换矩阵中,u0、v0在矩阵中的位置用于计算平移,而α和β则反映了纵横比的不统一,系数s则用于计算偏斜(扭曲)值。偏斜可以想象矩形扭成平行四边形的情况。
外在假设:允许旋转,摄像机在(tx,ty,tz)点。
*对应其中r系列的9个参数用来表示旋转变换,而t系列3个参数表示摄像机的平移变换。
*至此内在假设和外在假设都变成了参数矩阵,并且两者相乘也被赋予了意义。
我们如何从图像中计算3D几何信息呢?——哪些图像中的线索能提供3D信息?
*图中的这个公司Merle Norman Cosmetics是一个换妆品牌子,和主题无关。
其它:高光、阴影、剪影、内反射、对称型、光学偏振等。
课件中会聚焦在motion这一类线索——追踪图像中某些特征点在不同图像空间的位置。
*基于人眼可以感受双眼夹角的原理,通过图中的公式就可以计算出距离。
三、对极几何的简单引入——Epipolar geometry: a gentle intro
*这里引入了几个基本概念:对极平面、基线(黄色)、对极线。
基线和图像平面的交点
另一摄像机中心的投影
摄像机动态方向的消失点
p点的潜在匹配点必须在对应的极线l'上。
p'点的潜在匹配点必须在对应的极线l。
*图中右侧上方应该是p'点,课件应该是写错了。p和p'都是在各自图像平面上投影的点。
*M是左侧摄像机对应的矩阵,写成了之前一节中的形式,K对应之前提到的内部假设,后面的单位阵I是默认旋转矩阵、0则是默认位移矩阵。
*两者的K值是由校准相机(calibrated camera)的参数来确保的。
*p的转置与之的点乘等于0——代表两者也垂直。矩阵的转置可以理解为将其行列翻转的结果。
*向量点乘得到的是一个标量,而叉乘得到的是一个与两者垂直的法向量。
*这里引入了一个 斜对称矩阵 的概念,其对角线上值为0,其它位置的值分布如图。
*将之前叉乘的部分转换为矩阵点乘,其中提出的部分被称为 本质矩阵 。通过它可以快速运算出另一个图像中的极线。
*这一概念于1981年由Higgins提出,这一概念的翻译也在矩阵学中被广泛使用。
*DOF是degree of freedom的缩写,以通俗但不算准确的方式来描述,矩阵自由度值有其中最少多少个参数能确定其约束;又由于 对极约束是等式为零的约束 ,所以对E乘以任意非零常数后,对极约束仍然满足——这件事情称为E在不同尺度下是等价的。 基于平移3个参数、旋转3个参数,尺度等价减1(指其它参数可以按一个参数做等比例缩放),得到自由度为5。
四、平行图片与图像校正——Parallel images & image rectification
摄像机的图像平面彼此平行并与基线平行
摄像机中心在同一高度
焦距相同
*这里将t按照之前的规则转换成斜对角矩阵[tx],而R是单位矩阵——这样就得到E。
*由于矩阵乘是有 结合律 的,因此可以得出v=v'的结论,即图中所说的对应两点的y坐标相同。
*直译过来稍微有些别扭,但结合示意图理解,实际上是想用多一个步骤的图像平面变换来达到简化计算以及利用三角测量的意义。
由于课件没有解说稿,因此能感觉到有些部分直接上各种公式计算还是缺一点铺垫。而如此高密度的各种矩阵计算,有些我能掌握,也有很多方面我是纯萌新——有些东西只能概念性的把握一下,没法深入再去了解了。
但尽管如此,相信不管是我还是读到这里的各位,应该能从示意图感受到这些计算机视觉领域的前期研究是在处理哪些方面的问题,并为之设计了哪些数学工具和算法的。
尽管只是开了个头,距离读到最前沿和AI都还挺远,但也算是开启了这个读计算机视觉和三维重建方面文章的系列。下周会继续更新这篇课件的下半部分。
评论区
共 2 条评论热门最新