这次涉及的结构相似度指数,是一种常见的图像比较方案,也会用来给AI训练的结果进行评分。这一方案最早在论文中提出应该是2004年。
截至目前为之可以搜到的论文相对比课件多一些——这次选择读的PPT也算是概括地覆盖了这个课题的各个方面,虽然质量并不算高(相对上次斯坦福的课件来说,拼写错误较多,似乎是一篇毕业设计级别的文稿)。
本文还是以翻译PPT页内容为主,打星号的部分则是我的补充说明。
为什么需要度量图像质量
什么是图像质量度量
质量评价(QA)的类型
MSE——均方误差
SSIM——结构相似度
VIF——虚拟信息保真度
模拟结果
结论&引用
数字图像会受到广泛的扭曲变形影响——在传输、获取、处理、压缩、储存和复制的过程中,其中任何一项都可能导致图像视觉质量的降级。
例如:有损压缩技术——用于降低带宽消耗,它可能在离散化处理的过程中会带来质量下降。
所以数据压缩的终极目标是消除源数据中的冗余。(这类方案)能以更低的二级制位的需求来表达源数据中的信息内容。
最好的评估图像质量的方案是“通过人眼看”,因为人眼是(图像)最终的观察者。
主观图像质量关注图像如何被观察者感知,以及他或她对于特定图像的意见。
平均意见得分(MOS)在主观图像QA上采用了很多年。
过于不便,耗时且昂贵。
*页中第四句文本似乎有些问题且不够通顺,但能看出来是举的主观听觉测试的例子。有兴趣的可以去听听重轻老师《不在场》的MP3那一期。
客观评估的目标是开发能量化(测量)感知图像质量预测的方式。
分类方式主要是基于(和失真后的图像比较的)原图的可用性,分别是:全引用、无引用(盲测)、少量引用。
MSE(均方误差)和PSNR(峰值信噪比,Peak signal-to-noise ratio)是过去20年(相比于2014年)常用的视频质量测量方案。
SSIM(结构相似性指数):是2004年新引入的测量方式,比PSNR有着更好的结果——在合理地增加了一些计算复杂度后。
国际视频质量评估组织(VQEG)也提议了一些其它测量方式,被一些私人企业和大学采用了,但没有广泛流行。
人们在探索新的客观图像(视频)质量测量方案上付出了不懈努力,并入了基于人类视觉系统特征识别的感知质量度量。
*简单概括就是基于人类视觉系统,在图像测算上后续有了一套单独的模块化的数学模型。
*上次读的一篇主要介绍了图像作为离散数据的处理案例,这次的各种公式基本都是以像素作为最小计算单元,就不一一赘述了。
公式中x代表原始图像、y代表失真图像。
N和N是图像的宽和高。
L是像素值的动态范围。
*从公式可以看出,MSE是逐像素求差值平方,累加后再求均值。PSNR在引入了动态范围L的基础上(把MSE作为分母)转换成了对数函数log10的b形式,起到了对可度量范围值“压缩”的作用。
如果MSE降到0,意味着逐像素的图像对比结果是完美的。
如果MSE足够小,这意味着图像压缩的结果质量很高。
并且通常来说,MSE的值会随着图像压缩的程度增加而变大。
*图中展示了“爱因斯坦”图像的6个失真版本及其分别的MSE分值。(*会发现单纯看MSE值其实可评估的内容是代表性很低的,无法区分噪声和压缩等等区别)
*从图中可以看出,这项方案主要把图像信号拆分成了:亮度、对比度、结构这三个方面进行对比,并最终组合对比结果。
*从对比图可以看出,SSIM对于MSE差距不大的图像,能对其中视觉失真程度有更好的把握——尤其是从最后两张图可以看到,MSE和第2、3张图差距不大,但实际已经质量很差了。
*CW-SSIM是SSIM的一种变体,全称Complex wavelet structural similarity。简单说就是它在SSIM基础上引入了颜色的权重;关于小波也超出了我的理解范围,文末会附WIKI链接。
*各种求均值和计算在数学上并不复杂,看图中公式即可。
*这里页中少介绍了一些关键信息,我用中文互联网搜到的科普内容补充下:
*结构比较函数s(x,y)是关于两个归一化的向量信号(x-μx)/σx和(y-μy)/σy。之所以要这么设计比较方式,是因为“光照”和“对比度”还可以看作是标量,但“结构”无法用标量表示,而更应该用像素组成的向量表示;并且计算结构时还需要排除光照和对比度的影响。
*对应图中(8),可以引入α、β、γ项来调整3个方面的计算权重。
*另C3=C2/2,在此基础上计算得出的(普遍使用的)SSIM公式最终如图中所示——各项的计算方式之前都介绍到了。
*SSIM可用于计算一个相对小的图像窗口,但对于较大的图像,人们引入了MSSIM——Mean SSIM则是对这些图像窗口均值化后的结果。
*行标题从上自下依次是:Salt&Pepper噪声(脉冲噪声)、闪光噪声、高斯噪声、模糊、JPEG压缩、对比度拉伸。(*这里模糊并没有说清是哪种算法)
*VIF是下一节会介绍的另一种度量方式。而MSE和MSSIM后面会进行逐项对比。
左图——Salt&Pepper噪声;右图——闪光噪声。(两者的MSE和MSSIM都差距不大,视觉质量上差距也不大;但MSSIM的差值比例还是大于MSE的差值比例。
*此时右侧的MSE值就无法反映图像应有的视觉质量了。
MSE和PSNR之前被广泛使用,因为其易于计算、数学上不复杂的特性,可以提升计算时的(算法)效率。
关于MSE和PSNR为什么对于人类感知的图像质量评估不够好,有如下原因:
MSE计算的数字像素值,或许不足以反映对人眼的光刺激差别。
过于简单的误差总和计算——例如MSE的公式中那样,或许难以评估基于人的视觉系统以及大脑接收的感知上的失真情况。
两张有着接近的误差能级的图像信号,可能有着差距很大的结构误差——最后会得出截然不同的视觉质量。
*这里总结的内容从前面的图像比较都能感觉到了。可以说MSSIM是计算更复杂,但评估更“科学”的方案。
*VIF在WIKI上更多被称为Visual information fidelity。最早提出是2006年,但似乎后续的应用面还是不如SSIM广泛。
依赖于对图源的统计数据建模,(区分)图像的失真通道和视觉失真通道。
在持续发展中的是,VIF方案在开发基于自然场景的统计数据的方向。
VIF主要关注的是来自自然场景(风景)的图像类型。
*原文写了太多(车轱辘话)。简单概括下就是VIF是分通道统计:相对原本可以被人观察到的信息,有多少信息失真了。VIF = 失真图像信息 / 参考图信息。
*其中也用到例如高斯金字塔和小波变换之类的数学工具,这里不展开了,文末会附WIKI地址。
*对比的项还是前面6种失真方式。但这次换成了风景画,因此各项的值都有不同。
左图——Salt&Pepper噪声;右图——闪光噪声。(*在VIF分值上两者更接近一些)
左图——高斯噪声;右图——模糊。(*两者的VIF分值也是更接近一些)
左图——JPEG压缩;右图——对比度拉伸。(*这里VIF的值差距就相对很大了)
*这里的列依次是:压缩质量系数、压缩率、MSSIM值。
*最好(原图)和最差(QF系数1、压缩率52.79)的对比。
*QF分别是4和7的对比。可以看到视觉上右侧明显好一些了。
*中间略去了一些页,有兴趣的可以去看看原文。这个案例中,QF超过20之后,MSSIM的变化就非常小了。
从对“爱因斯坦”图像的模拟可以看出,有着相近MSE值的失真图像,实际上在视觉感受的质量可能区别巨大。
只有VIF能预测被对比度增强后的图像质量提升。
对于JPEG压缩,质量系数、压缩率和MSSIM值是相关的。因此当QF增加时,后两者也会增加。(*但存在增加曲线度量的问题)
图像采集设备的移动导致的失真问题,人们发明了前述的CW-SSIM方法,通过展开到复杂小波变换域进行处理。
后来开发的如SSIM和VIF这类计算的复杂度,远超过之前更传统的图像QA度量方式。
*原文中的参考引用摘了3页,我这里不列全了。值得一提的是这里面出现了很多华人或留学生的名字。
关于SSIM这一课题,其实网上短的总结或是各类论文也比较多,而找到一个篇幅合适、图文搭配的PPT来读确实不那么容易。这次选择的似乎是一个毕业设计级别的PPT,但总的来说确实以图文对比的方式介绍了MSE、SSIM、VIF各自的计算特点。
直到现在,关于比较广义的图像质量度量——例如用于训练AI生图,人们还是可以使用SSIM方式来对结果进行评分。当然这也只是一种“全参考”测算类型下会有的方案,对于“少量参考”或“无参考”方式又会有别的方案。网上也能搜到很多用SSIM进行图像模型训练的案例了,本身的脚本代码量都不大,感兴趣的也可以自己搭一个试试。
这一方案在2004年能提出,也和当时的硬件算力发展到合适的程度相关。即使到现在,大规模算力又要处理海量的训练数据,所以评估质量和计算开销上的性价比始终是一个天平的两端。例如之前DeepSeek-R1版“幻觉率”过高,一定程度上也可以理解成是大幅节省算力后的一定质量下降吧(详细的也有很多分析讨论,这里不展开了)。
评论区
共 条评论热门最新