2022年10月24日,vivo影像战略发布会正式召开。会上,vivo盘点了之前在影像理念上的坚持,即通过专业化的能力还原眼之所见,并将专业影像技术赋能每一个人,持续为消费者提供人性化的专业影像体验。
vivo影像副总裁于猛、vivo影像产品高级总监李卓、蔡司消费光学品类管理及销售和市场营销负责人Sebastian Doentgen、蔡司消费光学创新与技术负责人Torsten Sievers、影像艺术家段岳衡、影像艺术家高远、青年导演张小鲨出席了此次战略发布会。
多年来,vivo始终致力于移动影像技术的创新,力求为消费者带来人性化的专业影像体验。从全球首款同时具备F/1.8超大光圈和光学防抖的智能手机XShot的发布,到搭载自研影像芯片V1的X70 Pro和X80系列,十年间,vivo一致深耕影像赛道,在光学、算力、算法的技术层面持续发力创新。同时,本着用户导向的原则,vivo聚焦用户痛点,在色彩、夜景、人像、运动、视频等维度打磨能力,稳步提升用户的影像体验。
2020年,vivo开启了首届vivo VISION+手机摄影大赛;2021年,第二届大赛征集到了来自全球40多个国家和地区,共计384,878幅作品,影像文化建设也是vivo对影像理念的践行,希望把复杂的影像技术赋予每一个人。
为了给用户带来满意的影像体验,在此次影像战略发布会上,vivo围绕“三个比肩”即力求使产品的影像功能比肩专业影像设备、比肩专业摄影团队、比肩专业后期能力而公布了影像技术矩阵。
为了能够让手机比肩专业影像设备,vivo打造了光学感知系统、臻彩还原引擎、超清画质引擎、算力加速引擎的四大影像技术模块。从光线捕捉开始,高效地记录和处理图像的色彩、影调和画质信息,从而实现优秀的基础成像。
为了让手机比肩专业摄影团队,vivo通过环境理解技术,将专业摄影师的环境理解能力赋予手机,使之能够对场景色温、光照等信息进行识别,自动判断与分析最佳的拍摄方式。
最后,vivo围绕人像和夜景这两个核心场景,集中构建了超感人像系统和苍穹夜景系统,实现了精确的语义提取和优化,极大提升了场景表现力,让产品具备了比肩专业后期的能力。
影像技术矩阵的实现,离不开vivo长期构建的底层核心能力。vivo认为只有把握住联合创新和自主创新,增强战略研判和技术认知能力,才能在影像⻓赛道的⻢拉松中拔得头筹。
联合创新战略上,vivo联合蔡司和上下游优势厂商,研发更佳的光学系统。 2020年,vivo正式与蔡司建立全球影像战略合作伙伴关系。vivo与蔡司以共同的影像理念为基础,战略上注重长远的影像科技创新,通过将尖端光学技术与智能手机的创新相结合,为消费者提供最先进的产品体验。未来,双方将在光学成像技术合作的基础上,进一步制定移动影像光学质量标准,探索并实现镜头模组小型化,旨在创造更多令人兴奋的移动影像体验,将移动摄影的表现力提升到一个全新的高度。
自主创新战略上,vivo提前布局自研算法和自研影像芯片研发,软硬协同规划并持续升级,不断突破算力和场景边界。
发布会现场vivo展示了多个影像相关的最新自研技术成果,例如能有效改善长焦成像质量的“光学超分算法”,在其基础上构建的全新超清画质引擎,配合下一代产品的长焦镜头,在5X以上焦段,能够提升64%的拍摄解析力。
可以更好控制图像噪声表现和色彩还原的“VCS仿生光谱技术”,在其加持下,较上一代IMX866传感器,搭载VCS技术的下一代传感器信噪比将提升20%,色彩还原提升15%。
全新的“苍穹夜景系统”基于自研AI算法以及更优秀的镜头传感器,可以让成像感光能力最大提升100%,ISO最高可支持102400,这使得以往必须借助脚架或稳定器才能实现的长曝光星空拍摄,如今仅需手持手机也可轻松呈现。
此外,vivo还展示了“超感人像系统”。这是通过自研算法,首先理解人像信息,之后对人像细节进行微米级美化,最后营造独特人像氛围的一整套人像摄影解决方案。发布会上同时也提到vivo与蔡司正在联合研发全新的50mm人像镜头。
在硬件层面,vivo展示了即将用于下一代产品的更大底的CMOS传感器,其感光能力比GNV提升了77%。同时vivo最新一代的自研影像芯片也在发布会上崭露头角。面对手机多摄系统更为复杂的应用场景, 新一代自研影像芯片将采用AI-ISP架构,将传统ISP低延时、高能效的特点进一步带入到AI实时处理运算架构中。其创新性地定制了10bit MAC 电路,可以高效执行10bit运算,推理延迟较传统NPU最多降低了96%,能效比最高提升了200%。而基于AI-ISP架构革新,vivo下一代自研芯片带来了三大自研单元的升级,实现了三大突破:第一、片上内存单元的升级,带来了每秒1.3万亿bit的数据吞吐速率,拥有了强大的算力保障。第二、AI计算单元的升级,带来了前所未有的超高能效比,DLA加速器的峰值能效比达到每瓦16.3 万亿次运算,树立了行业新的算力里程碑。第三、图像处理单元的升级,提升了AI-NR降噪、HDR影调融合、MEMC插帧等算法效果,力求带给用户更优的拍摄体验。
在实现人性化的专业影像的道路上,vivo一直致力于把复杂的专业影像能力赋予每一个人。一个个需求感知,一次次技术升级,vivo始终在实现承诺和更好的实现承诺的路上。
基于对用户日常摄影需求的场景出发,vivo将技术落地于用户最为关注的风光、人像、视频三大核心场景,通过软件与硬件两方面技术的研究和开发,为影像创作者覆盖更全面的体验场景,带来更优质的影像体验。发布会上,风光影像大师段岳衡表示,vivo手机在色彩、影调、画质方面的表现是专业摄影的三个重要维度。而为了提升这三个维度的能力,vivo通过影像技术矩阵,依赖环境感知技术、臻彩还原引擎、超清画质引擎等,搭建起“真实世界-成像系统-后处理算法”的通路。
人像摄影大师高远表示,手机摄影的优势在于可以真正走进别人的生活,而好的人像作品则需要处理好人像理解,人像美化,人像氛围这三大核心。vivo的人像处理技术除了可以使皮肤观感更加自然、健康,也更好地保留了五官立体感之外,在影调、色彩、亮度、虚化等层面上进行人与场景的融合处理,实现人与景和谐、自然的效果。
而在视频拍摄方面,青年导演张小鲨分享了他使用X80 Pro的专业LOG模式拍摄作品《游者多未惧》的幕后故事。在技术方面,vivo将LOG模式以及复杂的后期的调色流程进行了前移和简化,实现了包含动态元数据的HDR标准视频录制与显示,支持了更广的BT.2020色彩空间,10bit色深,10.7亿种颜色,能够更好的还原光影氛围,配合多款电影级的3D LUTs色彩风格,让普通用户也能通过vivo手机“一键”拍出电影感。未来,vivo会布局生态覆盖更广、技术成熟度更高的视频技术,让录制和显示都有更好的体验。
从光学摄影到计算摄影的全链路影像技术矩阵,vivo力求实现比肩专业影像设备、比肩专业摄影团队、比肩专业后期的影像能力;通过vivo蔡司联合影像系统、自研算法及自研芯片和其他软硬件系统的升级,大幅提升了色彩、影调、画质的表现,让用户不论是拍摄风光、人像,还是视频,都能感受饱满、鲜活、热烈、澎湃的生命力量。
人性化的专业影像:vivo希望把各种复杂的影像技术和经验都放进手机,只需要简单地按下快门,就能创作出属于你的作品。专业创作者可以用它满足极限环境下的创作需求,普通人也可以通过简单操作收获令人动容的影像。这就是vivo所一直追求的“人性化的专业影像”。
还原眼之所见,超越眼之所见:还原,是对客观世界的记录;超越,则是把主观情感投射到影像中,是vivo的影像理念。
vivo影像技术矩阵:vivo影像技术矩阵具体分为七个部分:光学感知系统、臻彩还原引擎、超清画质引擎、算力加速引擎、环境理解技术、超感人像系统、苍穹夜景系统;目标达到“三个比肩”:比肩专业影像设备,比肩专业摄影团队,比肩专业后期能力。
光学感知系统:光学感知系统包括光学模组和镀膜等技术。比如VCS仿生光谱技术,通过改善Sensor QE光谱,提升信噪比和色彩还原能力,让传感器接收的原始信息不断接近人眼,打造良好的成像基础。
臻彩还原引擎:主要支撑技术为智能AWB和智能白加黑减,能够提升白平衡准确性和大面积“白”“黑”场景的曝光准确性,将vivo的色彩表现和影调观感优化到极致。
超清画质引擎:超清画质引擎的典型技术为光学超分算法,通过对镜头的缺陷建模分析,恢复了约35%的损失信息。光学超分算法是实现超清画质的起点,引擎中还有Denoise、Demosaic、Deblur等模块,进行耦合训练,形成了系统性的AI画质方案——超清画质引擎。可以实现多帧画质重建,达到更好的画质和更广的动态范围。
算力加速引擎:算力加速引擎,是一套软硬结合的加速方案,vivo基于自研芯片和平台SOC设计研发了CV异构加速引擎和vDNN深度学习加速引擎,是分别针对传统CV算法和AI算法的加速引擎,可支撑多芯结合的异构加速,实现多信息协同并高速处理。
环境理解:环境理解会对场景进行识别,比如色温和亮度检测的技术、运动检测的技术,基于环境的进行信息提取,协助3A等模块,作出最佳的拍摄判断。注:3A技术即自动对焦(AF)、自动曝光(AE)和自动白平衡(AWB)
超感人像系统:超感人像系统三大核心技术模块:人像理解、人像美化、人像氛围。
苍穹夜景系统:苍穹夜景系统进行全面AI升级,基于百万夜景照片训练出三个全新模型:超感光模型、全分割语义模型和臻彩影调模型。超感光模型:将感光能力最大提升了100%,ISO最高可支持102400;全分割语义模型和臻彩影调模型联合,实现了自适应的影调和色彩调整能力。
AI-ISP:在下一代自研芯片的设计中,vivo升级了全新的架构,从传统ISP架构升级到了AI-ISP架构,实现了跨越式的技术革新。传统ISP能以极低延时处理大量的数据流水,但是只能解决已知的、特定的问题。AI擅长处理复杂的、未知的问题,但是延时较大。AI-ISP结合两者的优势,相当于给传统ISP芯片加一个新的AI大脑,这个AI大脑的神经元分布是网状结构的,更适合海量的发散式信息处理。相比于传统的架构,AI-ISP能够通过硬件直连的方式将AI计算直接融入ISP Pipeline中,完成数据的无缝缓冲和处理,处理能力、处理能效都有大幅提升。基于AI-ISP这个架构革新,vivo在下一代自研芯片上实现了三大突破: 片上内存单元的突破、AI计算单元的突破、图像处理单元的突破。
vivo自研片上内存单元:提升数据吞吐速率。行业常用的DDR架构的内存单元,采用片外存储的形式,存在延迟高、功耗高的弊端,限制了数据吞吐速率,限制了视频类数据推理运算的效率。为了解决这个问题,vivo在内存单元的设计中,坚持使用昂贵的DDR-Less片内近存运算架构,配合硬化在片上的超大SRAM,实现了运算快、延时低的特征,使数据吞吐速率达到了不可思议的1.3万亿比特(bit/s)。
vivo自研AI计算单元:带来超高的能效比。vivo选择了更适合做复杂计算成像运算的DLA加速器。AI算法是数据驱动的。在运算过程中,需要大量的数据比较、拟合。要想进一步突破能效比,就要解决延迟和功耗两方面的问题。延迟方面,DLA(深度学习)加速器中内嵌了专用的片上SRAM,并且可以与其他模块共享自研内存单元上的系统缓存,大幅减少了数据访问延迟。功耗方面,vivo将算法和DLA联合定制设计,实现了软硬协同优化。DLA加速器的峰值能效比达到每瓦16.3万亿次运算(Tops/w),妥妥的天花板水平。
vivo自研图像处理单元:带来了全新的算法效果。比如AI-NR降噪算法。结合新的硬件能力,vivo把V1+的NR算法做了AI化的升级,通过AI运算,带来了更好的夜景画面细节,夜景降噪效果提升了20%(vivo实验室)。再比如HDR影调融合(Tone mapping)算法,配合电影级的3D LUTs色彩风格,可以满足专业用户的一级整体调色、二级局部调色的需求。在城市夜景下,动态范围较之前,理论最大提升4EV。还有大家熟悉的MEMC插帧算法,也进一步改善了延迟问题,提升了效果。
“智能白加黑减”技术:有经验的摄影师,会根据主体与所处环境的关系调整曝光,手动增加或者减少曝光,这就是摄影中的“白加黑减”。在X80上,vivo推出了“智能白加黑减”技术。现在vivo又将AE训练集拓展至原来的5.5倍。将用户痛点场景进行了影调优化,曝光准确性提升了14%,观感上更加通透立体。
白加黑减的原理:白加黑减不是适合所有的场景拍摄,只有在拍摄物体是纯白色或纯黑色的情况下,相机的智能系统会认为物体过曝或欠曝,会自动降低白色的曝光和拉高黑色的曝光,本身白色和黑色的物体就成了灰白和灰黑的状态(也就是18度灰),所以要加曝光补偿和减曝光补偿去还原白色与黑色的纯度。
SuperRAW: vivo为专业人士提供更为强大的的RAW输出功能,可以输出14bit高位深的多帧算法融合SuperRAW文件,其色彩信息量是单帧RAW的16倍。理论上可最多承载4.39万亿色的色彩信息,实现高达15EV的动态范围。技术首发vivo X70系列。
光学超分算法:手机因为体积限制,导致在光学上做了一些妥协。以潜望摄像头为例,原始图像经过镜头之后会损失50%的信息。为了改善这种现象,vivo研发了“光学超分算法”,通过对镜头的缺陷做建模分析,恢复了约35%的损失信息。“光学超分算法”只是实现超清画质的起点,vivo耦合了Denoise、Demosaic、Deblur等模块,经过1亿多次的场景训练,将上一代算法深度运算能力提升10倍,构建了全新的超清画质引擎, 将画质处理从单点方案,升级为系统性的AI解决方案。
VCS仿生光谱技术(vivo Camera-Bionic Spectrum):光线在进入感光元件时,会先通过color filter,而普通图像传感器的color filter光谱与人眼差异很大,需要经过复杂处理后,才能还原人眼所感知的信息,这个处理过程会导致画质变差。VCS技术,就是通过改进color filter,让传感器接收的原始信息不断接近人眼,从而实现更好的噪声表现和色彩还原,信噪比提升20%, 色彩还原提升15%。注:VCS仿生光谱技术,在光学感知环节。和华为计算光学不同,华为的计算光学更像我们的光学超分算法,是感知后的补偿动作。
RGBW技术:RGBW技术是在原有的RGB三原色上增加了W白色子像素,成为四色型像素设计,是sub pixel rendering技术方式。在新的像素排布方式下实现色彩表现的一致性。同时大幅度提升了液晶面板的透光率,在显示相同亮度的画面时,其耗电量更低;而相同功耗的情况下,亮度大幅提高,这使得画面层次更加分明,画面更通透。注:X80上已发布技术,作为补充输入
人像理解技术:vivo“人像理解技术”会像(click)专业修图师一样进行分区检测,分析人脸的语义重点和轮廓细节,建立多达103个特征点的关键人脸坐标,平均点位精度误差小于2像素。同时,会对画面中的皮肤、手势、肢体关键点进行检测,主体分割 IOU达到了96.15%的精确度,为静态人像重塑和动态人像抓拍提供了精细化的处理能力。
微米级焕肤塑颜技术:利用类似人工智能训练生成对抗网络技术,不断地通过修图器跟修图评估器的博弈来找到修图最好的方向。训练过程简言之就是,给AI一张图片让算法修图,然后去判断,同样一张图跟修图师精修出来的图片相似程度如何,根据判断结果实现AI算法的不断进化。vivo通过对不同年龄、性别、场景的数以百万计的素材的反复的机器学习,打造了全新升级的“微米级焕肤塑颜技术”,使皮肤观感更加自然、健康,也更好地保留了五官立 体感。
人像氛围融合技术:基于人像语义理解,vivo“人像氛围融合”技术在影调、色彩、亮度、虚化等层面上,进行人与场景的融合处理,实现人与景和谐、自然的效果。
深度感知虚化:深度感知虚化,是一项vivo的算法技术。想要还原镜头的成像,一定要通过深度计算获得图片的深度信息,并给予图像合理的虚化效果。vivo的虚化算法结合了双目深度图和人像、手势分割,采用了深度卷积网络,保证焦内主体清晰。焦外物体的虚化程度也是有讲究的,前景到焦平面,焦平面到远景,每个镜头各不相同,但vivo都建立了虚化模型,通过函数计算虚化的程度和光斑大小,最终呈现出景深范围内清晰,景深范围外深度渐进的3D-pop虚化效果。
HDR影调融合算法:HDR影调融合技术主要是与视频相关的技术,包括一级整体调色和二级局部调色,同时动态范围也会较之前理论最大提升4EV。
专业LOG模式:在电影工业中,为了最大限度保证视频的动态范围,常常用LOG方式进行拍摄,以便用户在视频后期中进行精细化的色彩调节,形成一整套的电影创作流程。vivo将LOG模式以及复杂的后期的调色流程进行了前移和简化,基于10bit的LOG文件,在拍摄端提供了多款电影级的3D LUTs色彩风格,通过10bit LOG+3D LUTs的视频解决方案,让普通用户也能通过vivo一键拍出电影感。
评论区
共 条评论热门最新