上周Intel正式发布了预热快有一年之久的第12代酷睿处理器。机核也提前收到了Intel提供的评测样品,所以在开售前我们也对新处理器进行了测试,得到了一些结论。不过在进行测试之前,我们需要从Alder Lake的架构开始介绍,理清Alder Lake身上发生的重大变化。
现代处理器基本上都是片上集成了很多不同功能模块/内核的System on Chip也就是SoC,而传统意义上的CPU实际上也只是SoC里面的一部分,当然也是最为重要的一部分,Alder Lake的CPU部分变化非常大,它采用了Intel官方称为“性能混合架构”的全新异构架构:
中文的“性能混合架构”其实就是由“Performance Hybrid Architecture”直译过来的,Performance这个词指出这个架构是性能导向的,而Hybrid则是指出Alder Lake的CPU部分由不同架构的内核组成,分别为提供高性能的P-Core(Performance Core)和提供高能效表现的E-Core(Efficiency Core)。
和使用大小核异构架构的众多SoC相比,Alder Lake的不同点在于它的E-Core性能也很强劲且它的所有核心是可以一起工作的,这也就是为什么Intel要强调这是“Performance Hybrid”架构而不是传统大小核的原因之一。
除了CPU部分宏观的架构发生大变化之外,构成这个CPU的两种内核微架构也同时有很大的改变,首先我们来看P-Core的架构——Golden Cove。
Golden Cove是Willow Cove也就是11代酷睿所用核心的后继者,仍然延续了从Skylake到Sunny Cove/Willow Cove的改进思路,即变得更宽、更深和更智能。
更宽指的是内核解码、执行指令的并行程度更大;更深指的是内核中的各种指令缓存变得更大;更智能指的是部分组件具有更准确的判断能力。
首先前端解码部分从原本的4宽度直接升级为6宽度,同时将L1的指令缓存带宽扩大一倍到32Bytes以满足6宽度解码器的需要。
在指令调度分配这部分,发射区从原本的5宽度加宽到6宽度,ROB缓存从Sunny Cove的384加大到512,直逼苹果Firestorm内核的600+。另外,执行端口方面增加两个,现在共有12个端口,整数和浮点仍然共用发射端口。
此外Golden Cove还在执行部分增加了一个整数ALU和两个浮点FADD单元,而对于原本的浮点FMA单元则是加上了对FP16数据格式的支持。缓存子系统方面则是多了一个新增了一个Load AGU,这样每周期的Load带宽提升至3。L2缓存延续Willow Cove上使用的非包含式缓存,每核心具有独立的1.25MB二级缓存。
Golden Cove的设计思路还是比较传统的,主要还是延续了从Skylake到Sunny Cove的改进方向。而作为E-Core的架构,Gracemont可以说是改的更为激进一些。
Intel的能效核心设计是独立于大核心的另外一条线,之前一般称为Atom核心,Gracemont的上代是Tremont。从Tremont到Gracemont,Intel着重加强了能效核心的执行能力,尤其是整数计算能力。
为什么说Gracemont改的更为激进呢?主要是因为它相比起上一代,直接增加了7个执行端口,并且增加了许多新的执行单元。
整数部分ALU从3个增加到4个,AGU从2个倍增到4个,对应还增加了一组MUL和DIV单元,整数执行能力得到大幅增强;浮点运算部分也有一定提升,原本只有一个的FADD和FMUL单元现在均有两个,能够拼合处理256-bit宽度的数据,也就是说能够满足执行AVX2指令集的需求;浮点ALU和STD均增加一个,计算能力会有较大提升。
为了满足大幅膨胀的后端,前端也相应做了较大增强,解码部分仍然是两组三宽度设计,可以同时启用达成六解码。L1指令缓存倍增至64KB,同时分支预测器得到加强,拥有更大的缓存。
指令调度分配部分,ROB增大到256,这一数字比Skylake的224更大,与Zen 3持平。
最后是缓存子系统,前面说过AGU从2个倍增到4个,分配成2个Load和2个Store。L1D的大小没有变化,仍为32KB,L2的缓存最高可达4MB,需要注意的是,L2缓存是4个小核一起共用的,同时容量可配置。对了,还需要提到的是,小核以4个为一组,一组小核的面积与一个Golden Cove差不多。
那么有了新的P-Core和新的E-Core,该如何灵活调度它们,把系统提交过来的任务调度到正确的核心上进行处理呢?为此Intel引入了全新的Thread Director技术,在Alder Lake处理器中集成了一个非常小的MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。在收集完信息之后,它会将收集到的信息反馈给Windows 11,而后者将会把这些信息与自己收集到的信息相结合,判断是否应该将线程转移到别的核心上。这一切发生在短短30微秒以内,而传统的调度器可能需要100多毫秒才能判断出结论。
在操作系统层面上,Intel和微软合作改进了Windows的任务调度,从Windows 11开始,系统的任务调度器能够获取更多信息,用于判断当前正在运行的线程需要什么样的性能模式,它要调用哪些指令集,同时它还懂得让硬件为高优先级任务让位。
每个P-Core上只跑1个线程
E-Core上只跑1个线程(当然它也只能跑1个)
在P-Core的超线程上跑线程
也就是说,在一般情况下,系统调度器会优先把线程安排到P-Core原生的线程上,8个原生P-Core线程被放完后,轮到的是E-Core,如果还不够用,它才会去利用P-Core超线程出来的线程(因为超线程出来的线程性能肯定是不如E-Core的好嘛)。比如一个20线程的任务,会利用上P-Core原生的8个线程+E-Core原生的8个线程外加4个P-Core超线程出来的4个线程。
当然,Windows 10也还是有大小核调度的能力的,但是说简单点就是不够智能。在Windows 11下Alder Lake应该会有更好的性能表现。
Alder Lake除了大幅修改了CPU部分的架构外,还对IO进行了大幅增强,因为在PCIe 4.0时代吃了很大的亏,这次Intel直接一步到位直接提供了PCIe 5.0的支持,带宽又一次翻倍。在SoC直接提供的20条PCIe中,有16条是PCIe 5.0的,而剩下4条仍然是PCIe 4.0,可以用来连接高速SSD。
内存部分则是首发对DDR5的支持,默认支持DDR5-4800,当然它也支持超频,能轻松上到6000+的高频。为了支持更高频率的内存,Alder Lake的内存控制器新增Gear 4也就是1:4的运行模式,举个例子,在这个模式下搭配DDR5-6000的内存,内存控制器的频率仅为1500MHz。
首批登场的六款处理器分别是 Core i9-12900K、Core i9-12900KF、Core i7-12700K、Core i7-12700KF、Core i5-12600K 和 Core i5-12600KF。
其中Core i9-12900K、Core i9-12900KF拥有8个P-Core和8个E-Core,一共有16个核心,24个线程,P-Core的最高睿频可以达到5.2GHz,共享30MB的三级缓存;Core i7-12700K和Core i7-12700KF拥有8个P-Core和4个E-Core,一共有12个核心,20个线程,P-Core的最高睿频可以达到5.0 GHz,共享25MB的三级缓存;Core i5-12600K、Core i5-12600KF拥有6个P-Core和4个E-Core,一共有10个核心,16个线程,P-Core的最高睿频可以达到4.9GHz,共享20MB的三级缓存。
这里我们使用Intel的11代和12代酷睿平台进行对比测试,11代酷睿平台是Nadya不久前新装的那套机子,用的是i9-11900K+RTX 3080 Ti的组合,我们在测试时使用相同显卡和相同的系统,具体的规格请参照下表:
需要说明的是,11代酷睿平台上使用的内存为DDR4-3600规格(Gear 1),而12代酷睿平台上使用的内存为DDR5-6000规格(Gear 2)。测试时保持Intel的默认设定,仅解锁睿频时间墙。
另外需要特别感谢的是,ROG为本次测试提供了他们的真·旗舰主板——ROG Maximus Z690 Extreme,这里简单介绍下这张顶级主板。
ROG Maximus Z690 Extreme主板简介
ROG Maximus Z690 Extreme是纯血ROG中的旗舰主板,从这代开始ROG改变了他们的命名习惯,夹在中间的代数改成了芯片组名称,这大概是因为这两年Intel那边刷芯片组刷的太快了不好记代数与芯片组之间的对应关系吧。
整个主板充满了ROG的信仰元素,左边散热片上设计了一个点阵式的屏幕,玩家可以自定义想要详实的显示的图片,而原本位于这个位置的OLED屏幕被移到了第一条M.2上方,仍然是用来显示系统温度、电压等信息。
值得一提的是,由于12代采用了全新的LGA1700底座,用于固定散热器具的孔位也发生了改变,我们使用的这张Maximus Z690 Extreme保留了LGA115x的孔位,但并不是所有散热器都能直接沿用原本的扣具的,12代处理器的高度降低了,有些老扣具会出现压不到处理器中央的问题,部分散热器厂商会免费提供新的扣具,比如之前购买了华硕水冷的用户,现在可以去微信ROG会员小程序申请LGA1700扣具。
由于12代酷睿处理器提供了16条直连CPU的PCIe 5.0通道,ROG这次丝毫不吝啬的在这块旗舰主板上设置了三个可以使用PCIe 5.0的插槽,除了第一根PCIe x16以外,第二条PCIe x16也是支持PCIe 5.0的,另外离CPU最近的M.2接口也是支持PCIe 5.0的。当然,同时使用的时候,CPU提供的这x16的通道会被拆分,具体这里就不赘述了。
散热器方面,这次测试时负责压制i9-12900K的是由海盗船提供的H150i ELITE CAPELLIX 360mm水冷。
首先我们来看一下DDR5内存的带宽和延迟情况。可以看到在超高频率之下DDR5-6000的带宽超过DDR4-3200接近一倍,不过延迟确实会稍微高一些。
我们还测试了另外一套DDR5-4800的内存,同样在Gear 2的模式下,它的带宽明显低了很多,而延迟也是更高,当然这里延迟相比DDR5-6000高的有些离谱可能是因为单条容量为32GB,也可能是AIDA64的最新Beta版本在测延迟上有bug。
基准测试首先请出大家最喜闻乐见的Cinebench,这是用Cinema 4D的渲染引擎做的渲染向的测试,能比较直接的体现CPU内核架构改良和频率提升所带来的改变。
可以看到在以SSE负载为主的Cinebench R15中,i9-12900K的单核提升幅度不是很大,而在AVX负载较大的R20和R23中,单核提升非常明显。而多核方面因为多了8个E-Core,提升还是非常大的。
然后是CPU-Z内置的基准测试,我们使用了以SSE负载为主的17.01.64和以AVX2负载为主的19.01.64 AVX2来进行测试,与Cinebench的结果很像,不过在AVX2项目上提升少了差不多一半,这跟E-Core在处理256-bit宽度的AVX2指令时需要同时调用两个端口有关(半吞吐)。
Sandra 2020一般用于测试CPU的理论计算性能,成绩跟核心架构和核心数量有较大关联性,可以看到整个提升幅度是相当可观的。
圆周率计算是测试CPU时的传统保留项目,这里我们使用经典的SuperPI和对新处理器优化非常好的y-Cruncher进行测试。
SuperPI 1M计算是非常经典的项目,以前跑进7秒内需要液氮超频,把处理器主频拉到一个恐怖的高度才能达成,而在i9-11900K这代上,因为有足够高的单核睿频和强劲的内核架构,所以能轻松跑进7s内,但是i9-12900K却有所倒退,这跟Golden Cove规模变大是有一定关联的。而y-Cruncher则完完全全是Alder Lake展现的舞台,因为y-Cruncher有AVX2优化,所以同样在AVX2下i9-12900K领先14%,而就算是让i9-11900K用上AVX-512优化,i9-12900K也完全不虚,多出来的8个E-Core再次展现了不俗的计算吞吐,就算对手开了挂还能领先有33%。
最后是两个基于光线追踪的图片渲染器测试,分别是Corona和V-Ray,都是测试处理器多核性能的,i9-12900K轻松领先仅有8核的i9-11900K。
创作测试我们主要跑了比较有代表性的Adobe家的软件,分别是Photoshop和Premiere Pro,测试方法都是运行目前专业度和认可度比较高的PugetBench。
可以看到不管在Photoshop还是在Premiere Pro中,i9-12900K都有非常夸张的提升,这一方面得益于处理器本身有较大的加强,另一方面还要归功于DDR5内存所带来的带宽提升,创意设计软件都相当吃内存,更快的内存读写速度是相当有用的。
由于时间关系(测试时间仅有半天),这里测试的游戏比较少,大部分都是比较能体现处理器代差的竞技性网游,大型单机方面只来得及测试一款比较吃CPU的F1 2018,还请各位见谅。
测试时均使用1080p分辨率+最高画质,这些游戏在1080p分辨率下基本上不会让RTX 3080 Ti有很高的负载,可以看到测试出来提升幅度确实比较大。
最后我们来测试一下满载的功耗,这里使用AIDA64的FPU进行烤机,关闭AVX512支持。
首先是i9-11900K,默认状态下全核跑在4.7GHz,功耗为200W出头;然后是i9-12900K,默认情况下P-Core全部跑到4.9GHz、E-Core全部跑在3.7GHz,此时功耗为240W出头。
从这个测试中可以得出这个结论:i9-12900K在多了8个E-Core且P-Core规模明显变大、频率还更高的情况下功耗仅提升约40W,说明Intel 7制程较14nm++++++是有很大提升的,降低了不少功耗。
当然在典型的游戏场景里处理器根本跑不到那么高的负载,很多游戏里也就是100W出头的水平,玩家大可放心,不超频的话360水肯定是够用了。
从整个测试看下来,12代酷睿确实有非常喜人的大提升,这代处理器可能是Intel继十多年前的酷睿2之后推出的变化最大的一代处理器,它换用了性能混合架构,将两种不同架构的核心整合到一起;更换了制程,在核心规模明显变大的情况下并没有增加太多功耗就维持了原本的高频。总的来说是一代成功的大变革。
不过因为时间等原因,这次测试的项目比较少,尤其是游戏部分,还有温度测试、超频测试和一颗i5-12600K没有测试,如果之后有机会的话会补上。
评论区
共 19 条评论热门最新