CHIP奇谱 CHIP奇谱

CHIP奇谱
关注产品与技术 分享体验与新知
广告

必换!迟来的酷睿i9-12900K测试

作者:原创

编者:12代酷睿的相关产品已在CHIP实验室连轴跑了,但是测试拖到现在才放出。不是编辑和测试工程师不努力,着实是这一代产品有太多可说的亮点,简单放在一起已是如下万字长文。我们从不说“一文看尽”这种话,对于这样跨时代的产品,时间是检验其价值最好的工具,昨天、今天和明天,应用环境的变化,都会影响到其能力的展现,姑且就让我们展现今天的它吧!


在11代酷睿桌面处理器(Rocket Lake-S)推出仅仅7个月后,英特尔就再次更新了自己桌面处理器的产品线,推出了更具革命性的12代酷睿(Alder Lake-S)K系列桌面处理器,这基本上是MSDT平台更新换代的最快纪录。同时,Alder Lake-S可以说是桌面级CPU进入到多核心时代以来最具革命性的产品,是首款在主流市场上启用混合核心结构的x86架构处理器。因此,有着诸多话题点的Alder Lake-S也自然成为2021年最值得期待的芯片产品。

之所以要在Alder Lake-S的混合核心结构之前加上那么长的定语,是因为类似的架构曾经在2019年的Lakefield处理器系列中有过实验,当时被叫做“Intel Hybrid Technology”,而Alder Lake可以说就是这次实验的“正果”。


Alder Lake的混合x86架构包含两种类型的核心:性能核(P-Core)和能效核(E-Core)。为了便于理解,我们可以把电脑所应对的工作想象成跑步——从百米短跑到42.195公里的马拉松,虽然都是跑步,但对身体能力的要求却各不相同。电脑所应对的使用场景也是一样,例如一些需要强大计算性能的场景(比如游戏或视频渲染)就像百米短跑,而那些不追求极限性能的日常应用(比如浏览文档或者网上看个电影)则更像马拉松。传统的CPU都是使用同样的核心模块来应对所有的工作,就像一个选手既要参加百米比赛,又要跑马拉松,两头都要照顾的结果自然是两边都要妥协一下。而Alder Lake的混合x86架构就像同时拥有了短跑运动员和马拉松运动员,性能核能够提供最好的计算性能,需要“细水长流”的时候就轮到能效核一展风采了。术业有专攻的结果,就是既可以有超强的性能表现,又拥有更低的平均能耗(对移动平台来说就意味着更长的续航时间),算是向着“两手抓,两手都要硬”的目标前进了一大步。

Performance Core性能核

从2019年的Ice Lake之后,Intel的桌面和移动CPU在架构上就分家了,直到11代酷睿Comet Lake才又回归到同一路线上。但Comet Lake所用的Cypress Cove实际上只是Ice Lake的Sunny Cove的14nm工艺复现版,从架构本身来说,其实是落后于11代移动酷睿平台的Tiger Lake里面的Willow Cove的(当然Willow Cove相比Sunny Cove也只是在缓存上做了很小的改进)。Alder Lake-S里面的性能核采用的Golden Cove架构,进行了大量的改进,也让桌面级CPU的微架构,再次取得领先。

Zen3在2020年的横空出世,让英特尔一直保有的单线程性能优势化为乌有,甚至半年后姗姗来迟的Rocket Lake-S也只是堪堪追平Zen3,未能成功反杀。因此Alder Lake-S上性能核的目标就是进一步挖掘核心的计算潜能,提升计算速度,重新夺回单线程应用性能的王座。


为此,Golden Cove在资源的堆叠上达到了新的高度:前端的指令解码长度从16 Byte增加到32 Byte,指令解码器由4个增加到6个,每周期执行的指令数量增加到8条,微指令队列的线程数量在并发模式下从70条/每线程增加到72条/每线程,在单线程时则达到了11条。与之相匹配的,微指令缓存也扩大到了4K,以提升命中率和Frontend带宽。


乱序引擎分配由5路增至6路,执行端口由10个增至12个,重排序缓冲区进一步增加到512条目,重命名和分配阶段也可以执行更多指令。同时,Golden Cove在整数执行单元部分着重增加了ALU(算术逻辑单元)的数量,以及在矢量执行单元上增加了FADD快速加法器,用来实现更高的效率和更低的延迟。


近几代的Intel CPU微架构都把AI性能的提升作为重点,Golden Cove自然也不例外。新引入的AMX(Advanced Matrix Extensions,高级矩形扩展)在INT8运算方面比AVX512_VNNI快8倍,这会让Alder Lake的AI学习和推理性能得到大幅度提升。

缓存是Golden Cove改进的另一个重点,除去L2 Cache在容量上追平移动平台的1.25MB/per Core之外(比11代桌面版酷睿Comet Lake的Cypress Cove架构增加了150%),在L1 Cache上更是在吞吐量和执行条目上做了全面的扩充,以此来降低缓存的延迟,并在面对当前逐渐大型化的指令代码和数据负载时提供了更好的性能表现。


按照英特尔官方给出来的数据,Golden Cove相比目前第11代酷睿桌面处理器的Cypress Cove,在通用性能的ISO频率下,针对大范围的工作负载实现了平均约19%的性能提升,我们可以等效的把这个数值理解为IPC的提升比例。


我们使用Cinebench的单核心模式测试了英特尔连续3代CPU的成绩,在负载较高的CB20和CB23上,酷睿i9-12900K的性能相比酷睿i9-11900K的提升分别为20.1%和19.0%,可见英特尔官方的数据所言非虚。(i9-12900K的测试除非特别注明,否则均使用Win 11 Pro 64Bit 21H2,下同)

Efficient Core能效核

源自Atom处理器所用的Mont系列的第七代架构,能效核的设计目标致力于在满足基础性能需求的同时,尽可能压低功耗表现,提升能效比。


相比于以往的Atom系列产品,Alder Lake的能效核在分支预测、后端执行单元数量、缓存结构上都有了明显的改进:分支目标缓存区的容量扩大至5000条以实现更准确的分支预测;后端执行单元具备5组宽度分配、8组宽度引退、256个乱序窗口入口和17个执行端口,共计拥有4个整数ALU、2个载入AGU、2个存储AGU、2个跳转端口、2个整数存储数据、2个浮点/矢量存储、2个浮点/矢量堆栈、以及第3矢量ALU;能效核的每4个核心为一簇,每簇的4核心共享二级缓存的策略,缓存带宽为64 Bytes/Cycle(时钟周期),延迟是17个Cycle。



能效核甚至还引入了AVX2指令集以提升密集型浮点应用的性能表现。英特尔官方给出的说明表示,与Skylake核心相比,能效核能够在相同功耗下拥有40%的性能优势,或者是在同样性能下只消耗不到40%的功耗。与2C4T的Skylake相比,相同功耗下的性能优势和相同性能下的能耗优势,甚至能够达到80%!

测试所使用的主板平台,华硕 M14H主板BIOS中提供了核心开关功能,可以分别定义启用的性能核与能效核的数量,其中能效核可以完全关闭,性能核则最少要保留1个以上的运行数量。通过不同核心的数量组合,因此虽然我们没有办法精确的测量能效和的性能,但还是可以做到相对准确的评估。


通过在1*P-Core+n*E-Core下运行Cinebench R23的Multi-Threads测试(关掉P-Core的超线程模式),我们能够勾勒出随着E-Core数量的增加,成绩的步进幅度,从而得到单个E-Core的最好成绩在1062分左右。这个成绩看起来只有P-Core的一半左右,但如果考虑到两者的频率差异(P-Core的Boost上限是5.2GHz,E-Core Boost上限是3.9GHz),那么E-Core的单线程同频性能大致是P-Core的71.7%,这跟英特尔官方给出来的70%的是比较吻合的。


P-Core单线程同频性能的71.7%是个什么概念呢?10代酷睿的Comet Lake-S内核的单线程同频性能,也只有Alder Lake-S的P-Core的68.7%。这意味着这个负责低负载性能的E-Core,虽然源自Atom,但在部分应用场景下的性能接近于一颗关闭了超线程技术的低频版Core i7-10700F,或者更直接的说是一颗低频版的i7-9700F。

硬件线程调度器

P-Core和E-Core术业有专攻看起来很美好,但实际上对CPU的指令调度却提出了更高的要求——传统的操作系统层级的调度面对的是同样的核心模块,通常只需要根据各核心的工作状态进行分配即可。但现在高低搭配的核心侧重点不同,再加上超线程技术,如何将正确的工作负载分配给合适的核心或线程,就成为决定CPU性能表现的关键。分配得当,性能核与能效核各施所长,自然是事半功倍。如若分配有误便会适得其反。


为此Intel在Alder Lake里引入了Intel Thread Director,即英特尔硬件线程调度器,该调度器直接内置于硬件中,对内核状态和指令线程进行自动监测,并根据实时的计算需求对调度策略进行调节,确保系统能够将软件给过来的计算线程分配到适合的核心上,英特尔官方给出得数据表示,这个ITD只需要30ms就能识别出工作负载得类型并反馈给系统的调度程序。由于是硬件集成,因此最大的好处是对于软件开发者来说,无需针对性的进行代码调整,即可确保没有适配过的软件在Alder Lake上正常运行。


对ITD的一个简单验证是通过Cinebench R23的单线程模式进行的:在启用全部核心的情况下,单线程模式是会在P-Core之间跳转,以最大化的利用后端资源和温度余量,实现更好的性能。如果使用1个P-Core+8个E-Core这样的组合,则CB23的计算线程会自动锁定在P-Core上,不会向E-Core跳转。

虽然没办法分辨游戏中的诸多指令是如何分配的,但我们特地测试了开关E-Core下游戏的帧率对比,发现并不会有明显变化,由此可见ITD的分配机制目前已经相当完善,即使在游戏这种相对更复杂的应用环境下也能够实现高效率的指令调度。


即使是硬件层级的调度,也仍然需要系统的配合,目前看来Win 11将是Alder Lake最好的搭配,Intel与Microsoft的合作,让Win 11能够实现硬件级别的线程调度,从而更好的发挥Alder Lake混合x86架构的威力。而在Win 10上如何解决线程调度的问题,目前英特尔和微软都没有明确的给出答案,但我们尝试在Win10上运行了一些Benchmark和应用,发现成绩相比于Win11上相差并不多,不会对应用体验造成明显的影响。因此,对于那些担心Win11早期软件兼容性的用户来说,留守在Win10平台也未尝不可。

Alder Lake的规格与参数

架构上的革新基本介绍完毕,但其实Alder Lake上的重要变化远不止这些:首先是在生产工艺上,Alder Lake终于甩掉了“万年14nm”的帽子,换用了10nm Enhanced SuperFin的Intel 7工艺。其次DDR5、PCI-E 5.0也是首次被引入到了桌面平台。

首批面世的Alder Lake架构产品,均是面向桌面平台的Alder Lake-S,而且全部是解锁超频特性的K系列,可见英特尔对重夺桌面市场的性能优势信心十足。本次CHIP测试的是旗舰级的酷睿i9-12900K,采用8P+8E的规格,其中P-Coe支持超线程技术,因此总计是16C/24T。频率方面,酷睿i9-12900K的频率浮动范围变得更大了,P-Core的默频低到3.2GHz,而上限则在Turbo Boost Max 3.0的加持下,允许最多两个核心达到5.2GHz,其他核心则维持在5.1GHz。E-Core的频率则是在2.4GHz到3.9GHz之间浮动。L3缓存方面,每个P-Core对应3MB,E-Core则是每个簇(4个核心)对应3MB,因此总计是30MB,相比前代近乎翻倍。


酷睿i9-12900K的TDP依然维持在了125W,但这次英特尔给出了更明确的定义:对应传统TDP概念的是PL1,叫做基础功耗,是指在默认频率下运行的典型功耗。PL2叫做最大睿频功耗,是指处允许的最大功耗上限,此时处理器能够释放全部的性能。要注意的是目前主板在识别到K/KF系列的时候,默认都是PL1=PL2=241W,也就是最强性能模式,因此对于想要追求更好能效表现得用户,需要进BIOS手动修改。


Alder Lake的移动版本会滞后发布,会包括标准功耗的BGA Type3封装和低功耗版的BGA Type4 HDI。移动版除了会封装进PCH之外,还会提供桌面版没有的Thunderbolt 4控制器和IPU图像处理单元。当然按照惯例,移动版还会有96EU的集成显示核心,而桌面版配备的UHD 770则只有32个EU。

酷睿i9-12900K是否重新夺得了MSDT平台的王座?

Zen3出来之后,整个DIY市场随处可见的友商“YES”论调确实给了英特尔很大的压力。如今依靠Alder Lake的诸多新特性,英特尔终于可以吹响反击的号角。

测试基于ROG Maximus XIV Hero(以下简称M14H)主板,这是Maximus系列Z690芯片组产品线中,定位最亲民的型号。其整体设计延续了ROG一贯的华丽+科技感风格,其中I/O部分的LED点阵屏幕十分吸睛,通电后会默认显示ROG和HERO字样,不得不说,论“骚气”二字,业界无出其右啊。


此外M14H在插座上提供了两种孔距,以便早期LGA 1200接口规范的散热器产品能够正常安装到LGA 1700的插座上。测试套装中捆绑的ROG 龙神 II 360水冷散热器,即是通过附加新的扣具,来完成对LGA 1700新平台的适配。这里要特别称赞华硕一下,其官方已经明确表示,凡是购买过华硕旗下水冷散热器的用户,不限系列、不限型号,均可申请一套兼容12代酷睿处理器的 LGA1700 水冷散热扣具。这将帮助不少打算尝鲜新平台的用户,节省整体采购成本。


Sandra 2021的最新版已经能够很好的支持Alder Lake架构的产品,因此酷睿i9-12900K的理论性能优势展露无遗:在整数和浮点计算性能上,酷睿i9-12900K相比自家的前两代旗舰都有了巨大的提升,甚至超越了拥有16C/32T的Ryzen 9 5950X。Sandra的该项目测试中,核心、线程数量通常是最重要的参数(例如8C/16T的11900K就打不过前辈10C/20T的10900K),i9-12900K能够成功逆袭,可见其单核性能的强悍。



Sandra多媒体性能测试中,酷睿i9-12900K的性能提升比例与计算测试中几乎相同。比较有意思的是,因为多媒体测试的浮点部分是支持AVX512的,而酷睿i9-12900K的E-Core是不支持AVX512指令集的,因此当所有核心同时工作时,浮点部分只能利用AVX256进行加速。而关掉所有的E-Core后,虽然因此损失了8个核心的计算能力,但因为可以开启AVX512加速,因此性能反而有了一定程度的提升。另外不得不说的就是在这个项目中,Ryzen 9 5950X依然是无可争议的王者。


作为这几年AMD的“御用”测试成绩,Cinebench系列堪称是最重要的性能晴雨表:酷睿i9-12900K凭借着极强的单核效能,在核心和线程数量均出于劣势的情况下,依然完成了对 Ryzen 9 5950X的反杀,终于算是为酷睿家族重新正名。



我们使用PCMark 10中的Application和SYSmark 25来测试不同CPU在常规办公及设计类软件中的性能表现。 PCMark 10 Application主要包括Office的三大组件以及Edge浏览器,计算负载较轻,更强调系统的反应速度,11代酷睿与Zen3在这个测试中处于势均力敌的态势,酷睿i9-12900K则以非常强势的状态打破了均态,将测试成绩拉高了一个台阶,而且没有明显的短板。SYSmark 25引入了更多的图像和视频处理测试,意图更真实的还原实际应用体验,因此测试本身对系统的整体响应速度更敏感。这是英特尔的传统优势项目,因此酷睿i9-12900K拔得头筹毫无悬念。


UL Procyon在2020年底的时候推出了新的测试套件,包括基于Microsoft Office的办公性能测试,基于Adobe Photoshop和Lightroom的图片编辑测试以及基于Premiere的视频编辑测试,考虑到Office与PCmark 10中的测试基本重叠,因此我们主要使用Adobe全家桶来对比处理器的图片和视频处理能力。在这两个领域里,自从Zen 3出来之后,就凭借核心数量的优势,在MSDT的旗舰级产品的对决中略胜一筹。这次凭借酷睿i9-12900K的强势表现,英特尔终于得以翻身。特别是在视频编辑部分,因为并不能充分利用所有核心,因此单核效率的强弱成为决胜的关键,酷睿i9-12900K相比核心更多的5950X还要领先约13.8%。


3D CAD/CAM领域,酷睿i9-12900K的性能可谓大放异彩,在所有的测试小项中相比之前表现最好的酷睿i9-11900K都拿到了接近甚至超过10%的性能提升,这在并不以CPU性能为主导的测试中,可以说是十分难得。何况这些测试中的软件尚未对Alder Lake架构有过针对性优化,随着这些“年货”型软件的大版本更新,可以想见未来酷睿i9-12900K的表现还有更上一层楼的机会。该环节测试中,5950X的测试成绩存在偏差,因此就不放到表中对比了,但参考5800X的性能,以及这个测试中对核心、线程数量的不敏感特性来看,5950X不太可能威胁到i9-12900K的地位。

游戏和3D CAM/CAD的情况十分类似,毕竟两种应用本质上也都十分接近,只是游戏的纹理更精美而已。在CS:GO这个双方争夺十分激烈的游戏中,Zen3出来之前,它几乎是英特尔的看家游戏。而Zen3横空出世将成绩直接拉到300fps+水平之后,11代酷睿并没能实现反超,面子上属实有些难堪。这次酷睿i9-12900K凭借超过370fps的帧率重登王座,算是为英特尔扬眉吐气了一回,相信未来在电竞射击游戏中,酷睿i9-12900K的出镜率肯定相当高。


3A游戏中,我们选择得都是对处理器性能敏感度较高的作品,其中街头霸王V的Benchmark在手动解锁帧率限制后,酷睿i9-12900K成为唯一一款在400fps以上的产品,相比11代酷睿提升足有25%!在《极限竞速:地平线4》中,酷睿i9-12900K成为英特尔产品中第一款能够超过200fps的型号,相比于之前的王者5950X的领先幅度接近11%!

可以肯定地说,在尚不知真实实力的Zen3+出现之前,酷睿i9-12900K将毫无疑问地占据 “最强游戏处理器”的名头。

现在就入手Alder Lake是否值得?

因为疫情原因,目前市场上的各种芯片价格都在飞涨。因此对着Alder Lake这样强大的性能表现,我们原本以为其零售价格也会水涨船高。但英特尔在价格上却采用了加量不加价的策略,显然是意图通过性能和价格的双重打击,迅速重夺市场舆论优势,恢复往日荣光。因此对于近期准备采购PC的用户,Alder Lake毫无疑问是非常值得选择的。

但Alder Lake由于具有了太多的新技术特性,因此虽然CPU本身价格十分良心,但周边的成本却相对较高:首先是主板,由于更换为LGA 1700封装,所以想使用Alder Lake就必须搭配600系列的芯片组,而目前600系列只发布了Z690这一个顶配型号(毕竟发售的CPU也都是支持超频的K/KF系列),因此在主板上的选择就十分有限。目前看来一线品牌的Z690主板即使是主流型号也都在1500元以上的价位,如果对品质或外观设计有较高要求的话,恐怕预算要提升到2500~3500元价位才能找到心仪的型号。


此外,自从2004年的LGA 775接口之后,英特尔MSDT产品线的处理器外形尺寸就一直维持在37.5 mm×37.5mm,但Alder Lake的LGA 1700打破了这一惯例,变成了45mm×37.5mm,顶盖面积也随之增加近1/4,因此对于早期的散热器来说,底盖的接触面积有可能无法做到完全覆盖。同时Alder Lake-S在PCB厚度、封装厚度和STIM材料相比前几代产品均有所降低,同时LGA 1700的底座高度也降低了,因此早期散热器即使能够在安装孔距上兼容新平台,但也会因为高度差而导致无法正常接触。简单来说,就是可能需要为Alder Lake-S购买新的散热器。


DDR5内存的使用也会让平台采购成本进一步提升。目前主流的多为DDR5 4800MHz~5200MHz的产品,32GB套装的价格基本在2500元左右。如本次测试所使用的Kingston FURY野兽(Beast)DDR5-5200 16GB×2内存套装的预订价格即为2499元,支持XMP 3.0,价格较4800MHz版本价格略高100元,是一套非常具有性价比的高频超频内存。相比之下,同等容量的DDR4 3600MHz的灯条,价位仅在千元左右。


电商平台上32GB套装DDR4与DDR5的价格对比

主板、内存甚至散热器,目前搭建一套Alder Lake平台的成本确实不菲。但适当的取舍还是能够大幅节约购买成本的,例如部分散热器品牌已经明确表示会免费或只需很低的价格即可提供针对LGA 1700的扣具,以及在内存上可以动动心思。

DDR5和DDR4如何抉择?

DDR5内存还在产能爬坡期,可以预见在一段时间内,都会处于又贵又难买的市场状态。因此Alder Lake提供了对DDR4的支持,就显得十分“良心”了。特别是目前DDR5的主流频率还处于比较保守的空间——目前市面能够出货的以4800MHz~5200MHz为主,超过6000MHz的高频DDR5内存基本上都还停留在纸面发布的状态——当频率优势不足以抵消掉延迟劣势的时候,DDR5在性能上相比DDR4,会有差别吗?


为了获得更高的运行频率,Kingston FURY野兽(Beast)DDR5-5200 16GB内存采用了非常特殊的时序及电压参数40-40-40-80@1.25V,电压较JEDEC的DDR5标准电压1.1V更高。


高频所带来的好处也是显而易见的:5200MHz频率下,Alder Lake平台内存带宽达到新高度,特别是读带宽较4800MHz版本高14%,这对内存密集型应用的用户充满了诱惑力。如果你寻求低的延迟,那么可以考虑4800MHz的Kingston FURY野兽(Beast)DDR5内存,其时序为38-38-38-70@1.1V。可以说,大带宽与低延迟,金士顿同时提供了两个不同的选项给消费者。


我们从Benchmark、Office应用、创作软件应用和游戏4大方面进行了对比测试,内存频率选择了酷睿i9-12900K标称支持的DDR5-4800和DDR4-3200。测试中使用的是与M14H捆绑送测的GeIL Polaris DDR5-4800内存,时序为40-40-40-77。内存配有铝合金片,并在顶部带有RGB灯光系统,支持与ROG主板的神光同步。另外尽管这款内存目前并未宣称支持XMP 3.0,但从我们与GeIL沟通中获知,内存本身支持到5200MHz也是没有任何问题的。


最终的结果来看,DDR5的高带宽优势在图像处理和视频编码方面还是能够展现出优势,但在例如Office办公、游戏这类内存带宽敏感度较低,但对突发响应速度要求更高的应用中,DDR4的低延迟特性完全能够抵消掉带宽的劣势。



因此,对于务实(特别是装机后2~3年内都不再有持续升级计划)的用户来说,CHIP推荐选择DDR4平台,不仅能够降低接近2000元的采购成本,同时性能也不会有明显损失。而对于预算较高的发烧友玩家,亦或主要以图像处理、视频编辑以及CG渲染这样的用户来说,CHIP更建议选择DDR5平台以保持对未来高性能DDR5内存的兼容能力。毕竟随着DDR5的逐渐普及,预期的主流频率至少应该能达到6000MHz以上,此时频率提升带来的性能增长,就将非常可观了。

感谢竞争

在这篇测试文章的结尾,我们不想再赘述12代酷睿的强大,毕竟上面已经列举了太多的数据,证明它无疑是未来几个月内MSDT平台上最强大的CPU产品。


作为这20多年处理器技术变革的亲历者,我们更多的感叹来源于“竞争”将会为市场带来多么大的活力——从11代酷睿到12代酷睿,这相邻两代产品的技术革新与性能提升比例,几乎比从8代酷睿到11代酷睿这4代产品加起来还要多。比如我们文章中尚未过多涉及的PCI-E总线:PCI-E总线在3.0标准上停留了9年,但PCI-E 4.0仅仅用了一代芯片组(AMD的X570和Intel的Z590)就被PCI-E 5.0取代;明年,我们还有可能看到AMD新的桌面级Zen3+和同样会带来诸多新特性的Zen4,后者的IPC提升据说同样惊人。

新一轮的性能竞争,Alder Lake也只是拉开了第一层的幕帘。这真是个疯狂的时代,也是最好的时代。


赞(0)
未经允许不得转载:CHIP奇谱 » 必换!迟来的酷睿i9-12900K测试
分享到:
广告