天启之王金手指(豪华五风扇,超越旗舰的配置,索泰 GeForce RTX 4080 16GB 天启 OC显卡评测)
1引言&规格对比&外观赏析
引言
旗舰级的RTX4090显卡已经上市一个月了,由于市场的热捧和产能不足,一直处于缺货状态,加上它1W3的售价让不少想要升级硬件的玩家望而却步,这不,次旗舰显卡RTX4080就来了,相同的架构,超越RTX3090Ti的性能相信会成为不少用户的新选择。
索泰作为NVIDIA的一线AIC品牌,非公版RTX4080自然不会缺席,这次我们收到了索泰GeForceRTX408016GB天启OC显卡,这是第一款拥有5个散热风扇的RTX4080,都说天启系列堆料猛,从这款显卡的散热上看确实如此,这也让笔者非常好奇它的实际表现,下面让我们一探究竟。
*下文“索泰GeForceRTX408016GB天启OC”简称为“索泰RTX4080天启OC”
规格对比
在开始之前,先了解一下本次的主角RTX4080,其采用的是AD103-300核心,TSMC4N工艺制造,芯片面积为379平方毫米,晶体管密度达到了459亿,晶体管数量相比较于上一代产品提升明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,RTX4080RTX4080标配9728个CUDA,128个第三代RTCores,512个第四代TensorCores,并且用上了16GB的GDDR6X显存,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
而目前RTX4080显卡配备的AD103-300核心并不是完整的AD103核心,完整的AD103核心应该包括7个GPC(图形处理集群)、40个TPC(纹理处理集群)、80个SM(流式多处理器)以及一个带有8个32Bit显存控制器的256Bit显存带宽。因此笔者猜测,RTX4080或许不是AD103核心下的终极产物,后续应该还会推出完整AD103核心的RTX4080Ti。
再看看下方的RTX4080的核心结构图,和完整版本的AD103核心对比起来就很容易看出差别,RTX4080核心代号为AD103-300,其拥有4个完整规格的GPC(图形处理集群,每个内建6个TPC),与3个非完整的GPC(两个内建5个TPC,一个内建4个TPC),共组成38个TPC,SM单元则剩下76个,显存位宽还是完整的256Bit。
但是RTX4080上的AD103-300核心在编解码器上砍了一刀,不得不说老黄的刀法精准,编解码器数量直接砍半,与RTX4090同等规格,仅保留了两个NVENC编码器和一个NVDEC解码器,因此完整版的AD103核心应该会有更快的视频编解码速度,不过之前测试过RTX4090,编解码速度相比上一代有着近乎翻倍的提升,想必RTX4080也有不错的表现。
外观赏析
索泰天启系列一直以豪华用料与高规格散热著称,接下来我们开始从外观看起,包装上延续了RTX4090的风格,以天启系列的LOGO作艺术化的延伸,神秘而有艺术感。
包装背面同样以天启Logo为纹理,并且包含产品的展示图和详细介绍以及采用的工艺等,可以看出索泰对这张次顶级显卡的重视,将目前自家最高规格的散热以及功能放在这张卡上。
在包装的右上角还专门介绍了索泰RTX4080天启OC采用的技术,如:冰芯VC散热系统、S.E.P2.0供电系统等。
解开“封印”后,除了有硕大的显卡本体,包装盒内还附赠了1个定制显卡支架,1根12VHPWR转3*8Pin的电源转接线,另有指南说明书,便捷安装。
索泰RTX4080天启OC通体是银黑色的搭配,貌似想告诉我们:实力强劲,但也足够低调沉稳。银色的龙鳞装甲包围着启示之环,犹如骑士守护着皇冠。
正面外观
启世之环
都说RGB能提升200%性能,但索泰似乎对自己的实力自信满满,从正面看只有中间的风扇采用了RGB灯效,灯光亮起后一起一伏的呼吸感也让人感到沉着冷静,当然这个启世之环也可以通过FireStorm软件自定义灯效。
单有炫酷的RGB灯效还不够,索泰给RTX4080天启OC上的这三把风扇采用了仿生设计,三把110mm的仿生盾鳞2.0风扇,在提升了扇叶面积的同时,还优化了曲率和鲨鱼麟装的仿生纹路,不仅减少了风噪,还提升了进风量、风压和风流。
来到显卡的背部,设计还是一脉相承,采用的是RTX4090同款的天启之翼2.0设计,一体式的合金面板上搭载了两个小型散热风扇,和周围的翅膀纹路融为一体。一个负责吸风,一个负责吹风,立体全方位散热。
背面外观
天启之翼
从这个“天启之翼”可以看到,索泰并不是舍弃了RGB,而是给用户跟多选择,开启RGB后如幻彩双翼,视觉效果拉满。
这两个风扇不仅能将散热死角全面覆盖,无线触点的设计也方便用户拆卸,这一点上索泰做得很人性化。其中一个小风扇压着核心的背部电容,在使用过程中对电容进行散热,达到更加均衡的散热效果。
翻到显卡顶部,突出的“ZOTAC”Logo灯牌推翻了我上面的结论:RGB是不可以舍弃的。这里同样可以使用FireStorm软件调节灯光效果,附近密密麻麻的散热鳍片为显卡排热做出不可缺失的贡献。
ZOTAC灯牌
亮灯下的ZOTAC灯牌
说到顶部,少不了的就是供电接口以及一部分其它细节,12VHPWR供电接口减少了电源线的占用,内部金属端子使用镀金材质,不仅做到抗氧化,还降低了阻抗,达到降低发热的效果,供电效果更加稳定。
旁边的小按钮是BIOS切换按钮,可以实现显卡一键超频,以高性能模式运行,也可以调节为寂静模式,优雅使用。如果不方便也可以在软件控制中心中切换。
调转视角到底部,金手指是常规的PCIe4.0x16接口,提前打开主板的ResizableBAR功能,这样才能跑满带宽,完全发挥显卡性能。
另外底部同样有大面积的鳍片出风口,如此规格的散热配置压制这张RTX4080可以说是绰绰有余了。
IO接口配备三个DP1.4a和一个HDMI2.1a,接口数量可以满足多屏使用的环境,即使是8K输出也毫无压力。
显卡厚度也来到了3.5槽,带上背后两个小散热风扇,整张卡的厚度将近74mm,这对一些比较小的机箱会是不小的挑战。
2显卡拆解
显卡拆解
让我们卸下骑士的铠甲,一探散热豪华的显卡之下用的是什么逆天的硬件。将索泰RTX4080天启OC金属背板上的螺丝卸下后即可分离冰芯VC散热系统和PCB板。
首先来看PCB板,想要完全取下PCB则还需要卸下金属背板上剩余的螺丝,从正面来看,索泰RTX4080天启OC的PCB为类公版设计,从长度上看比上代RTX3090Ti还要再短一些,不过却实现了超越上代卡皇的性能,足见索泰设计能力之强。
PCB的背面相比正面简洁不少,大部分控制芯片都放在此处,要说这背面最显眼的当属核心后的电容,使用了两个POSCAP(导电聚合物钽电容),电气性能更强一些。
视角来到PCB的正中央,这里镶嵌着本次的主角——AD103-300-A1核心,TSMC4N工艺制造,内含9728个CUDA核心,就是这颗小小的核心几乎全方位的碾压上代卡皇RTX3090Ti。
核心的四周是8颗GDDR6X显存,由美光与NVIDIA联合研制,型号为2PU47D8BZF,单颗显存容量2GB,8颗组成16GB,显存位宽为256Bit,速度达到了21Gbps。
想要驱动这颗强劲的核心,供电系统自然不能差,索泰RTX4080天启OC采用S.E.P2.0供电系统,供电规模堪称豪华,24 3相供电设计已经快追上自家的RTX4090了,豪华配置为显卡带来更稳定高效的供电保障,助力显卡释放性能。
每相供电均采用了独立的DrMos芯片,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。
核心供电和显存供电均配有PWM供电控制芯片,安排在PCB背面,型号分别是:uP9512R、uP9529Q以及uS5650Q。其中uP9512R与uP9529Q共同管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。
uP9512R芯片
uP9529Q芯片
uS5650Q芯片
由于索泰RTX4080天启OC是双BIOS设计,因此在PCB上还可以看到两颗BIOS控制芯片,型号为IS25WP016,一颗位于正面一颗位于背面。
索泰RTX4080天启OC用的是RTX4090上同款的冰芯VC散热系统,需要将隐藏在风扇下的螺丝拆除才可分离散热风扇与整块散热器。整个散热系统包含散热风扇、鳍片散热器以及技术背板三个部分。
冰芯VC散热系统在设计之初就把规格拉满了,现在不仅仅可以给GPU散热了,在显存、电感、Mos管等地方都配有高系数的导热垫。
GPU核心处也抹上了厚厚的硅脂,并且这代显卡上的显存紧贴真空腔均热板,可见GDDR6X显存超强性能带来的发热量也是巨大的。
除此之外,金属背板的显存和GPU核心位置依然贴了导热垫,可以从背板处导热,妥妥的旗舰配置散热。
整个散热器采用两段式设计,左右两侧均布满了厚重、加高的镀镍散热鳍片,搭配全新对流穿透散热设计,能够大大提升显卡散热效能。
密密麻麻的散热鳍片下隐藏着9根冰脉2.0热管,贯穿整个散热系统,能够将前后的两段散热鳍片链接起来,将热量快速传导到散热鳍片,高效散热,让索泰RTX4080天启OC随时保持冷静。
仅仅靠散热鳍片还不够,冰芯VC散热系统还需要主动散热装置,索泰RTX4080天启OC上那5个散热风扇能够将散热鳍片上的热量快速导出外部。其中正面的三个110mm仿生盾鳞2.0风扇采用双滚珠轴承设计,升级后的扇叶不仅兼顾风量,也更注重使用寿命。
背部的两把散热风扇看起来虽小,但无论是外观设计还是功能性丝毫不逊色于正面三把大风扇,它能够加速气流流动,进一步降低显卡温度,并且支持AI启停,高效散热的同时也不会带来巨大的噪音。
3测试平台&理论/游戏性能
测试平台介绍
讲完拆解,下面介绍一下我们的测试平台,既然是高端显卡,那其他硬件也不能差,给足索泰RTX4080天启OC面子,笔者用地表最强硬件来测试,CPU用的是Inteli9-13900K,主板为ROGMAXIMUSZ790HERO,内存插满,直接上金士顿的64GBDDR5-6000,这样的配置才能让展现这张显卡的性能。
RTX4090已经能跑8K游戏了,作为次旗舰的RTX4080流畅4K电竞应该不过分吧,所以我们为这张索泰RTX4080天启OC配备了4K显示器的天花板——爱攻&保时捷联名设计的AGONPD32M,4K@144Hz高刷,还有miniLED背光加持,从里到外都散发着一种高级感,只有这样的显示器才能配得上索泰RTX4080天启OC这张显卡。
开始测试前,先运行GPU-Z,既验证显卡能否正常驱动,也能够详细了解索泰RTX4080天启OC的信息,从图上可以看到这款显卡的基准频率为2205MHz,Boost频率可以达到2565MHz,高于FE公版的2505MHz,并且可以看到此时主板的ResizableBAR功能已开启,显卡能够做大限度的发挥出其全部性能。
除此之外,在GPU-Z中还可以了解到索泰RTX4080天启OC的温控和功耗策略,GPU-Z显示这款显卡的TGP设定为320W,与公版RTX4080保持一致,允许的最高功耗限制为450W;而在温控上,索泰RTX4080天启OC最高可至88℃,除了超频,我想正常使用以冰芯VC散热系统的实力是不可能撞温度墙的。
理论性能测试
首先进行理论性能测试,这里我们加入了上代的卡皇RTX3090Ti进行对比,从而能够更清楚的看到RTX4080的性能提升。
在3DMark理论测试中,以DX11为代表的FireStrike系列测试里,索泰RTX4080天启OC表现亮眼,在4K分辨率下能够领先RTX3080Ti达38%以上。在以DX12为代表的TimeSpy测试中,索泰RTX4080天启OC也可以甩出前代几条街,得分高达,即使对比RTX3090Ti也不虚,总的来说这代显卡,4K分辨率对其几乎没有压力。
NVIDIA在20系显卡上推出光追后,同时给RTX系列显卡加上了DLSS功能,作为老黄的看家本领,索泰RTX4080天启OC在这方面的表现依旧强势,RTX4080的光追性能在这一代确实得到了很大提升,RTX3090Ti在PortRoyal中得分1W4,而索泰RTX4080天启OC得分17975,性能领先30%以上,可见40系显卡对光追特效的优化已经提升到了一个新的层面。
在AIDA64GPGPU理论性能测试中,索泰RTX4080天启OC也展现出高端显卡应有的实力,无论是跟前代RTX3080Ti比还是跟RTX3090Ti比,它的性能都称得上是碾压级别的,领先幅度达到了40%以上,单是显存复制一项,索泰RTX4080天启OC的性能就是RTX3080Ti的三倍左右。
游戏性能测试
理论性能上RTX4080有着巨幅提升,那大部分玩家更关心的游戏性能又如何,我们选用多款游戏在不同分辨率下实测这款显卡的性能表现。
作为高端显卡,1080P可以说是毫无难度,上一代RTX3080Ti的性能已经能够流畅游玩1080P分辨率下的3A大作了,更不用说这一代了,像《古墓丽影:暗影》优化好的游戏,甚至突破300FPS,已经达到了不少电竞网游的水平了。
2K分辨率索泰RTX4080天启OC也丝毫不虚,测试的游戏基本都能够达到144FPS上,整体游戏性能也领先前代RTX3080Ti近35%。看来要上点强度才能看出这款显卡的真正实力了。
分辨率的提升索泰RTX4080天启OC优势愈发明显,素有显卡杀手之称的《赛博朋克2077》在RTX3080Ti上仅是接近60FPS,而索泰RTX4080天启OC则是做到了90FPS,降点特效则可以做到144FPS了,畅玩4K@144Hz不再是梦。
8K分辨率对RTX4080就有一些压力了,不过部分游戏依旧能够达到60FPS以上,像《荒野大镖客2》,索泰RTX4080天启OC跑出了67FPS的成绩,8K游戏这在以前几乎是不敢想的存在,现在依旧指日可待了,可见这代显卡的强大性能。
总的来说,索泰RTX4080天启OC在2K、4K分辨率下相比前代RTX3080Ti有着明显优势,不少以前只可以勉强60FPS运行的游戏,在这代显卡上已经能够流畅运行了,搭配DLSS后,更是能够上到100FPS,想要4K@144Hz流畅运行只需要稍微降低一些特效就能够实现,至于8K则需要游戏厂商的优化才有可能实现了。
4DLSS 3性能测试
DLSS 3性能测试
DLSS作为老黄的独门秘技,自推出以来就给玩家带来了不少惊喜,有了DLSS这个黑科技可以在不影响画面质量的情况下提升游戏性能。今年的RTX40系上的DLSS也更新至3.0版本,新增帧生成和NVIDIAReflex技术,实现游戏性能的翻倍提升,我们选择了多款软件和游戏对这项技术进行实测,验证其究竟能否实现老黄在发布会上所说的“性能翻倍”。
3DMarkDLSS3性能测试
自打RTX4090发布之后,3DMark就新增了DLSS3性能测试项目,在该测试项目中,索泰RTX4080天启OC展现出了DLSS3强大的黑科技,4K分辨率下,开关DLSS3性能差距能够达到3倍以上,8K分辨率下不开DLSS,即使是RTX4090也会卡成PPT,而现在索泰RTX4080天启OC在开启DLSS3后,8K分辨率下可以直接70FPS流畅运行,看来RTX4080有望8K游戏。
《瘟疫传说:安魂曲》游戏实测
理论性能索泰RTX4080天启OC表现不错,实际表现中,我们选用了目前已经支持DLSS3的《瘟疫传说:安魂曲》进行测试。
在不开启DLSS时,索泰RTX4080天启OC在4K分辨率下开启DLSS2已经可以流畅运行了,此时的帧数已经到达119FPS,而开启DLSS3后,性能提升明显,游戏帧数也来到了157FPS,所以说有索泰RTX4080天启OC,4K@144Hz不再是梦,配合我们的AGONPD32M显示器,强悍的性能与丝滑的显示带来前所未有的体验。
2K分辨率DLSS性能测试
我们还实测了多款游戏,从实测结果来看,在2K分辨率下,索泰RTX4080天启OC的性能可以说是绰绰有余,只开启DLSS2就已经全面超越前代的RTX3080Ti了,开启DLSS3后性能更是有了长足的进步,可以说2K分辨率下大部分游戏都可以240Hz高刷运行。
4K分辨率DLSS性能测试
4K分辨率更是索泰RTX4080天启OC的主场,有了DLSS3黑科技的加持后,不少游戏表现相比前代卡皇RTX3090Ti有着近乎翻倍的提升。大部分游戏依旧可以满足4K@144Hz的电竞需求。
8K分辨率DLSS3性能测试
在上面的3DMark中我们看到索泰RTX4080天启OC开关DLSS3前后性能差距近70%,因此我们也测试了这张显卡在8K分辨率下的游戏表现,测完后不得不说,16GB的显存卡得刚刚好,在8K游戏下,RTX4080存在爆显存的问题,只有少部分游戏或项目能够60FPS运行,因此想要靠这张显卡流畅8K@60Hz游戏还需要后续游戏厂商的优化才行。
UnrealEngine5EnemiesDEMO
最后我们也测试了UnrealEngine5引擎制作的EnemiesDEMO,UE5作为全新的游戏开发引擎,对显卡的压力自是不小,而索泰RTX4080天启OC在DLSS3的加持下展现出了超强的实力,4K分辨率下可达77AVG/661%FPS/55ms的水平,而关闭DLSS3后仅有22AVG/171%FPS/195ms,几乎3倍以上的游戏流畅度提升。
游戏流畅度的提升究竟会不会对画质造成影响?我们可以从视频中可以看出,即使开启DLSS3后,从肉眼看来,开关前后的画质几乎没有区别,并且因为DLSS是利用AI进行渲染,在部分细节上,DLSS模式下的画质甚至比原生画质还要清晰。
5创作者/双NVENC编码器测试
创作者性能测试
高端显卡在游戏方面确实很顶,不过索泰RTX4080天启OC的16GB大显存在生产力方面也有用武之地,我们这次选择PugetBench、PCMark10这两款常见的测试软件,来测试这款显卡在日常办公、视频内容生产等方面的性能表现。
测试结果如下,可以看到在PCMark10测试中,索泰RTX4080天启OC在数位内容创作项目上得分,相比上代提升明显,在后续的Adobe软件测试中也印证了这一点,不过由于Adobe软件对显卡性能不敏感,索泰RTX4080天启OC的提升更多是16GB大显存对复杂项目的处理,大显存的优势在于运行复杂特效时不容易爆显存,并且还有一定的性能提升。
而在另一款著名剪辑软件达芬奇的测试中,由于索泰RTX4080天启OC自带AV1编解码技术,在性能上领先RTX3080Ti不少,整体性能能够提升16%,目前更推荐视频后期工作者使用达芬奇,毕竟支持AV1可以白嫖更多的性能提升。
索泰RTX4080天启OC真正强悍的地方是在建模、渲染、工业设计等方面,新架构和大显存双管齐下,单是在Blender渲染软件中,索泰RTX4080天启OC相比前代RTX3080Ti就有50%以上的提升,面对RTX3090Ti也丝毫不虚,性能领先45%。
使用工业软件的用户这次也可以考虑升级显卡了,在SPECviewperf2020集成的8款工业软件测试中,索泰RTX4080天启OC的表现依旧喜人,整体性能领先RTX3080Ti有35%左右,渲染时可以缩短近三分之一的时间。
双NVENC编码器专项测试
从事视频剪辑后期的用户在更换索泰RTX4080天启OC后不仅可以提升性能,还可以提高转码效率。RTX40系显卡上升级了双NVENC编码器,并且支持时下热门的AV1编码,而AV1作为下一代主流的视频编码技术有着自己独特的优势,其具有更快的编码速度和更高质量的流媒体传输性能,像达芬奇、万兴喵影、剪映等常用的剪辑软件已经支持AV1编码,B站等主流的视频网站也加入了AV1解码,未来AV1将会成为一个新趋势。
所以我们也对索泰RTX4080天启OC上的编码器进行测试,使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测索泰RTX4080天启OC的编解码实力与旗舰级的RTX4090相当,同一段素材下,AV1编码相比H.265编码快不少;即使同样使用H.265编码,有双编码器的加持下,索泰RTX4080天启OC的效率比前代快62%以上。
AV1编码不仅编码时间短,在占用空间上也颇有优势,从下图可以看到无论是4K还是8K分辨率,采用AV1编码平均能够降低25%的占用空间。
有不少用户担心,那编码速度快又占用小,那会不会降画质。这里我们截取了几个画面进行对比,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现。
6功耗&超频&评测总结
功耗与发热
之前测试索泰RTX4090天启OC时采用的是五风扇的冰芯VC散热系统,它的散热表现有目共睹,现在索泰RTX4080天启OC用上了同款散热器,这也让笔者对其散热效能充满好奇,下面我们一探究竟。
使用Furmark单烤15分钟后,此时显卡占用率99%,索泰RTX4080天启OC的GPU频率稳定在2500MHz上下,GPU核心温度为56℃,相比公版的RTX4080还要凉快,得益于显存直贴均热板的设计,即使是GDDR6X这种发热大户,此时的温度也仅有54℃而已。
别看索泰RTX4080天启OC的散热系统配备了5个散热风扇,实际上它的噪音表现良好,单烤15分钟后,显卡功耗最高为320W,风扇转速也仅有31%,几乎感受不到风扇噪音,综合能耗比来看,这张显卡对比前代卡皇RTX3090Ti可以说是全面超越。
超频测试
既然是高端显卡,那就少不了超频测试,更何况索泰RTX4080天启OC还用的是RTX4090同款散热,因此我们使用索泰的FireStorm控制中心对显卡进行超频。
我们将GPU核心和GDDR6X显存同时超频,在FireStorm中将索泰RTX4090天启OC的BOOST频率提升到2755MHz,显存也直接超频1000MHz,运行PortRoyal测试项目。
默频测试TimeSpy
此时显卡的核心与显存都能够在高频状态下稳定运行,并且跑出了30142分,相比默频状态下的28330分提升7%左右,提升幅度还算不错了,不过这还不是这款显卡的极限,有兴趣的玩家还可以更激进的超频。
评测总结
不得不说这次RTX40系显卡真的诚意满满,全新的Adalovece架构大大提升了执行效率和光追性能,DLSS3的加入让8K游戏成为可能,超大显存和算力提升让专业性能也有质的飞跃,再加上TSMC4N的定制工艺与硕大的散热器,40系显卡的能耗比更上一层楼,对比前代可以说是全面超越。
再说说这次评测的索泰GeForceRTX4080天启OC,它的颜值着实给我留下了深刻的印象,银鳞装甲与黑色合金相互碰撞,启世之环与天启之翼交相辉映,既有超能机甲的冷酷又有RGB灯效的动感,可以说这款显卡就是为游戏玩家量身定制的。
颜值高只是索泰GeForceRTX4080天启OC的优点之一,它的性能释放也带给我们不小的惊喜,实测下来,这款显卡不仅理论性能上有着超越同级的表现,在极限超频状态下凭借5风扇的设计,无惧发热,核心直上3000MHz,显存更是直接超频1000MHz以上,完美展现了AD103核心的真正性能。
总之实测下来,如果你对游戏体验或生产力效率有着较高的追求,那索泰GeForceRTX4080天启OC无可挑剔,前卫的外观设计、过硬的性能表现都是你无法拒绝它的理由,目前这款显卡已经上架销售,售价10999元,感兴趣的千万不要错过。
7技术讲解:Ada Lovelace架构
Ada Lovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32 INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4080拥有76个SM,9728个CUDA核心,那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了,比上一代的RTX3090Ti显卡的40TFLOPS,还真是提升了两倍有多。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,这样RTX4080显卡中就实现了97MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD103核心与RTX4080都是64MB二级缓存,相比RTX3080Ti可以说是质的飞跃。
技术讲解:第三代RT Cores与第四代Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。
第三代RTCores
RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形 位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
8技术讲解:DLSS 3
技术讲解:DLSS 3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
9技术讲解:双NVIDIA编码器
技术讲解:双NVIDIA编码器(NVENC)
GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。