平博88体育针对Nvidia的RTX 2080和实时光线追踪解释

 行业动态     |      2018-08-22 15:50
        平博88体育针对平博Nvidia的RTX 2080和实时光线追踪解释正如预期的那样,平博Nvidia 在其Gamescom活动中推出了三款新的GeForce RTX显卡。我们已经报道了很多谣言和猜测,但我们现在知道价格,功能,性能 - 甚至是名称。平博Nvidia将在未来几天内提供有关架构的更多详细信息,但这些细节将被禁止,直到更晚的日期,大概接近9月20日,即RTX 2080 Ti和RTX 2080正式上市。但是在此之前我们还有很多其他信息需要解析,所以让我们深入研究。
 
 
 
        平博Nvidia的最后一款GeForce架构是Pascal,它支持从顶级最佳显卡(如GTX 1080和GTX 1080 Ti)到入门级GTX 1050和GT 1030。去年,平博Nvidia发布了一种新的Volta架构,显然仍然存在在超级计算和深度学习的领域,因为新的图灵体系结构似乎几乎以一切有意义的方式击败它。如果你只是挥霍一个Titan V,这是个坏消息,但对于那些坚持使用新显卡的游戏玩家来说,你的耐心已经得到了回报。
 
RTX 20系列显卡的核心规格和价格
 
        有大量的猜测,是的,公然错误的猜测图灵体系结构将包含什么。上周之前的每一次“泄漏”都是错误的。嚼了一会儿。我们可以对平博Nvidia和AMD可能对未来架构做些什么做出有根据的猜测,但这种猜测肯定是错误的。平博Nvidia 在SIGGRAPH 上展示了图灵架构的许多核心细节,随着GeForce RTX 20系列的正式发布,我们终于可以将所有谣言传播到床上。
 
        快速免责声明:我在下表中使用了所有GPU的“参考”规范。20系列Founders Edition卡的价格较高,但为图灵提供了90MHz的更高升压时钟,使它们与工厂超频型号可能降落的范围相同。至于“真正的参考”卡片,我们不知道它们的外观或者它们的广泛可用性,特别是在发布时。我怀疑在显卡开始出货后,我们不会看到上面列出的价格范围的下限至少一两个月。
 
 
 
        对于传统的图形工作 - 到目前为止一直在使用的游戏--CUDA核心数量在整个生产线中得到适度改善。2080 Ti核心比GTX 1080 Ti多21%,RTX 2080核心比GTX 1080多15%,而RTX 2070核心比GTX 1070多20%。理论TFLOPS的结果类似于13.5提升18.6% - 平均称其为15%。这是重要的一点:这些理论数字代表图灵的最坏情况。
 
        在建筑方面,平博Nvidia本轮增强了CUDA核心。一个主要的变化是CUDA核心可以同时进行FP32和INT计算。大多数图形工作依赖于浮点计算(例如,3.14159 * 2.71828),但内存地址的整数计算也很重要。目前尚不清楚这最终会如何影响图形性能,但在他的GeForce RTX演示中,平博Nvidia首席执行官Jensen Huang表示,图灵核心的速度比Pascal核心“快1.5倍”。如果这个数字甚至接近现实,那么新的RTX 20系列GPU将比目前的10系列GPU快得多。
 
        随着更多更快的CUDA核心,性能的提升并没有停止。到目前为止,图灵将使用14 GT / s GDDR6内存。这使得2080 Ti的带宽提高了27%,2080提升了40%,而2070则与2080型号等效,并且性能提升了75%。每个GPU都有一定的内存带宽,超过这个带宽,更快的内存无助于此。平博Nvidia传统上保持其顶级GPU非常均衡,但转向GDDR6已经改变了一些东西。我怀疑2070并不真正需要所有带宽,但额外肯定不会受到伤害。
 
 
 
        到目前为止,所有内容都代表了平博Nvidia传统GPU架构的更新。接下来是新增的内容,RT和Tensor内核。RT代表光线跟踪,这是由Turner Whitted于1979年首次引入的技术。Whitted于2014年加入平博Nvidia并在其研究部门工作,这可能并非巧合。时机非常适合平博Nvidia开始认真努力实现实时光线追踪硬件,图灵是这些努力的第一个明显成果 - 在最近的博客文章中,Whitted讨论了他的一些历史,包括光线跟踪和全局照明。
 
        我将回过头来看一下光线追踪,但来自平博Nvidia的新信息是,RT内核每秒每千兆雷的计算量大约为10 TFLOPS。重要的是要声明这些TFLOPS不是通用TFLOPS,而是这些是用于加速光线跟踪计算的特定操作。平博Nvidia说RT核​​心用于计算射线三角形交叉点(射线撞击多边形)以及BVH遍历。第二位需要更长的解释。
 
        BVH代表“边界体积层次”,并且是用于优化交叉点计算的方法。不是检查光线对多边形,而是通过更大,更简单的体积来封装对象。如果光线不与大体积相交,则不需要花费额外的精力来检查对象。相反,如果光线确实与边界体积相交,则检查层次结构的下一级别,每个级别变得更加详细。基本上,平博Nvidia提供的硬件可以加速光线跟踪中使用的常用功能,可能会使计算速度提高一个数量级(或更多)。
 
 
        图灵最后的主要建筑特色是包含Tensor核心。通常用于机器学习,您可能想知道为什么这些甚至对游戏有用。游戏未来有可能利用这些核心来增强游戏中的AI,但这似乎不太可能 - 特别是在接下来的五年或更长时间内,大量安装游戏玩家将无法使用Tensor核心。在不久的将来,这些核心可以更实用的方式使用。
 
        平博Nvidia展示了一些改进的图像升级质量的例子,其中已经在数百万图像上训练的机器学习可以产生更好的结果,具有更少的块效应和其他伪像。想象一下,使用高帧速率渲染1080p的游戏,然后使用Tensor核心将其升级到伪4k,而不会对我们目前产生的性能产生巨大影响。它不一定是完美的,但突然想到4k显示器运行在144Hz的“原生”4k内容并不是那么牵强。
 
 
 
        平博Nvidia还讨论了一种新的DLSS算法,它提供了比TAA(时间AA)更好的抗锯齿体验。目前尚不清楚Infiltrator是使用DLSS,Tensor核心还是什么,但平博Nvidia表示,在GTX 2080 Ti上Infiltrator演示版以“78 fps”运行,相比之下,GTX 1080 Ti上只有“30-fs”fps在4k。
 
 
图灵将使用TSMC 12nm制造
 
        根本不足为奇的消息是Turing GPU将采用台积电的12nm FinFET工艺制造。后来图灵模型可能由三星制造,与GTX 1050/1050 Ti和GT 1030 Pascal部件一样,但第一轮图灵GPU将来自台积电。
 
        从16nm到12nm的变化意味着什么?各种消息来源表明,台积电的12nm更加精细化,并且对现有的16nm进行了调整,而不是真正减小功能尺寸。从这个意义上说,12nm更像是一个营销术语,而不是真正的芯片收缩,但过去两年对工艺技术的优化应有助于提高时钟速度,芯片密度和功耗 - 更快,更小,更酷的三位一体运行芯片。台积电的12nm FinFET工艺在这一点上也很成熟,产量很高,这使得平博Nvidia能够创造出非常大的GPU设计。
 
        顶级TU102图灵设计将拥有186亿个晶体管,尺寸为754平方毫米。(请注意,TU102是有些地方所称的 - 就我所知,平博Nvidia还没有正式命名芯片。“任何其他名称的玫瑰”以及所有......)这是一个巨大的芯片,远大于用于GTX 1080 Ti的GP102(471mm2和118亿个晶体管)。它几乎与特斯拉V100和Titan V(815mm2)中使用的GV100一样大,基本上与平博Nvidia可以与台积电目前的生产线一样大。
 
 
        TU102支持最多4,608个CUDA内核,576个Tensor内核和10 Giga Rays / sec,分布在36个流多处理器(SM)上,每个SM有128个CUDA内核和16个Tensor内核。像往常一样,平博Nvidia可以部分禁用芯片来创建低层模型 - 或者更可能的是,它可以收获部分缺陷的芯片。RTX 2080 Ti使用34个SM,据我们所知,它提供了4,352个CUDA核心和544个Tensor核心。平博Nvidia没有提供有关RT核心数量的具体细节,但RTX 2080 Ti被评为平博Nvidia也用于Quadro RTX 6000的前10 Giga Rays / s,因此它似乎没有任何禁用的RT核心。
 
        目前第二款图灵芯片尺寸缩小了一步,但平博Nvidia尚未提供TU104的具体数据。它最多有24个SM,它将在RTX 2080和RTX 2070中使用.2080只禁用一个SM,从我们可以看出它的2,944个CUDA核心和368个Tensor核心。它的额定速度为8 Giga Rays / s,表明RT核心可能无法直接集成到SM中。同时,RTX 2070禁用6个SM,用于2,304个CUDA核心和288个Tensor核心,以及6 Giga Rays / s。芯片尺寸可能在500-550mm2范围内,大约有12-14万个晶体管。更重要的是,TU104的制造成本更低,因此它可以更容易地进入500美元的零件。
 
        结合图灵和GeForce RTX硬件,所有新GPU将使用GDDR6内存,并且基于VRAM容量,平博Nvidia使用8Gb芯片(而Quadro RTX使用16Gb芯片)。TU102具有高达384位的接口,2080 Ti禁用一个32位通道,最终使用352位接口,而TU104具有高达256位的接口。对于2070和2080使用14 GT / s GDDR6意味着它们最终具有相同的内存带宽,这可能意味着2070具有比通常使用的带宽更多的带宽。GDDR6正式支持14-16 GT / s的速度,而Micron已经展示了18个GT / s模块,因此平博Nvidia目前正处于低端市场。我们可以在将来或合作伙伴卡上看到更快的内存。
 
 
什么是光线追踪,这真的是一件大事吗?
 
        这就是架构(至少目前为止),但我承诺会回到那些RT内核以及为什么它们很重要。平博Nvidia正在投入大量资金用于图灵的光线跟踪,它通常被称为计算机图形学的“圣杯”。这是因为光线追踪会对游戏的渲染方式产生深远的影响。这是一个足够大的变化,平博Nvidia已经在新的20系列部件(至少2070及以上)上倾向于GTX品牌,转向RTX。您可以试着说它只是营销,但做任何接近实时光线跟踪的事情都是非常不可思议的,在10年后我们可能会回顾RTX的引入,就像我们目前回顾可编程的介绍一样着色器。
 
        解释什么是光线跟踪,它是如何工作的,以及为什么它比其他渲染模型更好是一个巨大的主题。平博Nvidia和其他许多人已经发表了冗长的解释 - 如果您想了解更多信息,或者在RTX和游戏中查看这七个系列视频,这里是一个很好的起点。从根本上说,光线跟踪需要比光栅化更多的计算工作,但是得到的图像通常比我们习惯看到的近似更准确。光线跟踪在模拟照明方面特别有效,包括全局照明,点光源,阴影,环境光遮挡等。借助RTX,平博Nvidia使开发人员能够更加接近模拟精确的光照和阴影。
 
        而不是详细解释光线跟踪的工作原理,最好看一些如何在游戏中使用它的例子。目前有11款正在开发的游戏正在使用平博Nvidia的RTX射线追踪(可能还有其他尚未公布的游戏)。共有21款游戏使用了平博Nvidia图灵架构提供的部分新RTX增强功能,这里有一些使用光线跟踪的游戏的具体示例。
 
 
 
        来自古墓丽影暗影的此片段展示了RTX光线追踪如何改善照明模型。要注意的关键要素是前景中的点光源(蜡烛)和它们创建的阴影。使用传统的光栅化技术添加动态点光源可能会大大降低性能,而且点光源越多,效果越差。开发人员和艺术家目前花费大量时间来提出看起来相当不错的近似值,但是可以做的事情是有限的。光线跟踪可以更准确地反映光线如何与环境相互作用。
 
 
        这是另一个片段,展示了光线追踪如何改善古墓丽影阴影中的光照,这次是两个锥形灯和两个矩形区域灯。在传统模式下,一切看起来都很好,阴影根据灯光变化,但这些阴影融合的方式并不能正确反映现实世界。相比之下,RTX照明使用基于物理的环境建模,它显示混合在一起的绿色和红色聚光灯,阴影边缘的朦胧等等。
 
 
        另一个展示全球照明的光线追踪示例是Metro Exodus。传统模型在这里照亮整个房间,而“正确”的光线追踪照明在角落有深阴影,明亮区域由直接照明点亮,间接照明有助于使一些区域仍然清晰可见,而其他区域不。这给艺术家和关卡设计师带来的机会很有意思,但我必须指出,“逼真”的阴影并不总是更有趣。
 
        我有机会玩Metro Exodus演示,这使我可以在RTX之间动态切换开/关。在一些破旧的建筑物周围散步,使用RTX照明,房间更暗。这可能会产生一种恐惧感,但它也使得发现物体并找出你要去的地方和你能做的事情变得更加困难。无论如何,Metro世界的外观和感觉非常出色,而RTX照明带来了非常不同的体验 - 这不仅仅是对图形的一些蓬松调整,以提供略微不同的阴影; RTX照明清楚地改变了环境并影响了游戏玩法。
 
        然而,还有第二个缺点:RTX具有更高的性能要求。显示的所有游戏都处于alpha或beta状态,因此可能会发生很大变化,但很明显,启用所有奇特的RTX效果会对性能产生影响。我看到“古墓丽影之影”,“地铁出埃及记”和“战地V”中的周期性口吃,这是目前RTX的三大名字。视觉差异可能令人印象深刻,但如果与传统渲染技术相比性能下降一半,很多游戏玩家可能最终会禁用这些效果。还有一些工作要做,希望工作更多地以软件更新的形式提供,以在不牺牲质量的情况下提高性能,而不是在这些东西变得切实可行之前需要等待几代硬件。
 
 
 
平博Nvidia的RTX是未来的形象
 
        如果您完全关注图形行业,那么我们的目标始终是实时光线跟踪,或者至少在实时图形引擎中使用光线跟踪的一些元素。我们的图形芯片在过去30年中取得了长足的进步,包括像3dfx Voodoo这样的里程碑,作为第一款可以制作高性能3D图形的主流消费卡,GeForce 256作为第一款加速变换和照明处理的GPU,和AMD的Radeon 9700 Pro作为第一款完全可编程的DirectX 9 GPU。与任何产品相比,平博Nvidia的图灵架构相对于其前辈而言看起来变化很大。
 
        就像所有变化一样,这不一定是旧的和新的开始的一个很好的和干净的休息。像实时光线跟踪一样酷,它需要新的硬件。这是众所周知的鸡和鸡蛋问题,软件不支持没有硬件的新功能,但构建硬件以加速目前没有使用的东西是一项巨大的投资。平博Nvidia已经用RTX和Turing进行了这项投资,只有时间才能证明它是否有所回报。
 
        不幸的是,至少在接下来的五年里,我们将面临一个混乱的局面,即大多数玩家没有能够进行RTX的卡,甚至是微软的通用DirectX RT。我将与一些使用RTX进行光线追踪的开发人员交谈,以了解为游戏添加支持是多么困难。希望它不是太难,因为大多数开发人员需要继续支持传统产品和光栅化技术。
 
        即使是长期的,RTX扩展也可能无法赢得其专有的平博Nvidia技术,因此AMD现在完全被锁定。理想情况下,标准将会发展,就像他们使用Direct3D一样,并且最终游戏可以支持单个APU,它将对系统中的任何GPU /处理器进行光线跟踪。这些天我们在DirectX 11/12上处于一个非常好的位置,所以DirectX RT 5.0可能会成为这个标准。但无论我们如何到达那里,实时光线追踪或其中的一些变体将成为PC游戏中的下一个重点。现在我们只需要等待控制台和软件赶上硬件。