新闻资讯

News

公司新闻

行业新闻

首页

什么样的 GPU 才是人工智能训练的最佳选择？

2022年06月21日

2020 年，什么样的 GPU 才是人工智能训练的最佳选择？

英伟达为优化深度学习的矩阵运算，在较新的微架构中，专门设计了Tensor Core这样的混合精度核心，因此，人工智能训练最好选择带有Tensor Core的GPU。

众所周知，当今业界领先（State-of-the-art）的深度学习模型都会占用巨大的显存空间，很多过去性能算得上强劲的 GPU，现在可能稍显内存不足。探讨了哪些GPU可以在不出现内存错误的情况下训练模型，这些显卡更适合个人电脑和小型工作站。该篇文章的核心结论是，显存大小非常重要。是的，显存大小正在制约着很多深度学习模型的训练。

因为深度学习技术的突飞猛进，以前 12G 内存打天下的局面不复存在了。2020 年 2 月，你至少需要花费 2500 美元买上一块英伟达最新款的 Titan RTX 才可以勉强跑通业界性能最好的模型，那到今年年底会是什么样就无法想象了。

消费级
对于个人用户，英伟达消费级的GeForce系列是首选。比较经济的选项有：

GeForce RTX 2080 Ti：1200美元，11GB显存，Turing微架构（支持Tensor Core）
Titan RTX：2500美元，24GB显存， Turing微架构（支持Tensor Core）
需要注意的是，这些消费级显卡对多卡并行支持不好，默认情况，他们不支持多卡间直接通信，如果我们希望卡1和卡2之间相互通信，那么数据会先从卡1的显存通过PIC-E总线拷贝回主存，再从主存通过PCI-E拷贝到卡2的显存，这样显然非常浪费时间，不利于多卡之间的通信。2080 Ti和Titan RTX对于多卡之间PCI-E通道的P2P（Peer-to-Peer）通信支持并不好，但并不意味着他们不支持NVLink，用户可以通过购买NVLink桥接器来构建多卡之间的通信通道。有人称这个问题是这两款GPU的设计缺陷，也有人认为英伟达有意为之，为的是让有多卡并行计算需求的人去购买Telsa系列GPU。

企业级
数据中心的GPU产品更贵，适合企业级用户，它们的显存更高，也可以更好地支持多卡并行。

Quadro RTX 6000：4000美元，24GB显存，Turing微架构（支持Tensor Core）
Quadro RTX 8000：5500美元，48GB显存，Turing微架构（支持Tensor Core）
Telsa V100：16或32GB显存两个版本，PCI-E和NVLink两个版本，Volta微架构（支持Tensor Core）
Telsa V100S：32GB显存，PCI-E总线，Volta微架构（支持Tensor Core）
企业级的GPU一般都必须插到服务器或工作站上，这些服务器和工作站本身也不便宜，尤其是支持Telsa平台的服务器在十万元级别。当然，这里没有考虑机房建设、电费等成本。

2020年5月英伟达GTC 2020上发布了新一代Ampere微架构以及Telsa A100显卡，A100显卡的人工智能训练和推理能力更强，而且单个A100可以被分割成最多7个独立GPU来处理各种计算任务。

有多卡并行训练任务的朋友，建议选择支持NVLink的Telsa系列显卡。

小结
如果进行深度学习研究，GeForce RTX 2080 Ti（11GB）可能是起步标配；Titan RTX（24GB）是个不错的选项，兼顾了价格、显存和计算性能。对于企业级用户，Quadro RTX 8000（48GB）、Telsa V100（32GB）等显卡适合深度学习领域的前沿研究人员。2020年下半年，英伟达新的计算平台即将出货，新产品一方面会带来更强大的性能，另一方面也会使现有产品降价。

在物理硬件昂贵的当下，或许我们应该把目光转向云端GPU。

液冷技术：AI训练机房高效散热的核心引擎

AI做显卡、显卡跑AI！英伟达实现芯片设计自循环？

液冷技术：AI训练机房高效散热的核心引擎

AI做显卡、显卡跑AI！英伟达实现芯片设计自循环？

了解 12kW 水冷矿机散热器如何提升 Antminer 与 ASIC 矿机冷却效率。涵盖安装、流量计算与维护技巧，助你打造高效矿场。

最佳加密货币挖矿液冷系统：高效稳定的终极指南

探索链力最佳加密货币挖矿液冷系统，了解液冷如何提升算力、降低能耗并延长 GPU 与 ASIC 矿机寿命.