【光电智造】总结：深度学习如何挑选GPU？

今日光电 2023-07-11 18:00

TI MCU方案：能源基础设施实时控制 如何提升高压系统的实时性能?

今日光电

有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。欢迎来到今日光电！

----与智者为伍为创新赋能----

深度学习是一个对计算有着大量需求的领域，从一定程度上来说，GPU的选择将从根本上决定深度学习的体验。因此，选择购买合适的GPU是一项非常重要的决策。那么2022年，如何选择合适的GPU呢？这篇文章整合了网络上现有的GPU选择标准和评测信息，希望能作为你的购买决策的参考。

1 是什么使一个GPU比另一个GPU更快？

有一些可靠的性能指标可以作为人们的经验判断。以下是针对不同深度学习架构的一些优先准则：
Convolutional networks and Transformers: Tensor Cores > FLOPs > Memory Bandwidth > 16-bit capability
Recurrent networks: Memory Bandwidth > 16-bit capability > Tensor Cores > FLOPs

2 如何选择NVIDIA/AMD/Google

NVIDIA的标准库使在CUDA中建立第一个深度学习库变得非常容易。早期的优势加上NVIDIA强大的社区支持意味着如果使用NVIDIA GPU，则在出现问题时可以轻松得到支持。但是NVIDIA现在政策使得只有Tesla GPU能在数据中心使用CUDA，而GTX或RTX则不允许，而Tesla与GTX和RTX相比并没有真正的优势，价格却高达10倍。

AMD功能强大，但缺少足够的支持。AMD GPU具有16位计算能力，但是跟NVIDIA GPU的Tensor内核相比仍然有差距。

Google TPU具备很高的成本效益。由于TPU具有复杂的并行基础结构，因此如果使用多个云TPU（相当于4个GPU），TPU将比GPU具有更大的速度优势。因此，就目前来看，TPU更适合用于训练卷积神经网络。

3 多GPU并行加速

卷积网络和循环网络非常容易并行，尤其是在仅使用一台计算机或4个GPU的情况下。TensorFlow和PyTorch也都非常适合并行递归。但是，包括transformer在内的全连接网络通常在数据并行性方面性能较差，因此需要更高级的算法来加速。如果在多个GPU上运行，应该先尝试在1个GPU上运行，比较两者速度。由于单个GPU几乎可以完成所有任务，因此，在购买多个GPU时，更好的并行性（如PCIe通道数）的质量并不是那么重要。

4 性能评测

1）来自Tim Dettmers的成本效益评测^[1]
https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
卷积网络（CNN），递归网络（RNN）和transformer的归一化性能/成本数（越高越好）。RTX 2060的成本效率是Tesla V100的5倍以上。对于长度小于100的短序列，Word RNN表示biLSTM。使用PyTorch 1.0.1和CUDA 10进行基准测试。

从这些数据可以看出，RTX 2060比RTX 2070，RTX 2080或RTX 2080 Ti具有更高的成本效益。原因是使用Tensor Cores进行16位计算的能力比仅仅拥有更多Tensor Cores内核要有价值得多。

2）来自Lambda的评测^[2,3]
https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/
https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/

GPU平均加速/系统总成本

GPU性能，以每秒处理的图像为单位

以 Quadro RTX 8000 为基准的针对Quadro RTX 8000的图像模型训练吞吐量

3) 来自知乎@Aero的「在线」GPU评测^[4]
https://www.zhihu.com/question/299434830/answer/1010987691

大家用的最多的可能是Google Colab，毕竟免费，甚至能选TPU

不过现在出会员了：
免费版主要是K80，有点弱，可以跑比较简单的模型，有概率分到T4，有欧皇能分到P100。

付费就能确保是T4或者P100，一个月10美元，说是仅限美国。

Colab毕竟是Google的，那么你首先要能连得上google，并且得网络稳定，要是掉线很可能要重新训练，综合来看国内使用体验不太好。

下一个是百度AI Studio：

免费送V100时长非常良心，以前很多人自己装tensorflow用，但是现在已经不允许了，实测tensorflow pytorch都不给装，必须得用paddlepaddle。那么习惯paddlepaddle的用户完全可以选这个，其他人不适合。

不过似乎GPU不太够，白天一直提醒高峰期，真到了22点后才有。

国外的还有vast.ai：

5 建议

1）来自Tim Dettmers的建议

总体最佳GPU：RTX 2070 GPU
避免使用：任何Tesla；任何Quadro；任何Founders Edition；Titan RTX，Titan V，Titan XP
高效但价格昂贵：RTX 2070
高效且廉价：RTX 2060，GTX 1060（6GB）
价格实惠：GTX 1060（6GB）
价格低廉：GTX 1050 Ti（4GB）。或者：CPU（原型设计）+ AWS / TPU（培训）；或Colab。
适合Kaggle比赛：RTX 2070
适合计算机视觉研究人员：GTX 2080 Ti，如果训练非常大的网络，建议使用RTX Titans

2）来自Lambda的建议

截至2020年2月，以下GPU可以训练所有SOTA语言和图像模型：

RTX 8000：48 GB VRAM
RTX 6000：24 GB VRAM
Titan RTX：24 GB VRAM

具体建议：

RTX 2060（6 GB）：适合业余时间探索深度学习。
RTX 2070或2080（8 GB）：适合深度学习专业研究者，且预算为4-6k
RTX 2080 Ti（11 GB）：适合深度学习专业研究者，而您的GPU预算约为8-9k。RTX 2080 Ti比RTX 2080快40％。
Titan RTX和Quadro RTX 6000（24 GB）：适合广泛使用SOTA型号，但没有用于RTX 8000足够预算的研究者。
Quadro RTX 8000（48 GB）：价格相对较高，但性能卓越，适合未来投资。

参考文献
[1] https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
[2] https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/
[3] https://lambdalabs.com/blog/choosing-a-gpu-for-deep-learning/
[4] https://www.zhihu.com/question/299434830/answer/1010987691
本文仅做学术分享，如有侵权，请联系删文。

来源：ALOT工业检测

申明：感谢原创作者的辛勤付出。本号转载的文章均会在文中注明，若遇到版权问题请联系我们处理。

----与智者为伍为创新赋能----

【说明】欢迎企业和个人洽谈合作，投稿发文。欢迎联系我们

诚招运营合伙人，对新媒体感兴趣，对光电产业和行业感兴趣。非常有意者通过以下方式联我们！条件待遇面谈

投稿丨合作丨咨询

联系邮箱：uestcwxd@126.com

QQ：493826566

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

今日光电

进入专栏

评论

今日光电

文章：1889篇粉丝：11人

最近文章

广告

推荐

【TI资料】专为高压系统设计的新型MCU

【应用手册】TI 全新MCU及C29内核的能源设施应用方案

TI MCU方案：电动汽车实时控制

【免注册下载】创新MCU提升高压系统的实时性能

在线研讨会

EE直播间

精密半导体参数测试解决方案直播时间：01月08日 10:00

E聘热招职位

资料

文库

帖子

博文

分享到

评论

点赞