美国采购网DealABC_工业品给世界动力,艺术品给世界温暖

 找回密码
 立即注册

AMD EPYC服务器福音:深度学习和加密货币挖矿技巧

2018-2-6 17:19| 发布者: dealabc_admin| 查看: 533| 评论: 0

摘要: AMD EPYC服务器福音:深度学习和加密货币挖矿技巧 【美国华人网综合报道】目前,AMD EPYC有可能使用比Intel平台更多的PCIe通道进行GPU连接。 自从AMD EPYC在2017年年 ...
AMD EPYC服务器福音:深度学习加密货币挖矿技巧
美国华人网综合报道】目前,AMD EPYC有可能使用比Intel平台更多的PCIe通道进行GPU连接。 自从AMD EPYC在2017年年中推出以来,最大的问题之一就是使用平台的PCIe通道用于GPU。 我们最近有机会采用nVIDIA GPU,并为我们的一个DemoEval客户进行设置。 在这个过程中,我们学到了一些我们想分享的技巧。
测试配置
这是我们正在使用的服务器:
Supermicro 2U Ultra EPYC服务器(AS-2023US)
CPU:2x AMD EPYC 7601 32核/ 64线程CPU
内存:256GB(16x16GB DDR4-2666)
OS SSD:Intel DC S3710 400GB
NIC:Mellanox ConnectX-3 Pro 40GbE
GPU:NVIDIA GeForce GTX 1070 Ti 8GB
几个提示。在服务器中使用NVIDIA GeForce GTX系列GPU是一个小挑战。 NVIDIA在最近的Tesla和GRID GPU世代中改变了GPU电源连接器,以最大限度地减少布线。 服务器供应商通常有合适的电源线来完成这项工作。 我们不得不借助Supermciro帮助我们找到正确的线。
自Intel Xeon E5 V3 / V4以来,许多主要制造商的2U服务器在其PCB上都有GPU电源接头。 在使用合适的电源线之后,我们可以将测试的NVIDIA GeForce GTX GPU安装到其中一个中。
尽管您可以告诉GTX系列GPU的顶部电源连接器可以紧密配合,但是立管仍然可以很好地固定在系统中。
NVIDIA-GeForce-GTX-1070-Ti-in-Supermicro-Ultra-2U.jpg
我们可以看到我们的AMD EPYC测试系统中的GPU安装在PSU的正上方(我们在这里使用了一个略微更好的电源效率)。
总的来说,我们拥有合适的电源线之后,安装GPU的过程很简单。
第二个注意事项是我们在AMD EPYC上使用我们的标准脚本下载和安装最新的NVIDIA驱动程序时遇到了问题。 我们下载的驱动程序运行文件不适用于此服务器或其他AMD EPYC服务器。
一个简单的解决方法是使用图形PPA和从那里安装。 如果卡住了,这是设置工作的一个快速方法。
AMD EPYC和NVIDIA测试Tensorflow和加密货币开采
对于那些想知道我们为什么要使用NVIDIA GTX 1070 Ti的人来说,这是一个我们的DemoEval客户之一配置的GPU,并且我们已经准备好了。我们在AMD EPYC系统上使用了我们的标准Tensorflow GAN训练图像以及Zcash采矿模拟测试。
在Tensorflow方面,我们注意到性能略低于我们原先的预期。我们的Tensorflow镜像被设置为在单根PCIe系统上和Intel Xeon CPU上使用。 因此,它会自动将自己配置为固定到第一个NUMA节点。
在我们的Supermicro测试系统中,我们使用的PCIe 3.0 x16通道连接到AMD EPYC系统上不同的NUMA节点。 这是AMD架构的正常结果。
我们决定测试将NVIDIA GeForce GTX 1070 Ti GPU连接到相同的NUMA节点和不同的NUMA节点时,性能会发生什么变化。
我们将Docker容器更改为在GPU所连接的NUMA节点上运行(与NUMA相同),并在Tensorflow培训中加速了6.5%。
在性能方面这是一个大问题,也是为什么我们看到深入的学习/ AI数据科学家非常在意NUMA节点。
由于我们需要遵循NVIDIA EULA for CUDA 9,所以我们“将服务器移到了数据中心”,我们可以在那里运行CUDA,在数据中心进行加密挖掘。
我们尝试了使用股票时钟和EWBF矿工的Zcash采矿类似的实验。
通过将docker容器固定到适当的NUMA节点,我们再次获得了1%的加速。随着挖矿的进行能看到相当可观的加速我们也使用基于Skein的算法验证了这些结果,并且通过使用正确的NUMA节点也看到了加速。
另外一个主要的注意事项是,我们使用英特尔至强系列处理器验证了这些数字,并看到CUDA 9应用程序基本上以相同的速度运行,无论它们是连接到英特尔至强或AMD EPYC CPU。这本身就是一个重要的验证。
最后的话
对于深度学习或GPU计算空间的任何人来说,这些结果都不会是开创性的。同时,这个实验也有一些影响。
这些应用程序的一个选择是使用numactl将CUDA应用程序连接到正确的AMD EPYC节点。使用nvidia-docker(2)也可以将应用程序限制到特定的NUMA节点。在性能方面,我们强烈建议,如果您使用AMD EPYC的NVIDIA CUDA应用程序,那么您将精力集中在固定的NUMA节点上。一旦你做到这一点,我们发现AMD EPYC在CUDA和NVIDIA GPU上表现良好。 EPYC具有的主要优势之一是CPU直接馈送数据的应用,而不是GPU到GPU的通信,EPYC架构有更多的PCIe通道连接到CPU。
(商业转载请联系[email protected],非商业转载请注明转自美国华人网FuninUSA。)


微信公众号搜索" FuninUSA "加关注,每日滚动更新美国市场讯息:金融、零售、批发。推荐关注!【微信扫描下图可直接关注

美国华人网微信公众号



【返利网站】返利额度最高的海外购物返利网站Topcashback:平均返利7~10%,注册就送$10点我注册
新浪微博官方账号】很省钱 : 每日滚动更新美国市场投资资讯微商进货首选资讯渠道。

鲜花

握手

雷人

路过

鸡蛋

相关阅读

关于我们|Archiver|手机版|小黑屋|美国采购网DealABC_工业品给世界动力,艺术品给世界温暖  

GMT+8, 2024-7-4 00:55 , Processed in 0.056979 second(s), 8 queries , Gzip On, Apc On.

Powered by Discuz! X3.1

© 2014-2016 Sky-Express Inc.

返回顶部