MLPerf Results Validate CPUs for Deep Learning Training

Authors

  • Vice President, Core and Visual Computing Group, and General Manager, Machine Learning and Translation - Wei Li

author-image

โดย

I have worked on optimizing and benchmarking computer performance for more than two decades, on platforms ranging from supercomputers and database servers to mobile devices. It is always fun to highlight performance results for the product you are building and compare them with others in the industry. SPEC*, LINPACK*, and TPC* have become familiar names to many of us. Now, MLPerf* is filling in the void of benchmarking for Machine Learning.

I am excited to see the Intel® Xeon® Scalable processor MLPerf results submitted by our team because we work on both the user side and the computer system development side of deep learning. These results show that Intel® Xeon® Scalable processors have surpassed a performance threshold where they can be an effective option for data scientists looking to run multiple workloads on their infrastructure without investing in dedicated hardware.1 2 3

Back in 2015, I had a team working on mobile devices. We had to hire testers to manually play mobile games. It was fun initially for the testers, then it became boring and costly. One tester we hired quit on the same day. Our team created a robot to test mobile games and adopted deep learning. Our game testing robot played games automatically and found more bugs than human testers. We wanted to train neural networks on the machines we already had in the lab, but they were not fast enough. I had to allocate budget for the team to buy a GPU, an older version than the MLPerf reference GPU.4

Today CPUs are capable of deep learning training as well as inference. Our MLPerf Intel® Xeon® Scalable processor results compare well with the MLPerf reference GPU4 on a variety of MLPerf deep learning training workloads.1 2 3 For example, the single-system two-socket Intel® Xeon® Scalable processor results submitted by Intel achieved a score of 0.85 on the MLPerf Image Classification benchmark (Resnet-50)1; 1.6 on the Recommendation benchmark (Neural Collaborative Filtering NCF)2; and 6.3 on Reinforcement Learning benchmark (mini GO).3 In all these scores, 1.0 is defined as the score of the reference implementation on the reference GPU.4 For all the preceding results, we use FP32, the common numerical precision used in today’s market. From these MLPerf results, we can see that our game testing robot could easily train on Intel® Xeon® Scalable processors today.

The deep learning and machine learning world continues to evolve from image processing using Convolutional Neural Networks (CNN) and natural language processing using Recurrent Neural Networks (RNN) to recommendation systems using MLP layers and general matrix multiply, reinforcement learning (mixing CNN and simulation) and hybrid models mixing deep learning and classical machine learning. A general purpose CPU is very adaptable to this dynamically changing environment, in addition to running existing non-DL workloads.

Enterprises have adopted CPUs for deep learning training. For example, today, Datatonic* published a blog showing up to 11x cost and 57 percent performance improvement when running a neural network recommender system used in production by a top-5 UK retailer on a Google Cloud* VM powered by Intel® Xeon® Scalable processors.5 CPUs can also accommodate the large memory models required in many domains. The pharmaceutical company Novartis used Intel® Xeon® Scalable processors to accelerate training for a multiscale convolutional neural network (M-CNN) for 10,000 high-content cellular microscopic images, which are much larger in size than the typical ImageNet* images, reducing time to train from 11 hours to 31 minutes.6

High performance computing (HPC) customers use Intel® Xeon® processors for distributed training, as showcased at Supercomputing 2018. For instance, GENCI/CINES/INRIA trained a plant classification model for 300K species on a 1.5TByte dataset of 12 million images using 128 2S Intel® Xeon® processor-based systems.7 DELL EMC* and SURFSara used Intel® Xeon® processors to reduce training time to 11 minutes for a DenseNet-121 model.8 CERN* showcased distributed training using 128 nodes of the TACC Stampede 2 cluster (Intel® Xeon® Platinum 8160 processor, Intel® OPA) with a 3D Generative Adversarial Network (3D GAN) achieving 94% scaling efficiency.9 Additional examples can be found at https://software.intel.com/en-us/articles/intel-processors-for-deep-learning-training.

CPU hardware and software performance for deep learning has increased by a few orders of magnitude in the past few years. Training that used to take days or even weeks can now be done in hours or even minutes. This level of performance improvement was achieved through a combination of hardware and software. For example, current-generation Intel® Xeon® Scalable processors added both the Intel® Advanced Vector Extensions 512 (Intel® AVX-512) instruction set (longer vector extensions) to allow a large number of operations to be done in parallel, and with a larger number of cores, essentially becoming a mini-supercomputer. The next-generation Intel® Xeon® Scalable processor adds Intel® Deep Learning Boost (Intel® DL Boost): higher throughput, lower numerical precision instructions to boost deep learning inference. On the software side, the performance difference between the baseline open source deep learning software, and the Intel-optimized software can be up to 275X10 on the same Intel® Xeon® Scalable processor (as illustrated in a demo I showed at the Intel Architecture Day forum yesterday).

Over the past few years, Intel has worked with DL framework developers to optimize many popular open source frameworks such as TensorFlow*, Caffe*, MXNet*, PyTorch*/Caffe2*, PaddlePaddle* and Chainer*, for Intel® processors. Intel has also designed a framework, BigDL for SPARK*, and the Intel® Deep Learning Deployment Toolkit (DLDT) for inference. Since the core computation is linear algebra, we have created a new math library, Intel® Math Kernel Library for Deep Neural Networks (Intel® MKL-DNN), specifically for deep learning, based on many years of experience with the Intel® Math Kernel Library (MKL) for high performance computing (HPC). The integration of Intel MKL-DNN into the frameworks, and the additional optimizations contributed to the frameworks to fully utilize the underlying hardware capabilities, are the key reason for the huge software performance improvement.

I’ve often been asked whether CPUs are faster or slower than accelerators. Of course, accelerators have certain advantages. For a specific domain, if an accelerator is not generally faster than a CPU, then it is not much of an accelerator. Even so, given the increasing variety of deep learning workloads, in some cases, a CPU may be as fast or faster while retaining that flexibility that is core to the CPU value proposition. Thus, the more pertinent question is whether CPUs can run deep learning well enough to be an effective option for customers that don’t wish to invest in accelerators. These initial MLPerf results1 2 3, as well as our customer examples, show that CPUs can indeed be effectively used for training. Intel’s strategy is to offer both general purpose CPUs and accelerators to meet the machine learning needs of a wide range of customers.

Looking forward, we are continuing to add new AI and deep learning features to our future generations of CPUs, like Intel® Deep Learning Boost (Intel® DL Boost), plus bfloat16 for training, as well as additional software optimizations. Please stay tuned. For more information on Intel® software optimizations, see ai.intel.com/framework-optimizations. For more information on Intel® Xeon® Scalable processors, see thailand.intel.com/xeonscalable.

ข้อมูลผลิตภัณฑ์และประสิทธิภาพ

1

ทำคะแนน 0.85 บนการวัดประสิทธิภาพการจำแนกรูปภาพ MLPerf (Resnet-50) ซึ่งเป็น 0.85X เท่าของค่ามาตรฐาน MLPerf(+) โดยใช้โปรเซสเซอร์ Intel® Xeon® Platinum 8180 จำนวน 2 ชิป MLPerf v0.5 Training Closed Division ใช้ระบบการปรับประสิทธิภาพ Intel® สำหรับ Caffe* 1.1.2a ที่มีไลบรารี Intel® Math Kernel Library for Deep Neural Networks (Intel® MKL-DNN) v0.16 ดึงข้อมูลจาก www.mlperf.org 12 ธันวาคม 2018, Entry 0.5.6.1 ชื่อและโลโก้ MLPerf เป็นเครื่องหมายการค้า ดูข้อมูลเพิ่มเติมที่ www.mlperf.org

2

ทำคะแนน 1.6 บนการวัดประสิทธิภาพที่แนะนำ (Neural Collaborative Filtering NCF) ซึ่งเป็น 1.6X เท่าของค่ามาตรฐาน MLPerf(+) โดยใช้โปรเซสเซอร์ Intel® Xeon® Platinum 8180 จำนวน 2 ชิป MLPerf v0.5 Training Closed Division; ระบบใช้ Framework BigDL 0.7.0 ดึงข้อมูลจาก www.mlperf.org 12 ธันวาคม 2018, Entry 0.5.9.6 ชื่อและโลโก้ MLPerf เป็นเครื่องหมายการค้า ดูข้อมูลเพิ่มเติมที่ www.mlperf.org

3

ทำคะแนน 6.3 บนการวัดประสิทธิภาพ Reinforcement Learning (mini GO) ซึ่งเป็น 6.3X เท่าของค่ามาตรฐาน MLPerf(+) โดยใช้โปรเซสเซอร์ Intel® Xeon® Platinum 8180 จำนวน 2 ชิป MLPerf v0.5 Training Closed Division ระบบใช้ TensorFlow 1.10.1 ที่มีไลบรารี Intel® Math Kernel Library for Deep Neural Networks (Intel® MKL-DNN) v0.14 ดึงข้อมูลจาก www.mlperf.org 12 ธันวาคม 2018, Entry 0.5.10.7 ชื่อและโลโก้ MLPerf เป็นเครื่องหมายการค้า ดูข้อมูลเพิ่มเติมที่ www.mlperf.org

(+) ค่ามาตรฐาน MLPerf Baseline (ปรับใช้จาก MLPerf v0.5 Community Press Briefing): MLPerf Training v0.5 เป็นชุดการวัดประสิทธิภาพสำหรับการวัดความเร็วระบบ ML TensorFlow 1.10.1 MLPerf Training แต่ละตัวได้รับการกำหนดโดยชุดข้อมูลและเป้าหมายคุณภาพ MLPerf Training ให้การปรับใช้การอ้างอิงสำหรับการวัดประสิทธิภาพแต่ละตัวที่ใช้แบบจำลองเฉพาะ ตารางต่อไปนี้สรุปการวัดประสิทธิภาพเจ็ดการวัดในเวอร์ชั่น v0.5 ของชุดซอฟต์แวร์นี้

การวัดประสิทธิภาพ

ชุดข้อมูล

เป้าหมายคุณภาพ

โมเดลการปรับใช้การอ้างอิง

การจำแนกรูปภาพ

ImageNet

การจำแนก 74.90%

Resnet-50 v1.5

การตรวจจับวัตถุ (น้ำหนักเบา)

COCO 2017

21.2% mAP

SSD (Resnet-34 backbone)

การตรวจจับวัตถุ (น้ำหนักมาก)

COCO 2017

0.377 Box min AP, 0.339 Mask min AP

Mask R-CNN

การแปลภาษา (เกิดขึ้นซ้ำ)

WMT อังกฤษ-เยอรมัน

21.8 BLEU

การแปล Neural Machine

การแปลภาษา (ไม่เกิดขึ้นซ้ำ)

WMT อังกฤษ-เยอรมัน

25.0 BLEU

Transformer

คำแนะนำ

MovieLens-20M

0.635 HR@10

Neural Collaborative Filtering

Reinforcement Learning

เกมเมอร์มืออาชีพ

การคาดการณ์การเคลื่อนที่ 40.00%

Mini Go


กฎของ MLPerf Training: https://github.com/mlperf/training_policies/blob/master/training_rules.adoc

4

ระบบอ้างอิง MLPerf*: การกำหนดค่าจองแพลตฟอร์ม Google Cloud: 16 vCPU, Intel Skylake หรือใหม่กว่า, 60 GB RAM (n1­standard­16), 1 NVIDIA* Tesla* P100 GPU, CUDA* 9.1 (9.0 สำหรับ TensorFlow*), nvidia­docker2, Ubuntu* 16.04 LTS, Pre­emtibility: ปิด, การรีสตาร์ทอัตโนมัติ: ปิด, บูตดิสก์ 30GB + 1 ดิสก์แบบ SSD ถาวร 500 GB, docker* image: 9.1­cudnn7­runtime­ubuntu16.04 (9.0­cudnn7­devel­ubuntu16.04 สำหรับ TensorFlow*)

6

Novartis: วัดประสิทธิภาพเมื่อวันที่ 25 พฤษภาคม 2018 อิงตามความที่เพิ่มขึ้นสำหรับโหนด 8 โหนดที่เกี่ยวเนื่องกับโหนดเดียว การกำหนดค่าโหนด: CPU: โปรเซสเซอร์ Intel® Xeon® Gold 6148 @ 2.4GHz, หน่วยความจำ 192GB, Hyper-threading: เปิดใช้ NIC: Intel® Omni-Path Host Fabric Interface (Intel® OP HFI), TensorFlow: v1.7.0, Horovod: 0.12.1, OpenMPI: 3.0.0 OS: CentOS* 7.3, OpenMPU 23.0.0, Python 2.7.5 เวลาในการฝึกฝนเพื่อให้บรรจบที่ความแม่นยำ 99% ในแบบจำลอง แหล่งข้อมูล: https://newsroom.intel.com/news/using-deep-neural-network-acceleration-image-analysis-drug-discovery

7

GENCI: Occigen: 3306 โหนด x 2 โปรเซสเซอร์ Intel® Xeon® (12-14 คอร์) โหนดประมวลผล: โปรเซสเซอร์ Intel® Xeon® 2 ซ็อกเก็ตที่แต่ละซ็อกเก็ตมี 12 คอร์ @ 2.70GHz ซึ่งรวมแล้วมี 24 คอร์ต่อโหนด, 2 เธรดต่อคอร์, DDR4 96 GB, Mellanox InfiniBand Fabric Interface, รางคู่ ซอฟต์แวร์: Intel® MPI Library 2017 Update 4 Intel® MPI Library 2019 Technical Preview OFI 1.5.0PSM2 ที่มี Multi-EP, 10 Gbit Ethernet, SSD ในเครื่อง 200 GB , Red Hat* Enterprise Linux 6.7 Caffe*: Intel® Optimization for Caffe*: https://github.com/intel/caffe Intel® Machine Learning Scaling Library (Intel® MLSL): https://github.com/intel/MLSL ชุดข้อมูล: Pl@ntNet: ผลลัพธ์ประสิทธิภาพของชุดข้อมูลภายใน CINES/GENCI เป็นไปตามการทดสอบ ณ วันที่ 15/10/2018

8

ความร่วมมือระหว่าง Intel, Dell และ Surfsara: วัดประสิทธิภาพเมื่อวันที่ 17/5/2018 ใน 256 โหนดของโปรเซสเซอร์ Intel® Xeon® Gold 6148 2 ซ็อกเก็ต โหนดประมวลผล: โปรเซสเซอร์ Intel® Xeon® Gold 6148F 2 ซ็อกเก็ตที่แต่ละซ็อกเก็ตมี 20 คอร์ @ 2.40GHz ซึ่งรวมแล้วมี 40 คอร์ต่อโหนด, 2 เธรดต่อคอร์, L1d 32K; แคช L1i 32K; แคช L2 1024K; แคช L3 33792K, DDR4 96 GB, Intel® Omni-Path Host Fabric Interface (Intel® OP HFI), รางคู่ ซอฟต์แวร์: Intel® MPI Library 2017 Update 4 Intel® MPI Library 2019 Technical Preview OFI 1.5.0PSM2 ที่มี Multi-EP, 10 Gbit Ethernet, SSD ในเครื่อง 200 GB , Red Hat* Enterprise Linux 6.7 TensorFlow* 1.6: สร้างและติดตั้งจากแหล่ง: https://www.tensorflow.org/install/install_sources โมเดล ResNet-50: ข้อมูลจำเพาะทอพอโลยีจาก https://github.com/tensorflow/tpu/tree/master/models/official/resnet DenseNet-121Model: ข้อมูลจำเพาะทอพอโลยีจาก https://github.com/liuzhuang13/DenseNet โมเดลการควบรวมและประสิทธิภาพ: https://surfdrive.surf.nl/files/index.php/s/xrEFLPvo7IDRARs ชุดข้อมูล: ImageNet2012-1K: http://www.image-net.org/challenges/LSVRC/2012 /. ChexNet*: https://stanfordmlgroup.github.io/projects/chexnet/ วัดผลประสิทธิภาพด้วย: OMP_NUM_THREADS=24 HOROVOD_FUSION_THRESHOLD=134217728 export I_MPI_FABRICS=tmi, export I_MPI_TMI_PROVIDER=psm2 \ mpirun -np 512 -ppn 2 python resnet_main.py –train_batch_size 8192 –train_steps 14075 –num_intra_threads 24 –num_inter_threads 2 — mkl=True –data_dir=/scratch/04611/valeriuc/tf-1.6/tpu_rec/train –model_dir model_batch_8k_90ep –use_tpu=False –kmp_blocktime 1 https://ai.intel.com/diagnosing-lung-disease-using-deep-learning/

9

CERN: วัดประสิทธิภาพเมื่อวันที่ 17/5/2018 ใน Stampede2/TACC: https://portal.tacc.utexas.edu/user-guides/stampede2 โหนดประมวลผล: โปรเซสเซอร์ Intel® Xeon® Platinum 8160 2 ซ็อกเก็ตที่แต่ละซ็อกเก็ตมี 24 คอร์ @ 2.10GHz ซึ่งรวมแล้วมี 48 คอร์ต่อโหนด, 2 เธรดต่อคอร์, L1d 32K; แคช L1i 32K; แคช L2 1024K; แคช L3 33792K, DDR4 96 GB, Intel® Omni-Path Host Fabric Interface (Intel® OP HFI), รางคู่ ซอฟต์แวร์: Intel® MPI Library 2017 Update 4 Intel® MPI Library 2019 Technical Preview OFI 1.5.0PSM2 ที่มี Multi-EP, 10 Gbit Ethernet, SSD ในเครื่อง 200 GB , Red Hat* Enterprise Linux 6.7 TensorFlow* 1.6: สร้างและติดตั้งจากแหล่ง: https://www.tensorflow.org/install/install_sources รุ่น: CERN* 3D GANS จาก https://github.com/sara-nl/3Dgan/tree/tf ชุดข้อมูล: CERN* 3D GANS จาก https://github.com/sara-nl/3Dgan/tree/tf วัดผลประสิทธิภาพใน 256 NodesPerformance ที่วัดใน 256 โหนดด้วย: OMP_NUM_THREADS=24 HOROVOD_FUSION_THRESHOLD=134217728 export I_MPI_FABRICS=tmi, export I_MPI_TMI_PROVIDER=psm2 \ mpirun -np 512 -ppn 2 python resnet_main.py –train_batch_size 8 \ –num_intra_threads 24 –num_inter_threads 2 –mkl=True \ –data_dir=/path/to/gans_script.py –kmp_blocktime 1 https://www.rdmag.com/article/2018/11/imagining-unthinkable-simulations-without-classical-monte-carlo

10

ประสิทธิภาพทรูพุตการอนุมานที่เพิ่มขึ้น 275 เท่าด้วย Intel® Optimization for Caffe* เมื่อเปรียบเทียบกับ BVLC-Caffe*: วัดประสิทธิภาพโดย Intel เมื่อวันที่ 12/11/2018 CPU Intel® Xeon® Platinum 8180 2S @ 2.50GHz (28 คอร์), เปิด HT, เปิดเทอร์โบ, หน่วยความจำทั้งหมด 192 GB (12 ช่อง * 16 GB, Micron 2666MHz), Intel® SSD SSDSC2KF5, Ubuntu 16.04 Kernel 4.15.0-42.generic, BIOS: SE5C620.86B.00.01.0009.101920170742 (ไมโครโค้ด: 0x0200004d), ทอพอโลยี: ค่ามาตรฐาน Resnet-50: FP32, BVLC Caffe*(https://github.com/BVLC/caffe.git) คอมมิท 99bd99795dcdf0b1d3086a8d67ab1782a8a08383 ประสิทธิภาพในปัจจุบัน: INT8, การปรับประสิทธิภาพ Intel® สำหรับ Caffe* (https://github.com/Intel/caffe.git) คอมมิท: Caffe* คอมมิท: e94b3ff41012668ac77afea7eda89f07fa360adf, คอมมิท MKLDNN: 4e333787e0d66a1dca1218e99a891d493dbc8ef1

ซอฟท์แวร์และปริมาณงานที่ใช้ในการทดสอบประสิทธิภาพจะได้รับการปรับให้ได้ประสิทธิภาพสูงสุดเฉพาะสำหรับไมโครโปรเซสเซอร์ของ Intel® เท่านั้น การทดสอบประสิทธิภาพ เช่น SYSmark* และ MobileMark* ถูกประเมินโดยใช้ระบบคอมพิวเตอร์, ส่วนประกอบ, ซอฟท์แวร์, การใช้งาน และฟังก์ชันที่เฉพาะเจาะจง การเปลี่ยนแปลงปัจจัยอันใดอันหนึ่งอาจส่งผลให้เกิดผลลัพธ์แตกต่างกัน คุณควรศึกษาข้อมูลอื่นๆ ร่วมกับการทดสอบประสิทธิภาพ เพื่อช่วยให้คุณประเมินผลประกอบการตัดสินใจซื้อได้อย่างรอบคอบ รวมถึงประสิทธิภาพของผลิตภัณฑ์ดังกล่าวเมื่อเปรียบเทียบกับผลิตภัณฑ์อื่น โปรดไปที่www.thailand.intel.com/benchmarks/เพื่อดูข้อมูลเพิ่มเติม

หมายเหตุการปรับแต่งประสิทธิภาพ: คอมไพเลอร์ของ Intel อาจจะหรืออาจจะไม่ได้รับการปรับแต่งประสิทธิภาพในระดับเดียวกันสำหรับไมโครโปรเซสเซอร์ที่ไม่ใช่ของ Intel สำหรับการปรับแต่งบางอย่างที่ไม่ใช่การปรับแต่งจำเพาะที่มีในไมโครโปรเซสเซอร์ของ Intel การปรับแต่งประสิทธิภาพเหล่านี้รวมถึงชุดคำสั่ง SSE2, SSE3, และ SSSE3 และการปรับแต่งประสิทธิภาพอื่นๆ Intel ไม่รับประกันความพร้อมใช้งาน ฟังก์ชันการทำงาน หรือความมีประสิทธิภาพของการปรับแต่งใดๆ ของไมโครโปรเซสเซอร์ที่ไม่ได้ผลิตโดย Intel การปรับแต่งประสิทธิภาพที่ขึ้นอยู่กับรุ่นของไมโครโปรเซสเซอร์ในผลิตภัณฑ์นี้ มีวัตถุประสงค์เพื่อใช้กับไมโครโปรเซสเซอร์ของ Intel การปรับแต่งประสิทธิภาพบางอย่างที่ไม่จำเพาะกับสถาปัตยกรรมไมโครของ Intel นั้นสงวนไว้สำหรับไมโครโปรเซสเซอร์ของ Intel โปรดอ้างถึงคู่มือสำหรับผู้ใช้และเพื่อการอ้างอิงที่เหมาะสม สำหรับข้อมูลเพิ่มเติม เกี่ยวกับชุดคำสั่งจำเพาะที่ครอบคลุมภายใต้คำประกาศนี้

ผลลัพธ์ประสิทธิภาพอาจไม่แสดงถึงอัพเดทความปลอดภัยที่เผยแพร่ต่อสาธารณะทั้งหมด ดูการเปิดเผยเรื่องการกำหนดค่าสำหรับรายละเอียด ไม่มีผลิตภัณฑ์ใดที่จะปลอดภัยอย่างสมบูรณ์แบบ

Intel, โลโก้ Intel, โปรเซสเซอร์ Xeon Scalable และ Deep Learning Boost เป็นเครื่องหมายการค้าของ Intel Corporation หรือบริษัทสาขาในประเทศสหรัฐอเมริกาและ/หรือประเทศอื่นๆ
*ชื่อและแบรนด์อื่นๆ อาจเป็นทรัพย์สินของผู้อื่น
© Intel Corporation