UCloud Speeds Up Packet Processing Capacity by 5x1 with Intel® Technologies

Key Takeways

  • Gaming, e-commerce and retail industries demand a huge amount of high-frequency, small-packet transmission.

  • Cloud service providers (CSPs) able to meet this demand can capitalize on significant commercial opportunities in this sector.

  • UCloud sped up the packet processing capacity of its Net-Enhanced UHost platform by 5x1 using 2nd Generation Intel® Xeon® Scalable processors, Intel® SSDs, and 25GbE Intel® Ethernet.

author-image

By

Delivering cloud services to industries such as gaming, e-commerce, and retail can be demanding. These types of businesses typically require a huge amount of high-frequency, small-packet transmission to meet their own customers’ expectations. Meeting this particular demand of these consumer-oriented businesses can be tough, and puts a strain on network I/O.

One of the leading cloud computing companies in China, UCloud, delivers cloud services to a number of consumer services businesses, providing infrastructure, platform, artificial intelligence, and big data platforms. The company wanted to improve its packet processing capacity as part of the release of its new Net-Enhanced UHost solution, to offer a faster, more competitive product to its customer base.

We chose Next-Generation Intel® Xeon® Scalable processors because they can provide us with high clock frequency and strong computing performance, allowing us to innovate around the needs of our customers. Our new Net-Enhanced UHost can effectively solve the peak demands of customers in the e-commerce and gaming industries.

By basing its Net-Enhanced UHost solution on 2nd Generation Intel® Xeon® Scalable processors, UCloud has been able to launch it with a packet processing capacity of up to 5 million packets per second (pps), five times faster than the previous generation UHost.1 In addition, UCloud has updated its infrastructure using Intel® SSDs with up to 24,000 IOPS and 25GbE Intel® Ethernet, which helps UCloud meet the surge demands of peak network traffic.

More about 2nd Generation Intel® Xeon® Scalable processors

The new 2nd Generation Intel® Xeon® Scalable processors provide the foundation for a powerful data-centric solution that creates an evolutionary leap in agility and scalability. Disruptive by design, this innovative processor sets a new level of platform convergence and capabilities across compute, storage, memory, network, and security. Enterprises and cloud and communications service providers can now drive forward their most ambitious digital initiatives with a feature-rich, highly versatile platform.

  • Up to 30x improvement in inference performance on Intel® Xeon® Platinum 9282 processor (56 cores) with Intel® Deep Learning Boost (Intel® DL Boost) for ResNet-50 (image classification workload) using Intel® Optimization for Caffe* vs. Intel® Xeon® Platinum 8180 processor at launch2
  • Up to 2x system memory capacity and support up to 36TB on 8-socket systems with Intel® Optane™ DC persistent memory3
  • Up to 2x average generational gains on 2-socket servers with new Intel® Xeon® Platinum 9200 processor4
  • Up to 1.33x average generational gains on Intel® Xeon® Gold processor5

Notices and Disclaimers

Software and workloads used in performance tests may have been optimized for performance only on Intel® microprocessors. // Performance tests, such as SYSmark and MobileMark, are measured using specific computer systems, components, software, operations, and functions. Any change to any of those factors may cause the results to vary. You should consult other information and performance tests to assist you in fully evaluating your contemplated purchases, including the performance of that product when combined with other products. For more complete information visit http://www.thailand.intel.com/performance. // Intel does not control or audit third-party benchmark data or the web sites referenced in this document. // Performance results are based on testing as of the date set forth in the configurations and may not reflect all publicly available security updates. See configuration disclosure for details. No product or component can be absolutely secure. // Intel does not control or audit third-party data. You should review this content, consult other sources, and confirm whether referenced data are accurate. // Intel® technologies' features and benefits depend on system configuration and may require enabled hardware, software or service activation. Performance varies depending on system configuration. No product or component can be absolutely secure. Check with your system manufacturer or retailer or learn more at thailand.intel.com. // Intel, the Intel logo, Xeon, and Optane are trademarks of Intel Corporation or its subsidiaries in the U.S. and/or other countries. // *Other names and brands may be claimed as the property of others. // © Intel Corporation.

ข้อมูลผลิตภัณฑ์และประสิทธิภาพ

1

UCloud เป็นผู้ให้ผลลัพธ์โดยอ้างอิงจากการทดสอบภายใน หากต้องการข้อมูลเพิ่มเติม โปรดติดต่อ UCloud

2

ปรับปรุงทรูพุตการอนุมาน 30 เท่าในโปรเซสเซอร์ Intel® Xeon® Platinum 9282 ที่มี Intel® Deep Learning Boost (Intel® DL Boost): ทดสอบโดย Intel เมื่อวันที่ 26/2/2019 แพลตฟอร์ม: โปรเซสเซอร์ Intel® Xeon® Platinum 9282 (56 คอร์ต่อซ็อกเก็ต) Dragon rock 2 ซ็อกเก็ต, เปิด HT, เปิดเทอร์โบ, หน่วยความจำทั้งหมด 768 GB (24 ช่อง/ 32 GB/ 2933 MHz), BIOS: SE5C620.86B.0D.01.0241.112020180249, CentOS* 7 Kernel 3.10.0-957.5.1.el7.x86_64, เฟรมเวิร์คการเรียนรู้เชิงลึก: Intel® Optimization for Caffe* เวอร์ชั่น: https://github.com/intel/caffe d554cbf1, ICC 2019.2.187, MKL DNN เวอร์ชั่น: v0.17 (คอมมิทแฮช: 830a10059a018cd2634d94195140cf2d8790a75a), โมเดล: https://github.com/intel/caffe/blob/master/models/intel_optimized_models/int8/resnet50_int8_full_conv.prototxt, BS=64, ไม่มี datalayer synthetic Data: 3x224x224, 56 อินสแตนซ์/2 ซ็อกเก็ต, ชุดข้อมูล: INT8 เปรียบเทียบกับการทดสอบโดย Intel เมื่อวันที่ 11 กรกฎาคม 2017: CPU โปรเซสเซอร์ Intel® Xeon® Platinum 8180 2S @ 2.50GHz (28 คอร์), ปิด HT, ปิดเทอร์โบ, ตั้งตัวควบคุมการปรับขยายเป็น “ประสิทธิภาพ” ผ่านไดรเวอร์ intel_pstate driver, 384GB DDR4-2666 ECC RAM CentOS* Linux รีลีส 7.3.1611 (คอร์), Linux kernel 3.10.0-514.10.2.el7.x86_64 SSD: ไดร์ฟ Intel® Solid State DC ซีรี่ส์ S3700 (800 GB, 2.5in SATA 6Gb/s, 25nm, MLC) วัดประสิทธิภาพด้วย: ตัวแปรสภาพแวดล้อม: KMP_AFFINITY='granularity=fine, compact‘, OMP_NUM_THREADS=56, ความเร็วของ CPU ตั้งด้วย cpupower frequency-set -d 2.5G -u 3.8G -g performance Caffe: (http://github.com/intel/caffe/), การปรับปรุงแก้ไข f96b759f71b2281835f690af267158b82b150b5c. วัดการอนุมานด้วยคำสั่ง “caffe time --forward_only” วัดการฝึกฝนด้วยคำสั่ง “caffe time” มีการใช้ชุดข้อมูลสังเคราะห์สำหรับทอพอโลยี “ConvNet” สำหรับทอพอโลยีอื่นๆ จะมีการจัดเก็บข้อมูลในอุปกรณ์จัดเก็บข้อมูลบนเครื่อง และแคชมาในหน่วยความจำก่อนการฝึก ข้อมูลจำเพาะทอพอโลยีจาก https://github.com/intel/caffe/tree/master/models/intel_optimized_models (ResNet-50) Intel® C++ คอมไพเลอร์เวอร์ชัน 17.0.2 20170213, Intel® Math Kernel Library (Intel® MKL) เวอร์ชั่นไลบรารีขนาดเล็ก 2018.0.20170425 รัน Caffe ด้วย “numactl -l“

3

ความจุหน่วยความจำระบบเพิ่มขึ้น 2 เท่าที่กำหนดโดย 50% ของช่องหน่วยความจำที่มีหน่วยความจำถาวร Intel® Optane™ DC ซึ่งใช้ผลิตภัณฑ์ที่รวมกันถึง 2 เท่าของความจุสูงสุดของความจุ DRAM ทั้งหมด ตัวอย่างสำหรับระบบ 8S ที่มีช่องหน่วยความจำ 96 ช่อง: ความจุ 36TB = 48 ช่องที่มีโมดูลหน่วยความจำถาวร Intel® Optane™ DC ขนาด 512GB และ 48 ช่องที่มี DRAM DIMM ขนาด 256GB

4

ประโยชน์ของรุ่นโดยเฉลี่ยคูณสอง: บนเซิร์ฟเวอร์ 2 ซ็อกเก็ตที่มีโปรเซสเซอร์ Intel® Xeon® Platinum 9200 เจเนอเรชัน 2 Geomean of est SPECrate2017_int_base, est SPECrate2017_fp_base, STREAM-Triad, Intel® Distribution สำหรับมาตรฐาน LINPACK*, Java* ฝั่งเซิร์ฟเวอร์ Platinum 92xx เทียบกับ Platinum 8180 พื้นฐาน: 1 โหนด, 2x โปรเซสเซอร์ Intel® Xeon® Platinum 8180 บน Wolf Pass กับหน่วยความจำทั้งหมด 384 GB (12 X 32GB 2666), ucode 0x200004D บน RHEL7.6, 3.10.0-957.el7.x86_64, IC19u1, AVX512, HT บน (off Stream, LINPACK) ทั้งหมด, เทอร์โบบน (off Stream, LINPACK) ทั้งหมด, ผลลัพธ์: Est int throughput=307, est fp throughput=251, STREAM-Triad=204, LINPACK=3238, Java ฝั่งเซิร์ฟเวอร์=165724, ทดสอบโดย Intel ในวันที่ 1/29/2019 การกำหนดค่าใหม่: 1 โหนด, 2x โปรเซสเซอร์ Intel® Xeon® Platinum 9282 บน Walker Pass กับหน่วยความจำทั้งหมด 768 GB (24x 32GB 2933), ucode 0x400000A บน RHEL7.6, 3.10.0-957.el7.x86_64, IC19u1, AVX512, HT บน (off Stream, LINPACK) ทั้งหมด, เทอร์โบบน (off Stream, LINPACK) ทั้งหมด, ผลลัพธ์: Est int throughput=635, est fp throughput=526, STREAM-Triad=407, LINPACK=6411, Java ฝั่ง Java=332913, ทดสอบโดย Intel ในวันที่ 2/16/2019

5

ประโยชน์ของรุ่นโดยเฉลี่ยสูงสุด 33% (1.33x) บนเมนสตรีม CPU โปรเซสเตอร์ Intel® Xeon® Gold: Geomean of est SPECrate2017_int_base, est SPECrate2017_fp_base, STREAM-Triad, Intel® Distribution สำหรับมาตรฐาน LINPACK*, Java* ฝั่งเซิร์ฟเวอร์ Gold 5218 เทียบกับ Gold 5118 พื้นฐาน: โปรเซสเซอร์ Intel® Xeon® Gold 5118 1 โหนด 2 ตัวบน Wolf Pass ที่มีหน่วยความจำทั้งหมด 384 GB (12 X 32GB 2666 (2400)), ucode 0x200004D บน RHEL7.6, 3.10.0-957.el7.x86_64, IC18u2, AVX2, HT บน (off Stream, Linpack) ทั้งหมด, เปิดเทอร์โบ, ผลลัพธ์: ทรูพุตภายในโดยประมาณ=119, ทรูพุต FP โดยประมาณ=134, Stream Triad=148.6, Linpack=822, Java ฝั่งเซิร์ฟเวอร์=67434, ทดสอบโดย Intel เมื่อวันที่ 12/11/2018 การกำหนดค่าใหม่:โปรเซสเซอร์ Intel® Xeon® Gold 5218 1 โหนด 2 ตัวบน Wolf Pass ที่มีหน่วยความจำทั้งหมด 384 GB (12 X 32GB 2933 (2666)), ucode 0x4000013 บน RHEL7.6, 3.10.0-957.el7.x86_64, IC18u2, AVX2, เปิด HT ทั้งหมด (off Stream, Linpack), เปิดเทอร์โบ, ผลลัพธ์: ทรูพุตภายในโดยประมาณ=162, ทรูพุต FP โดยประมาณ=172, Stream Triad=185, Linpack=1088, Java ฝั่งเซิร์ฟเวอร์=98333, ทดสอบโดย Intel เมื่อวันที่ 12/7/2018