Twitter Boosts Performance and Cost Efficiency

Twitter increases Hadoop performance and cost efficiency with caching, fast SSDs and more compute.

At a Glance:

  • Twitter uses Hadoop* for storing data and performing advanced analytics to generate important business insights.

  • Twitter expects that caching temporary data with Intel® SSDs based on Intel® 3D NAND Technology and increasing core counts with 2nd Gen Intel® Xeon® Scalable processors will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Executive Overview

Storage I/O can be a significant performance bottleneck for Hadoop* clusters, especially in hyperscale deployments like those at Twitter, where a single cluster can have up to 10,000 nodes and nearly 100 PB of logical storage. The typical Hadoop cluster at Twitter contains over 100,000 hard disk drives (HDDs)—but this configuration was reaching an I/O performance limit because while HDD capacity has increased over time, HDD performance has not significantly changed.2 Therefore, simply adding more, bigger HDDs wasn’t going to solve Twitter’s scaling challenges—in fact, it would make things worse as the I/O per GB decreases. Adding more spindles per node was not feasible due to space and power limitations.

Working in collaboration with an Intel engineering team, Twitter engineers conducted a series of experiments that revealed that storing temporary files managed by YARN* (Yet Another Resource Negotiator*) on a fast SSD enabled significant performance improvements on existing hardware (up to a 50 percent reduction in runtime).3 The team also discovered that removing a storage I/O bottleneck enabled them to use larger hard drives while simultaneously increasing processor utilization, which in turn resulted in the ability to use higher-core-count processors. This positively affected storage performance, and contributed to higher data center density by reducing the number of required HDDs.

Higher density leads to total cost of ownership (TCO) savings through energy efficiency, fewer racks, and a smaller data center footprint. Overall, Twitter expects that caching temporary data and increasing core counts will result in approximately 30 percent lower TCO and over 50 percent faster runtimes, compared to their legacy production cluster configuration.1

Read the white paper - Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Download the PDF ›

Explore Related Products and Solutions

ข้อมูลผลิตภัณฑ์และประสิทธิภาพ

1

ตัวอ้างอิง: โปรเซสเซอร์ Intel® Xeon® E3-1230 เวอร์ชัน 6 ซ็อกเก็ตเดี่ยว (4 คอร์), แรม 32 ถึง 64 GB, 1x ฮาร์ดดิสก์ไดรฟ์ 1 TB หรือ 2 TB, ดิสก์สำหรับเริ่มต้นระบบ Intel S4500 240 GB, อีเธอร์เน็ต 1 GbE ถึง 10 GbE, ไม่มีแคช ตัวทดสอบ: โปรเซสเซอร์ Intel® Xeon® Gold 6262 ซ็อกเก็ตเดี่ยว (24 คอร์), แรม 192 GB, ดิสก์สำหรับเริ่มต้นระบบ Intel S4500 240 GB, 8x ฮาร์ดดิสก์ไดรฟ์ 6 TB, 1x Intel® SSD DC P4610 6.4 TB, อีเธอร์เน็ต 5 GbE, แคชโดยใช้ซอฟท์แวร์ Intel® Cache Acceleration Software (Intel® CAS) OS: Twitter CentOS* 6 Derivative, เวอร์ชั่น Kernel 2.6.74-t1.el6.x86_64 (อิงตามอัพสตรีม 4.14.12 Kernel), เวอร์ชั่น BIOS: D3WWM11, เวอร์ชั่น Microcode: 0xb000021

2

Backblaze กันยายน 2018 “ฮาร์ดดิสก์ไดรฟ์ (HDD) กับไดรฟ์โซลิดสเตต (SSD): มีความแตกต่างกันอย่างไร” https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/

3

ตัวอ้างอิง: โปรเซสเซอร์ Intel® Xeon® E5-2630 เวอร์ชั่น 4 @ 2.2 GHz ซ็อกเก็ตคู่ (10 คอร์/20 เธรดต่อซ็อกเก็ต) แรม 128 GB, 12x 6 TB 7200 RPM SATA HDD, 1x ดิสก์สำหรับเริ่มต้นระบบ SATA SSD, อีเธอร์เน็ต 25 GbE, 102 โหนดกระจายทั่ว 6 แร็ค ปริมาณงาน: Gridmix* และ Terasort* คะแนน Gridmix: 3309 วินาที คะแนน Terasort: 5504 วินาที ตัวทดสอบ: โปรเซสเซอร์ Intel® Xeon® E5-2630 เวอร์ชั่น 4 @ 2.2 GHz ซ็อกเก็ตคู่ (10 คอร์/20 เธรดต่อซ็อกเก็ต) แรม 128 GB, 12x 6 TB 7200 RPM SATA HDD, 1x ดิสก์สำหรับเริ่มต้นระบบ SATA SSD, 1x 750 GB Intel® Optane™ DC P4800X NVMe* ที่ใช้ SSD, อีเธอร์เน็ต 25 GbE, 102 โหนดกระจายทั่ว 6 แร็ค ปริมาณงาน: Gridmix และ Terasort คะแนน Gridmix: 2396 วินาที คะแนน Terasort: 2640 วินาที OS: Twitter CentOS* 6 Derivative และ Kernel