Databricks บนอินสแตนซ์ AWS R5d เทียบกับอินสแตนซ์ R5a

Databricks:

เรียกใช้งานการสืบค้นการสนับสนุนการตัดสินใจโดยใช้เวลาน้อยลงสูงสุด 76% ด้วยอินสแตนซ์ r5d.2xlarge ที่มีโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2 ที่เปิดใช้งาน Photon
ใช้ประโยชน์สูงสุด 51% ในการรันการสืบค้นการสนับสนุนการตัดสินใจด้วยอินสแตนซ์ r5d.2xlarge ที่มีโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2 ที่เปิดใช้งาน Photon

ด้วยการเปิดใช้งาน Photon Vectorized Query Engine อินสแตนซ์เหล่านี้มีความโดดเด่นอย่าง r5a.2xlarge ที่มีโปรเซสเซอร์ AMD EPYC™ ในเวิร์คโหลดการสนับสนุนการตัดสินใจและมอบคุณค่าที่ดีกว่า

หลายองค์กรพึ่งพาแพลตฟอร์ม Lakehouse ของ Databricks ในการจัดเก็บและวิเคราะห์ข้อมูล ทั้งแบบมีโครงสร้างและแบบไม่มีโครงสร้าง ในการรันการสืบค้นการสนับสนุนการตัดสินใจของคุณอย่างรวดเร็ว สิ่งสําคัญคือต้องเลือกอินสแตนซ์บนคลาวด์ที่รองรับด้วยฮาร์ดแวร์อันทรงพลัง แต่การพิจารณาว่าอินสแตนซ์ใดที่ตรงตามเงื่อนไขนี้อาจเป็นความท้าทาย

เราทําการทดสอบเพื่อช่วยให้บริษัทที่กําลังเลือกซื้ออินสแตนซ์คลาวด์สําหรับเวิร์คโหลดการสนับสนุนการตัดสินใจของพวกเขา โดยเฉพาะอย่างยิ่ง เราได้ดูซีรีส์อินสแตนซ์ AWS: อินสแตนซ์ R5d ที่เปิดใช้งานโดยโปรเซสเซอร์ Intel® Xeon® Scalable เจนเนอเรชั่น 2 และอินสแตนซ์ R5a ที่ใช้โปรเซสเซอร์ AMD EPYC เราสร้างคลัสเตอร์ Databricks Runtime 9.0 ในสองประเภทอินสแตนซ์นี้เพื่อรันเวิร์คโหลดการสนับสนุนการตัดสินใจ บนคลัสเตอร์ R5d เราใช้ VM ที่เปิดใช้งานโปรแกรมแบบสอบถามแบบเวกเตอร์ที่เรียกว่า Photon ที่ออกแบบมาเพื่อปรับปรุงประสิทธิภาพการคิวรี SQL ในขณะที่การทดสอบนี้ จะไม่มีการสนับสนุนโปรแกรม Photon ของ Databricks บนอินสแตนซ์ R5a

เวิร์คโหลดการสนับสนุนการตัดสินใจที่เสร็จสมบูรณ์ของอินสแตนซ์ R5d ในเวลาที่น้อยลง

เราทดสอบอินสแตนซ์ AWS สองอินสแตนซ์ด้วยการวัดประสิทธิภาพการสนับสนุนการตัดสินใจที่สร้างคะแนนที่ต่ํากว่าคือดีกว่า ซึ่งแสดงถึงระยะเวลาที่จําเป็นในการดําเนินการสืบค้นที่กําหนด การเลือกอินสแตนซ์ที่ใช้เวลาน้อยลงสามารถช่วยให้บริษัทของคุณสองวิธี: ก่อนอื่นรับข้อมูลอันมีค่าได้เร็วกว่าและสอง เพื่อลดเวลาทํางานของอินสแตนซ์และค่าใช้จ่ายที่เกี่ยวข้อง ซึ่งจะช่วยให้คุณใช้จ่ายน้อยลง ดังที่รูปภาพที่ 1 แสดงขึ้น อินสแตนซ์ r5d.2xlarge ที่มีโปรเซสเซอร์ Intel Xeon เจนเนอเร^{ชั่น 2 แบบ} ปรับขนาดได้ และโฟตอนที่เปิดใช้งานแบบสอบถามที่เสร็จสมบูรณ์บนชุดข้อมูล 1TB ในอินสแตนซ์ r5a.2xlarge ที่ใช้งานโปรเซสเซอร์ AMD EPYC น้อยกว่า 74% เมื่อเทียบกับอินสแตนซ์ r5a.2xlarge ด้วยชุดข้อมูล 10TB เวลาเสร็จสมบูรณ์ของแบบสอบถามของคลัสเตอร์ r5d.2xlarge สั้นกว่าคลัสเตอร์ r5a.2xlarge 76%

รูปภาพที่ 1 เวลาในการประมวลผลโดยสัมพัทธ์เพื่อทําชุดแบบสอบถามการวัดประสิทธิภาพบนคลัสเตอร์อินสแตนซ์ r5d.2xlarge ที่เปิดใช้งาน Photon ที่มีโปรเซสเซอร์ Intel Xeon แบบปรับขนาดได้ เจนเนอเร^{ชั่น 2 และ} คลัสเตอร์ r5a.2xlarge ที่มีโปรเซสเซอร์ AMD EPYC บนชุดข้อมูล 1TB และ 10TB

ระยะเวลาการสอบถามที่สั้นลงจะช่วยเพิ่มผลการดําเนินงานของคุณได้อย่างไร

ในกรณีของแหล่งข้อมูลใดๆ ที่บริษัทของคุณกําลังลงทุน การรับความคุ้มค่าจากเงินดอลลาร์ของคุณเป็นเรื่องสําคัญ เราคํานวณว่าบริษัทต้องเสียค่าใช้จ่ายเท่าใดในการทําสถานการณ์การทดสอบที่เรากล่าวถึงในหน้าก่อน เราใช้ราคาต่อชั่วโมงสําหรับแต่ละอินสแตนซ์ อุปกรณ์จัดเก็บข้อมูลและ DBUs Databricks ในขณะทําการทดสอบ พร้อมกับเวลาในรูปที่ 1 เพื่อกําหนดราคาต่อ TB สําหรับสถานการณ์ทั้งสี่ ดังที่รูปภาพที่ 2 แสดงขึ้น บริษัทจะใช้เวลาน้อยลงมากหากพวกเขารันเวิร์คโหลดการสนับสนุนการตัดสินใจบนอินสแตนซ์ r5d.2xlarge ที่เปิดใช้งาน Photon สําหรับชุดข้อมูล 1TB คลัสเตอร์ r5d.2xlarge ที่ใช้งานโปรเซสเซอร์ Intel® Xeon® Scalable เจนเนอเรชั่น 2 สามารถให้ราคา/ประสิทธิภาพที่ต่ํากว่าคลัสเตอร์ r5a.2xlarge ที่มีโปรเซสเซอร์ AMD EPYC ได้ 46% สําหรับชุดข้อมูล 10TB คลัสเตอร์ R5d.2xlarge ที่ใช้งาน Photon จะลดต้นทุนราคา/ประสิทธิภาพลง 51%

รูปภาพที่ 2 ราคา/ประสิทธิภาพตามปกติเพื่อรันเวิร์คโหลดการสนับสนุนการตัดสินใจกับสภาพแวดล้อม Databricks บนอินสแตนซ์ Amazon r5d.2xlarge ที่ใช้งาน Photon เมื่อเปรียบเทียบกับอินสแตนซ์ r5a.2xlarge บนชุดข้อมูล 1TB และ 10TB

บทสรุป

เราวัดเวลาในการทําแบบสอบถาม Databricks ให้เสร็จสมบูรณ์สําหรับชุดข้อมูลสองขนาดบนอินสแตนซ์ AWS r5d.2xlarge ที่ใช้งาน Photon ที่มีโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2 และอินสแตนซ์ r5a.2xlarge ที่ใช้โปรเซสเซอร์ AMD EPYC อินสแตนซ์ r5d.2xlarge ทําชุดการสืบค้นเสร็จสิ้นภายในเวลาลดลงสูงสุด 76% เมื่อเรารวมเวลาเหล่านี้เข้ากับราคารายชั่วโมงสําหรับสองอินสแตนซ์ เราพบว่าอินสแตนซ์ r5d.2xlarge มีค่าใช้จ่ายน้อยกว่ามากในการทํางานในปริมาณเดียวกัน ซึ่งประหยัดต้นทุนสูงสุด 51% หากบริษัทของคุณต้องการรับข้อมูลเชิงลึกที่นําไปปฏิบัติได้ก่อนหน้านี้และลดการใช้จ่ายบนอินสแตนซ์ AWS ให้เลือกอินสแตนซ์ r5d.2xlarge ที่เปิดใช้งาน Photon ที่มีโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2

ศึกษาเพิ่มเติม

หากต้องการเริ่มใช้งานคลัสเตอร์ Databricks ของคุณบนอินสแตนซ์ Amazon R5d ที่รองรับ Photon ด้วยโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2 โปรดไปที่ https://aws.amazon.com/quickstart/architecture/databricks/

เรียนรู้เพิ่มเติมเกี่ยวกับ Photon Vectorized Query Engine ของ Databricks โปรดไปที่ https://databricks.com/product/photon และ https://docs.databricks.com/runtime/photon.html

สําหรับผลลัพธ์ทั้งหมดในรายงานนี้ เราใช้เวิร์คโหลดการสนับสนุนการตัดสินใจที่ได้รับจาก TPC-DS การทดสอบทั้งหมดดําเนินการในเดือนธันวาคม 2021 ในภูมิภาคสหรัฐอเมริกา-ตะวันออก-1 AWS การทดสอบทั้งหมดใช้คลัสเตอร์ 20 โหนดที่มี Ubuntu 18.04.1, เวอร์ชันเคอร์เนล 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12 ทั้งสองประเภทมี vCPU 8 ตัวและ RAM 64GB r5d.2xlarge มี NVMe SSD 300GB, BW เครือข่าย 10 Gbps และ BW อุปกรณ์จัดเก็บข้อมูล 4,750 Mbps อินสแตนซ์ r5a.2xlarge มีไดรฟ์ข้อมูล EBS 250GB, BW เครือข่าย 10Gbps และ BW อุปกรณ์จัดเก็บข้อมูล 2,880 Mbps

เลือกภาษาของคุณ

ใช้งานการค้นหาของ Intel.com

ลิงค์ด่วน

การค้นหาล่าสุด

ค้นหาขั้นสูง

ค้นหาเฉพาะใน

Databricks:

เวิร์คโหลดการสนับสนุนการตัดสินใจที่เสร็จสมบูรณ์ของอินสแตนซ์ R5d ในเวลาที่น้อยลง

ระยะเวลาการสอบถามที่สั้นลงจะช่วยเพิ่มผลการดําเนินงานของคุณได้อย่างไร

บทสรุป

ศึกษาเพิ่มเติม