ด้วยการเปิดใช้งาน Photon Vectorized Query Engine อินสแตนซ์เหล่านี้มีความโดดเด่นอย่าง r5a.2xlarge ที่มีโปรเซสเซอร์ AMD EPYC™ ในเวิร์คโหลดการสนับสนุนการตัดสินใจและมอบคุณค่าที่ดีกว่า
หลายองค์กรพึ่งพาแพลตฟอร์ม Lakehouse ของ Databricks ในการจัดเก็บและวิเคราะห์ข้อมูล ทั้งแบบมีโครงสร้างและแบบไม่มีโครงสร้าง ในการรันการสืบค้นการสนับสนุนการตัดสินใจของคุณอย่างรวดเร็ว สิ่งสําคัญคือต้องเลือกอินสแตนซ์บนคลาวด์ที่รองรับด้วยฮาร์ดแวร์อันทรงพลัง แต่การพิจารณาว่าอินสแตนซ์ใดที่ตรงตามเงื่อนไขนี้อาจเป็นความท้าทาย
เราทําการทดสอบเพื่อช่วยให้บริษัทที่กําลังเลือกซื้ออินสแตนซ์คลาวด์สําหรับเวิร์คโหลดการสนับสนุนการตัดสินใจของพวกเขา โดยเฉพาะอย่างยิ่ง เราได้ดูซีรีส์อินสแตนซ์ AWS: อินสแตนซ์ R5d ที่เปิดใช้งานโดยโปรเซสเซอร์ Intel® Xeon® Scalable เจนเนอเรชั่น 2 และอินสแตนซ์ R5a ที่ใช้โปรเซสเซอร์ AMD EPYC เราสร้างคลัสเตอร์ Databricks Runtime 9.0 ในสองประเภทอินสแตนซ์นี้เพื่อรันเวิร์คโหลดการสนับสนุนการตัดสินใจ บนคลัสเตอร์ R5d เราใช้ VM ที่เปิดใช้งานโปรแกรมแบบสอบถามแบบเวกเตอร์ที่เรียกว่า Photon ที่ออกแบบมาเพื่อปรับปรุงประสิทธิภาพการคิวรี SQL ในขณะที่การทดสอบนี้ จะไม่มีการสนับสนุนโปรแกรม Photon ของ Databricks บนอินสแตนซ์ R5a
เวิร์คโหลดการสนับสนุนการตัดสินใจที่เสร็จสมบูรณ์ของอินสแตนซ์ R5d ในเวลาที่น้อยลง
เราทดสอบอินสแตนซ์ AWS สองอินสแตนซ์ด้วยการวัดประสิทธิภาพการสนับสนุนการตัดสินใจที่สร้างคะแนนที่ต่ํากว่าคือดีกว่า ซึ่งแสดงถึงระยะเวลาที่จําเป็นในการดําเนินการสืบค้นที่กําหนด การเลือกอินสแตนซ์ที่ใช้เวลาน้อยลงสามารถช่วยให้บริษัทของคุณสองวิธี: ก่อนอื่นรับข้อมูลอันมีค่าได้เร็วกว่าและสอง เพื่อลดเวลาทํางานของอินสแตนซ์และค่าใช้จ่ายที่เกี่ยวข้อง ซึ่งจะช่วยให้คุณใช้จ่ายน้อยลง ดังที่รูปภาพที่ 1 แสดงขึ้น อินสแตนซ์ r5d.2xlarge ที่มีโปรเซสเซอร์ Intel Xeon เจนเนอเรชั่น 2 แบบ ปรับขนาดได้ และโฟตอนที่เปิดใช้งานแบบสอบถามที่เสร็จสมบูรณ์บนชุดข้อมูล 1TB ในอินสแตนซ์ r5a.2xlarge ที่ใช้งานโปรเซสเซอร์ AMD EPYC น้อยกว่า 74% เมื่อเทียบกับอินสแตนซ์ r5a.2xlarge ด้วยชุดข้อมูล 10TB เวลาเสร็จสมบูรณ์ของแบบสอบถามของคลัสเตอร์ r5d.2xlarge สั้นกว่าคลัสเตอร์ r5a.2xlarge 76%
ระยะเวลาการสอบถามที่สั้นลงจะช่วยเพิ่มผลการดําเนินงานของคุณได้อย่างไร
ในกรณีของแหล่งข้อมูลใดๆ ที่บริษัทของคุณกําลังลงทุน การรับความคุ้มค่าจากเงินดอลลาร์ของคุณเป็นเรื่องสําคัญ เราคํานวณว่าบริษัทต้องเสียค่าใช้จ่ายเท่าใดในการทําสถานการณ์การทดสอบที่เรากล่าวถึงในหน้าก่อน เราใช้ราคาต่อชั่วโมงสําหรับแต่ละอินสแตนซ์ อุปกรณ์จัดเก็บข้อมูลและ DBUs Databricks ในขณะทําการทดสอบ พร้อมกับเวลาในรูปที่ 1 เพื่อกําหนดราคาต่อ TB สําหรับสถานการณ์ทั้งสี่ ดังที่รูปภาพที่ 2 แสดงขึ้น บริษัทจะใช้เวลาน้อยลงมากหากพวกเขารันเวิร์คโหลดการสนับสนุนการตัดสินใจบนอินสแตนซ์ r5d.2xlarge ที่เปิดใช้งาน Photon สําหรับชุดข้อมูล 1TB คลัสเตอร์ r5d.2xlarge ที่ใช้งานโปรเซสเซอร์ Intel® Xeon® Scalable เจนเนอเรชั่น 2 สามารถให้ราคา/ประสิทธิภาพที่ต่ํากว่าคลัสเตอร์ r5a.2xlarge ที่มีโปรเซสเซอร์ AMD EPYC ได้ 46% สําหรับชุดข้อมูล 10TB คลัสเตอร์ R5d.2xlarge ที่ใช้งาน Photon จะลดต้นทุนราคา/ประสิทธิภาพลง 51%
บทสรุป
เราวัดเวลาในการทําแบบสอบถาม Databricks ให้เสร็จสมบูรณ์สําหรับชุดข้อมูลสองขนาดบนอินสแตนซ์ AWS r5d.2xlarge ที่ใช้งาน Photon ที่มีโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2 และอินสแตนซ์ r5a.2xlarge ที่ใช้โปรเซสเซอร์ AMD EPYC อินสแตนซ์ r5d.2xlarge ทําชุดการสืบค้นเสร็จสิ้นภายในเวลาลดลงสูงสุด 76% เมื่อเรารวมเวลาเหล่านี้เข้ากับราคารายชั่วโมงสําหรับสองอินสแตนซ์ เราพบว่าอินสแตนซ์ r5d.2xlarge มีค่าใช้จ่ายน้อยกว่ามากในการทํางานในปริมาณเดียวกัน ซึ่งประหยัดต้นทุนสูงสุด 51% หากบริษัทของคุณต้องการรับข้อมูลเชิงลึกที่นําไปปฏิบัติได้ก่อนหน้านี้และลดการใช้จ่ายบนอินสแตนซ์ AWS ให้เลือกอินสแตนซ์ r5d.2xlarge ที่เปิดใช้งาน Photon ที่มีโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2
ศึกษาเพิ่มเติม
หากต้องการเริ่มใช้งานคลัสเตอร์ Databricks ของคุณบนอินสแตนซ์ Amazon R5d ที่รองรับ Photon ด้วยโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 2 โปรดไปที่ https://aws.amazon.com/quickstart/architecture/databricks/
เรียนรู้เพิ่มเติมเกี่ยวกับ Photon Vectorized Query Engine ของ Databricks โปรดไปที่ https://databricks.com/product/photon และ https://docs.databricks.com/runtime/photon.html
สําหรับผลลัพธ์ทั้งหมดในรายงานนี้ เราใช้เวิร์คโหลดการสนับสนุนการตัดสินใจที่ได้รับจาก TPC-DS การทดสอบทั้งหมดดําเนินการในเดือนธันวาคม 2021 ในภูมิภาคสหรัฐอเมริกา-ตะวันออก-1 AWS การทดสอบทั้งหมดใช้คลัสเตอร์ 20 โหนดที่มี Ubuntu 18.04.1, เวอร์ชันเคอร์เนล 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12 ทั้งสองประเภทมี vCPU 8 ตัวและ RAM 64GB r5d.2xlarge มี NVMe SSD 300GB, BW เครือข่าย 10 Gbps และ BW อุปกรณ์จัดเก็บข้อมูล 4,750 Mbps อินสแตนซ์ r5a.2xlarge มีไดรฟ์ข้อมูล EBS 250GB, BW เครือข่าย 10Gbps และ BW อุปกรณ์จัดเก็บข้อมูล 2,880 Mbps