Flyslice Technologies เร่งความเร็วแอปพลิเคชันการซื้อขายแบบความหน่วงต่ำ (LLT) ด้วยการ์ดเร่งความเร็ว FA728Q

Flyslice Technologies ใช้ประโยชน์จากเอฟพีจีเอ Intel® Stratix® 10 และโอเพนซอร์สโครงสร้างพื้นฐาน Open FPGA Stack (OFS) เพื่อพัฒนาการ์ดเร่งความเร็วเอฟพีจีเอประสิทธิภาพสูง

ภาพรวม

  • การ์ดเร่งความเร็วที่ใช้เอฟพีจีเอ FA728Q ซึ่งเป็นการ์ดเร่งความเร็วที่ใช้ PCIe* ประสิทธิภาพสูงซึ่งมาพร้อมกับเอฟพีจีเอ Intel® Stratix® 10 พร้อมจัดส่งให้วันนี้

  • Flyslice ใช้โครงสร้างพื้นฐาน OFS เพื่อเร่งการพัฒนา FPGA Interface Manager (FIM) แบบกำหนดเอง ซึ่งรวมเอาเอนจินผ่องถ่าย TCP/IP ในตัว

  • ความหน่วงในการส่ง TCP ของการ์ดเร่งความเร็ว FA728Q ต่ำกว่า 100 นาโนวินาทีสำหรับแอปพลิเคชันเครือข่ายที่มีความสำคัญด้านเวลา เช่น LLT

author-image

โดย

โลโก้ Flysliceสรุปข้อมูลผู้บริหาร

LLT และแอปพลิเคชันที่ไวต่อเวลาอื่นๆ เป็นรูปแบบการใช้งานที่เหมาะสมสำหรับการเร่งความเร็วเอฟพีจีเอ ในการจัดการตลาดนี้ Flyslice Technologies พัฒนาการ์ดเร่งความเร็วแบบเอฟพีจีเอ FA728Q แพลตฟอร์มเร่งความเร็ว FA728Q เป็นแหล่งข้อมูลเอฟพีจีเอที่ทรงพลัง, ความจุหน่วยจัดเก็บข้อมูลมากมาย, และอินเทอร์เฟซที่ใช้งานง่ายสำหรับผู้ใช้ปลายทาง เพื่อเร่งความเร็ว ลดความซับซ้อน และทำให้การพัฒนาบอร์ดเร่งความเร็วของพวกเขาเป็นมาตรฐาน Flyslice Technologies ใช้โครงสร้างพื้นฐาน OFS ซึ่งให้วิธีการที่มีประสิทธิภาพในการพัฒนาโซลูชันเอฟพีจีเออย่างรวดเร็วโดยใช้วิธีการ "นำมาใช้และปรับแต่ง" Flyslice Technologies ซึ่งใช้โครงสร้างพื้นฐาน OFS จะผนึกรวมเอนจินผ่องถ่าย TCP/IP เข้ากับฐาน FIM แบบโอเพนซอร์ส ซึ่งโดยทั่วไปเรียกว่า "เอฟพีจีเอเชลล์"

เบื้องหลังและความท้าทาย

LLT คือแนวทางปฏิบัติสมัยใหม่ในการดำเนินการซื้อขายแบบอิเล็กทรอนิกส์ที่มีการล่าช้าน้อยที่สุดระหว่างการสั่งซื้อและการดำเนินการ ธนาคารการลงทุนขนาดใหญ่ กองทุนเฮดจ์ฟันด์ และสถาบันการเงินอื่นๆ ใช้วิธีนี้กันทั่วไป ในอดีต การซื้อขายดำเนินการด้วยตนเองแทนที่จะเป็นอิเล็กทรอนิกส์ และการดำเนินการธุรกรรมอาจใช้เวลาตั้งแต่วินาทีถึงนาที อย่างไรก็ตาม ด้วยการพัฒนาเทคโนโลยีฮาร์ดแวร์และซอฟต์แวร์ที่เกี่ยวข้อง ระบบสามารถตั้งโปรแกรมให้ตัดสินใจซื้อหรือขายโดยอัตโนมัติตามสัญญาณและการเคลื่อนไหวของตลาดบางรายการ ทำให้เวลาในการดำเนินการซื้อขายลดลงเหลือเพียงมิลลิวินาที ในช่วงไม่กี่ปีล่าสุด ผลิตภัณฑ์เร่งความเร็วแบบเอฟพีจีเอ มีวางจำหน่ายอย่างแพร่หลายมากขึ้น ทำให้เวลาในการทำธุรกรรมลดลงเหลือเพียงไมโครวินาทีหรือแม้แต่ต่ำกว่านั้น

ในเวลาเดียวกัน ระบบ LLT อาศัยโมเดลอัลกอริทึมการซื้อขายที่ซับซ้อนมากขึ้น ซึ่งเฉพาะเจาะจงกับกลยุทธ์การซื้อขายของแต่ละบริษัทซื้อขาย เพื่อรับมือกับยอดการสั่งจอง โซลูชันต้องใช้โปรเซสเซอร์สำหรับวัตถุประสงค์ทั่วไปและโปรเซสเซอร์ร่วมสำหรับวัตถุประสงค์พิเศษในการคำนวณผลเพื่อตอบสนองต่อความต้องการพลังงานและประสิทธิภาพของบริษัทเทรดดิ้ง เช่น การคำนวณผลแบบรวมความหลากหลาย เอฟพีจีเอเหมาะสำหรับการนำไปใช้งานกับอัลกอริทึมการซื้อขายแบบปรับแต่ง อย่างไรก็ตาม การเขียนโปรแกรมอุปกรณ์เร่งความเร็วฮาร์ดแวร์นี้อาจใช้เวลานานและยากที่จะย้ายข้ามไปสู่เอฟพีจีเอรุ่นใหม่ๆ

Flyslice Technologies มีสำนักงานใหญ่อยู่ที่ประเทศจีน มุ่งมั่นทำการรับมือกับความต้องการการเร่งความเร็วแบบรวมความหลากหลายของศูนย์ข้อมูลและการคำนวณผลประสิทธิภาพสูง รวมถึงเซ็กเมนต์ LLT พวกเขานำแพลตฟอร์มตัวเร่งฮาร์ดแวร์ที่ใช้เอฟพีจีเอ, ฟังก์ชันทรัพย์สินทางปัญญา (IP) สำหรับการเร่งความเร็วของเอฟพีจีเอ และบริการออกแบบแพลตฟอร์มที่ใช้เอฟพีจีเอออกสู่ตลาด

โซลูชัน

เพื่อตอบสนองความต้องการความหน่วงต่ำ, มาตรฐาน, และความสามารถในการพกพาของแอปพลิเคชัน LLT, Flyslice Technologies ได้พัฒนาการ์ดเร่งความเร็ว FA728Q ของพวกเขา ซึ่งสร้างอินสแตนซ์เอนจินผ่องถ่าย TCP/IP ในตัว ในการดำเนินการนี้ Flyslice Technologies ได้ปรับเปลี่ยน FIM พื้นฐานที่ให้มาใน OFS แบบโอเพนซอร์ส เนื่องจากสถาปัตยกรรมที่ประกอบได้และวิธีการ 'นำมาใช้และปรับแต่ง', OFS ช่วยให้พวกเขาสามารถย้ายอัลกอริธึมไปยังการ์ดเร่งความเร็ว FA728Q ได้อย่างง่ายดาย ในขณะที่ใช้ประโยชน์จากโครงสร้างพื้นฐานที่เหลือที่มีให้ รวมถึงไดรเวอร์ซอฟต์แวร์ OFS และไลบรารี โดยทำการปรับเปลี่ยนเพียงเล็กน้อยเท่านั้น

OFS พร้อมโซลูชัน TOE ถูกนำไปใช้กับบล็อกไดอะแกรม fa728q
รูปที่ 1 OFS พร้อมโซลูชันเอนจินผ่องถ่าย TCP/IP (TOE) ที่ใช้งานบน FA728Q

 

OFS คือโครงสร้างพื้นฐานฮาร์ดแวร์และซอฟต์แวร์แบบโอเพนซอร์สที่ให้การออกแบบหลักๆ ซอฟต์แวร์ และส่วนประกอบโครงสร้างพื้นฐานทั้งหมดที่จำเป็นในการเริ่มพัฒนาบอร์ดที่ใช้เอฟพีจีเอแบบกำหนดเองหรือการพัฒนาเวิร์กโหลด โครงสร้างพื้นฐาน OFS ประกอบด้วย FIM หรือที่เรียกกันทั่วไปว่า "เชลล์" และเขต Accelerator Functional Unit (AFU) ซึ่งเป็นเขตที่กำหนดไว้สำหรับการพัฒนาเวิร์กโหลด นักพัฒนาบอร์ดเอฟพีจีเอหรือ FIM โดยใช้ OFS สามารถใช้โครงสร้างพื้นฐานโอเพนซอร์สหรือ FIM พื้นฐานเพื่อพัฒนา FIM ที่ปรับแต่งและกำหนดเองอย่างรวดเร็วสำหรับบอร์ดของพวกเขาตามแอปพลิเคชันหรืออุตสาหกรรมเป้าหมาย OFS ยังมาพร้อมกับแพ็กเกจการสนับสนุนตัวเร่ง oneAPI (ASP) ซึ่งสามารถใช้เพื่อแยกความซับซ้อนของฮาร์ดแวร์เอฟพีจีเอและกระบวนการงานออกแบบ OFS ช่วยประหยัดเวลาของนักพัฒนา, เพิ่มความสามารถในการพกพาบนทุกเอฟพีจีเอ, ใช้อินเทอร์เฟซมาตรฐานอุตสาหกรรม และมอบขั้นตอนการออกแบบระดับสูงที่เป็นทางเลือกโดยใช้ oneAPI

การ์ดเร่งความเร็ว FA728Q มีวางจำหน่ายแล้ววันนี้และเป็นบอร์ดเร่งความเร็วเอฟพีจีเอที่ใช้ PCIe ระดับสูงที่มีหน่วยความจำ DDR4 ออนบอร์ดขนาด 32 GB และซ็อกเก็ต QSFP28 สามช่องเพื่อรองรับสูงสุด 100 GbE สำหรับแต่ละอินเทอร์เฟซ การ์ดเร่งความเร็ว FA728Q ยังเปิดใช้งานด้วย oneAPI ผ่านโครงสร้างพื้นฐาน OFS ดังนั้นลูกค้าจึงสามารถใช้งานเคอร์เนลของตนใน RTL หรือย้ายอัลกอริทึมจาก CPU/GPU ไปยังภาษาการออกแบบระดับสูง รวมถึง C/C++ ชุดเครื่องมือพื้นฐานของ Intel oneAPI ยังช่วยสังเคราะห์และเพิ่มประสิทธิภาพเคอร์เนลให้กับแหล่งข้อมูลเอฟพีจีเอซึ่งช่วยปรับปรุงเวลาในการนำออกสู่ตลาดให้ดียิ่งขึ้น

Flyslice Technologies ยังได้เริ่มการพัฒนากับบอร์ดที่ใช้เอฟพีจีเอ Intel Agilex® ซึ่งรวมถึงการ์ด FA927S ที่ใช้เอฟพีจีเอ Intel Agilex 7 I-ซีรีส์ และการ์ด FA925E ที่ใช้เอฟพีจีเอ Intel Agilex 7 F-ซีรีส์

การ์ด FA927S มีอัตราการรับส่งสัญญาณสูงถึง 116 Gbps, PCIe 5.0 x16 และรองรับ Compute Express Link (CXL) โดยกำหนดเป้าหมายไปที่แอปพลิเคชันที่ใช้แบนด์วิดธ์สูง และพร้อมให้ใช้งานแล้วสำหรับการพัฒนาบน RTL การ์ด FA927S จะรองรับ OFS ในไตรมาสแรกของปี 2024

ในทางกลับกัน การ์ด FA925E มีสี่ช่องขนาด 8 GB และสี่ช่องขนาด 4 GB DDR4 รวมหน่วยความจำออนบอร์ด 48 GB ได้รับการออกแบบมาสำหรับแอปพลิเคชันที่มีความจุหน่วยความจำภายนอกและความต้องการแบนด์วิดธ์สูง การ์ดนี้ให้การสนับสนุน OFS อย่างสมบูรณ์ และจะพร้อมใช้งานภายในสิ้นปี 2023 ดูตารางที่ 1 เพื่อเปรียบเทียบการ์ดเร่งความเร็วสามใบ

ตาราง 1 ตารางเปรียบเทียบ

 

บอร์ด FA728Q

FA728Q

บอร์ด FA927S

FA927S

บอร์ด FA925E

FA925E

พลังงาน 215 W 200 W 150 W
ความต้องการในการระบายความร้อน แอคทีฟ/พาสซีฟ (ตัวเลือก) แอคทีฟ/พาสซีฟ (ตัวเลือก) แอคทีฟ/พาสซีฟ (ตัวเลือก)
ฟอร์มแฟคเตอร์ ความยาว 3/4, เต็มความสูง, PCIe สล็อตคู่ ครึ่งความยาว, เต็มความยาว, PCIe สล็อตคู่ ความยาว 3/4, เต็มความสูง, PCIe สล็อตคู่
อินเทอร์เฟซระบบเครือข่าย สามพอร์ต QSFP28: 3 x 100 GbE / 40 GbE สองพอร์ต QSFP28 : 2 x 100 GbE / 40 GbE สองพอร์ต QSFP28 2 x 1 00 GbE / 40 GbE
อินเทอร์เฟซหน่วยความจำ 4 x 8 GB DDR4, 2, 400 MHz ที่มี ECC 4 x 8 GB DDR4, 2, 400 MHz ที่มี ECC 4 x 8 GB และ 4 x 4 GB DDR4, 2,400 MHz ที่มี ECC
อินเทอร์เฟซ PCIe - 5.0 x16 -
อินเทอร์เฟซการขยาย - ขั้วต่อ SAS แบบบาง 2 x8 สำหรับส่วนขยาย PCIe 4.0 -
พอร์ตสำหรับการจัดการ ไมโคร-USB ไมโคร-USB ไมโคร-USB
อุปกรณ์เอฟพีจีเอ 1SX280HN2F43E2VG AGIB027R29A1E2VR3 AGFB027R25A2E2V

ผลลัพธ์

ฟังก์ชัน IP เอนจินผ่องถ่ายที่ Flyslice Technologies ใช้งานบนการ์ด FA728Q ได้รับการปรับให้เหมาะสมกับความหน่วงและประสิทธิภาพเพื่อให้ตรงตามข้อกำหนด LLT ในโหมดเร่งความเร็ว ความหน่วงในการส่ง TCP จะน้อยกว่า 100 นาโนวินาที ช่วยให้เกิดการเชื่อมต่อที่เสถียรและมีค่าความหน่วงต่ำสำหรับแอปพลิเคชันเครือข่ายที่มีความสำคัญด้านเวลา ตารางที่ 2. แสดงความหน่วงที่วัดได้สำหรับการเชื่อมต่อต่างๆ ตาราง 3. แสดงอินเทอร์เฟซ PCIe 3.0 x16 และ DDR แบนด์วิดธ์สูง

รายละเอียด ระดับคุ้มค่า
ปริมาณการเชื่อมต่อ TCP/UDP มากสุด 63 สำหรับ TCP, 63 สำหรับ UDP
ความหน่วง TCP TX (โหมดเร่งความเร็ว) 15 นาฬิกา
ความหน่วง TCP TX (โหมดไม่เร่งความเร็ว) 46 นาฬิกา
ความหน่วง TCP RX 32 นาฬิกา
ความหน่วง UDP TX 42 นาฬิกาสำหรับแพ็กเก็ตขนาด 512 ไบต์ 18 นาฬิกาสำหรับแพ็กเก็ตขนาด 128 ไบต์
ความหน่วง UDP RX 23 นาฬิกา
ความหน่วงลูปแบ็คสำหรับเคอร์เนล oneAPI 18 นาฬิกา

ตาราง 2 ข้อมูลจำเพาะเอนจินผ่องถ่าย TCP/IP (TOE)

หมายเหตุ:

1. ช่วงเวลาหนึ่งนาฬิกาคือ 6.4 นาโนวินาที

2. ความหน่วง TX จะนับจากขอบล่างของแพ็กเก็ต EOP ไปจนถึงข้อมูลที่ถูกต้องใน XGMII TXC

3. ความหน่วง RX ถูกนับจากแพ็กเก็ต SOP ไปจนถึงข้อมูลที่ถูกต้องใน XGMII RXC

เส้นทางข้อมูล แบนด์วิดธ์
หน่วยความจำที่โฮสต์เขียน 8,287.68 MBps สำหรับบล็อก 8,192-KB
หน่วยความจำที่โฮสต์อ่าน 8,241.19 MBps สำหรับบล็อกสำหรับ 8,192-KB
หน่วยความจำที่เคอร์เนลเขียน 16,909.6 MBps สำหรับบล็อก 4,096 MB
หน่วยความจำที่เคอร์เนลอ่าน 17,340.3 MBps สำหรับบล็อก 4,096 MB

ตาราง 3 แบนด์วิดธ์ที่แต่ละอินเทอร์เฟซมีให้

เส้นทางข้อมูลแบนด์วิดธ์สูงในแผนภาพบล็อกแพลตฟอร์ม ofs
รูปที่ 2: เส้นทางข้อมูลแบนด์วิดธ์สูงในแพลตฟอร์ม OFS

 

OFS ช่วยให้เราสร้างแพลตฟอร์มการเร่งความเร็วที่ต้องการได้ง่ายและรวดเร็วยิ่งขึ้นสำหรับลูกค้า ตั้งแต่ไดรเวอร์ซอฟต์แวร์ API ไปจนถึงฮาร์ดแวร์พื้นฐานในรูปแบบอุปกรณ์ครบชุด

Cheng Ailian, Flyslice Technologies, ltd.

แนวทางการเริ่มต้นการเร่งความเร็วเอฟพีจีเอโดยใช้ OFS

นักพัฒนาเอฟพีจีเอสามารถใช้ประโยชน์จากการ์ดเร่งความเร็ว FA728Q และบอร์ดที่เปิดใช้งาน OFS โดยใช้เอกสารโอเพนซอร์สและซอร์สโค้ดเพื่อเริ่มสร้างเวิร์กโหลดแบบกำหนดเอง

ตารางต่อไปนี้สรุปแนวทางที่นักพัฒนาสามารถเริ่มการพัฒนาเวิร์กโหลดที่ใช้เอฟพีจีเอโดยใช้บอร์ดเร่งความเร็ว Flyslice Technologies

ใช้ประโยชน์การเร่งความเร็วเอฟพีจีเอสำหรับเวิร์กโหลดของคุณ
ขั้นตอนที่ 1: เลือกบอร์ด ดูบอร์ดที่เปิดใช้งาน OFS ของ Flyslice Technologies การ์ดเร่งความเร็ว FA728Q
ขั้นตอนที่ 2: ประเมินทรัพยากรโอเพนซอร์ส OFS

Flyslice Technologies จะจัดเตรียมเอกสารทางเทคนิคของ OFS เวอร์ชันที่สอดคล้องกัน

ขั้นตอนที่ 3: เข้าถึงรหัสฮาร์ดแวร์และซอฟต์แวร์โอเพนซอร์ส

Flyslice Technologies จะจัดหาโค้ดซอฟต์แวร์และฮาร์ดแวร์ OFS ที่สอดคล้องกัน นี่เป็นการเผยแพร่โค้ดฐาน OFS โดยเฉพาะของบริษัทที่จัดเตรียมไว้ให้โดย Intel

ขั้นตอนที่ 4: พัฒนาเวิร์กโหลดโดยใช้ RTL หรือ C/C++ (โดยใช้ oneAPI)

ปฏิบัติตามขั้นตอน OFS RTL

หรือ

OFS เปิดใช้งานการคำนวณผลเคอร์เนล oneAPI ใช้ขั้นตอนการพัฒนา oneAPI และสร้างเวิร์กโหลดเอฟพีจีเอใน C/C++