ข้อผิดพลาดในการบูท (FRB) ทํางานบนบอร์ดเซิร์ฟเวอร์ Intel และระบบเซิร์ฟเวอร์ Intel® อย่างไร

เอกสาร

ข้อมูลผลิตภัณฑ์และเอกสารประกอบ

000007197

11/12/2023


อาการ:

  • FRB คืออะไร
  • ฉันจะรู้ได้อย่างไรว่าทํางานอยู่
  • การบูทที่ยืดหยุ่นบนเซิร์ฟเวอร์ Intel®


โซลูชัน:

การบูทที่ยืดหยุ่นโดยมีข้อผิดพลาด

BMC (Baseboard Management Controller) จะใช้งาน FRB ระดับ 1, 2 และ 3 หากโปรเซสเซอร์ bootstrap เริ่มต้น (BSP) ล้มเหลวในกระบวนการบูท FRB จะพยายามบูทโดยใช้โปรเซสเซอร์อื่น

  • FRB ระดับ 1 มีวัตถุประสงค์เพื่อกู้คืนจากตรวจพบความล้มเหลว BIST ระหว่างโพสต์ การกู้คืน FRB นี้ได้รับการจัดการโดยรหัส BIOS อย่างสมบูรณ์
  • FRB ระดับ 2 มีวัตถุประสงค์เพื่อกู้คืนจากการหมดเวลาของ Watchdog ในระหว่างโพสต์ ตัวจับเวลา Watchdog สําหรับ FRB ระดับ 2 ถูกนํามาใช้ใน BMC
  • FRB ระดับ 3 มีวัตถุประสงค์เพื่อกู้คืนจากการหมดเวลาของ Watchdog ในการรีเซ็ตแบบฮาร์ดหรือการเพิ่มพลัง ซึ่งมอบฟังก์ชันฮาร์ดแวร์สําหรับ FRB ระดับนี้

FRB-1

ในระบบมัลติโปรเซสเซอร์ BIOS จะลงทะเบียนโปรเซสเซอร์แอพพลิเคชั่นในตารางมัลติโปรเซสเซอร์ (MP) และตาราง ACPI APIC เมื่อเริ่มต้นโดย BSP หากโปรเซสเซอร์แอพพลิเคชั่น (AP) ไม่สามารถเริ่มต้นให้เสร็จสมบูรณ์ภายในระยะเวลาหนึ่ง จะถือว่าเป็นการทํางานไม่ได้ หาก BIOS ตรวจพบว่าโปรเซสเซอร์แอพพลิเคชั่นล้มเหลว BIST หรือไม่ทํางาน จะร้องขอการปิดใช้งาน BMC ตัวประมวลผลนั้น

จากนั้น BMC จะสร้างการรีเซ็ตระบบในขณะที่ปิดใช้งานโปรเซสเซอร์ BIOS จะไม่เห็นโปรเซสเซอร์ที่ล้มเหลวในรอบการบูตถัดไป AP ที่ล้มเหลวไม่อยู่ในตาราง MP หรือในตาราง ACPI APIC และมองไม่เห็นระบบปฏิบัติการ หาก BIOS ตรวจพบว่า BSP ล้มเหลว BIST จะส่งคําขอไปยัง BMC เพื่อปิดใช้งานโปรเซสเซอร์ปัจจุบัน หากไม่มีโปรเซสเซอร์อื่น BMC จะเตือนลําโพงและหยุดระบบ หาก BMC พบโปรเซสเซอร์อื่น ความเป็นเจ้าของ BSP จะถูกโอนไปยังโปรเซสเซอร์ดังกล่าวผ่านการรีเซ็ตระบบ

FRB-2

ตัวจับเวลา Watchdog ที่สอง (FRB-2) ใน BMC ตั้งค่าไว้ประมาณ 6 นาทีโดย BIOS และได้รับการออกแบบเพื่อรับประกันว่าระบบจะโพสต์ BIOS เสร็จสมบูรณ์ ตัวจับเวลา FRB-2 จะถูกเปิดใช้งานก่อนตัวจับเวลา FRB-3 จะถูกปิดใช้งานเพื่อป้องกันหน้าต่างเวลา ที่ไม่ได้ป้องกัน ใกล้สิ้นสุดโพสต์ก่อนที่จะเริ่มใช้งาน ROM ตัวเลือก BIOS จะปิดใช้งานตัวจับเวลา FRB-2 ใน BMC

หากระบบมีหน่วยความจํามากกว่า 1 GB และผู้ใช้เลือกทดสอบหน่วยความจํา DWORD ทุกตัว ตัวจับเวลา Watchdog จะถูกปิดใช้งานก่อนการทดสอบหน่วยความจําขยายจะเริ่มต้น เนื่องจากการทดสอบหน่วยความจําอาจใช้เวลามากกว่า 6 นาทีภายใต้การกําหนดค่านี้ หากระบบค้างระหว่าง POST BIOS จะไม่ปิดใช้งานตัวจับเวลาใน BMC ซึ่งสร้างการรีเซ็ตระบบแบบอะซิงโครนัส (ASR)

FRB-3

ตัวจับเวลาแรก (FRB-3) เริ่มนับถอยหลังเมื่อระบบออกจากฮาร์ดรีเซ็ต ซึ่งโดยปกติจะประมาณ 5 วินาที หาก BSP รีเซ็ตและเริ่มดําเนินการสําเร็จ BIOS จะปิดใช้งานตัวจับเวลา FRB-3 ใน BMC โดยการยกเลิกการยืนยันสัญญาณ FRB_TIMER_HLT (GPIO) และระบบยังคงเปิดโพสต์ต่อไป หากตัวจับเวลาหมดอายุเนื่องจากการล้มเหลวของ BSP ในการดึงข้อมูลหรือดําเนินการรหัส BIOS BMC จะรีเซ็ตระบบและปิดใช้งานโปรเซสเซอร์ที่ล้มเหลว

ระบบยังคงเปลี่ยน BSP จนกว่า BIOS POST จะได้รับการปิดใช้งานตัวจับเวลา FRB-3 ใน BMC ในอดีต BMC จะเสียงเตือนอาการเตือนดังบนลําโพงหากไม่พบโปรเซสเซอร์ที่ดี กระบวนการขี่จักรยานผ่านโปรเซสเซอร์ทั้งหมดจะถูกทําซ้ําเมื่อรีเซ็ตระบบหรือรอบการจ่ายไฟ