การแก้ไขปัญหาเนื้อหาเพื่อช่วยค้นหาโมดูลหน่วยความจําที่ชํารุด
ฉันจะระบุตําแหน่ง Central Processing Unit (CPU) (1 หรือ 2) และโมดูลหน่วยความจําแบบคู่ (DIMM) ที่เหมาะสมเมื่อมีโมดูลหน่วยความจําที่สงสัยและบกพร่องได้อย่างไร
ดําเนินการตามที่ระบุไว้ด้านล่างซึ่งขึ้นอยู่กับขั้นตอนการวินิจฉัยไปสู่การค้นหา DIMM ที่ทําให้เกิด IErr ECC_error:
หมาย เหตุ | ตรวจสอบให้แน่ใจว่าเครื่องมือ ipmitool (ดู IPMI, V2.0, เครื่องมือทดสอบคําสั่ง) ถูกโหลดหรือพร้อมใช้งานบนโหนดนั้น การดําเนินการนี้จะช่วยให้คุณสามารถตรวจสอบบันทึกเหตุการณ์ของระบบ (ซึ่งเป็นไบนารี) |
หมาย เหตุ |
ตรวจสอบบันทึกเหตุการณ์ของระบบโดยดูที่รายการขยายดังนี้:
#sudo ipmitool sel elist | น้อย กว่า
1c | 08/24/2018 | 22:51:49 | เซ็นเซอร์ Mmry ECC หน่วยความจํา | SCC ECC ไม่สามารถแก้ไขได้ | โหดหน้า
1d | 08/24/2018 | 22:51:49 | เซ็นเซอร์ Mmry ECC หน่วยความจํา | SCC ECC ไม่สามารถแก้ไขได้ | โหดหน้า จากนั้น คุณสามารถตรวจสอบรายการใดๆ ใน System Event Log โดยอ้างอิงค่า Hexadecimal (HEX) ในคอลัมน์แรก: #sudo ipmitool sel รับ 0x1c
รหัสบันทึก SEL : 001c บันทึกประเภท : 02 ประทับเวลา : 08/24/2018 22:51:48 รหัสเครื่องกําเนิดไฟฟ้า : 0033 การปรับปรุงแก้ไข EvM : 04 ประเภทของเซ็นเซอร์ : หน่วยความจํา หมายเลขเซ็นเซอร์ : 02 ประเภทกิจกรรม : Descrete เฉพาะเซ็นเซอร์ ทิศทางเหตุการณ์ : กิจกรรมการยืนยัน ข้อมูลกิจกรรม (RAW) : a10103 การตีความกิจกรรม : สูญหาย รายละเอียด : ECC ที่ไม่สามารถแก้ไขได้ รหัสเซ็นเซอร์ : Mmry ECC Sensor (0x2) รหัสเอนทิตี : 32.1 (อุปกรณ์หน่วยความจํา) ประเภทเซ็นเซอร์ : หน่วยความจํา (0x0c) |
ดีบักตําแหน่งบันทึกของข้อมูลเหตุการณ์ (RAW)
- ป้อนหมายเลขดังกล่าวลงในเครื่องคํานวณ:
- ดูที่ค่า Binary (BIN) โดยเฉพาะ 8 ไบต์ล่าสุด ในภาพด้านบน ดูบิตด้านขวาที่สุด (ตามที่เน้น)
- แปลงบิตนั้นเป็นทศนิยมและตามตารางด้านล่าง บิตที่เหมาะสมที่สุดจะแสดงค่าของซ็อกเก็ต DIMM: 0=A, 1=B, 2=C,3=D และอื่น ๆ
บิตด้านขวาที่สองแสดงถึงซ็อกเก็ต CPU
ในกรณีนี้ b0000 = CPU1 b0001 จะเท่ากับ CPU2
เมื่อใช้ IPMI จะไม่สามารถรับระดับรายละเอียดตามที่แสดงบน Baseboard Management Controller (BMC) Web Graphical User Interface (GUI) อย่างไรก็ตาม คุณสามารถใช้ Redfish โดยการเรียกใช้คําสั่งถัดไป: curl -k -u <user>:<password> https://<ip>/redfish/v1/Systems/<serial #>/LogServices/SEL/Entries?$skiptoken=0
หมาย เหตุ |
ข้าม คือจุดเริ่มต้น โดยปกติแล้วการจะส่งกลับ 50 บันทึก ดังนั้นกระโดดจะเป็น 0, 50, 100 และอื่น ๆ ในตอนท้ายของคําตอบมันจะบอกคุณว่าควร ข้าม สิ่งที่ควรอ่านต่อไป |
นอกจากนี้ คุณสามารถใช้ Intel® Server Debug and Provisioning Tool (Intel® SDP Tool) จากระบบตัวจัดการเซิร์ฟเวอร์ของคุณที่รันคําสั่ง SDPtool <ipv4> <username> <password> debuglog <filename>