การวิเคราะห์พื้นฐานสําหรับข้อผิดพลาดของหน่วยความจํา ECC ที่แก้ไขได้/แก้ไขไม่ได้กับบอร์ดเซิร์ฟเวอร์ Intel®

เอกสาร

การแก้ไขปัญหา

000024007

10/01/2023

หมาย เหตุสําหรับการสนับสนุนการแก้ไขปัญหาที่อธิบายไว้ในบทความนี้ โปรดดู ข้อมูลจําเพาะทางเทคนิคของผลิตภัณฑ์ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ

สิ่งที่ฉันเห็นคืออะไร

เหตุการณ์ของ Error Correcting Code (ECC) ที่แก้ไขได้และ/หรือแก้ไขไม่ได้สําหรับโมดูลหน่วยความจํา ตัวอย่างเช่น:

MMry ECC Sensor SMI Handler คําเตือน CPU หน่วยความจํา: 1, DIMM: D0 DIMM Rank: 1. - ECC ที่แก้ไขได้ / ข้อผิดพลาดของหน่วยความจําที่แก้ไขได้อื่นๆ - อธิบาย

เหตุการณ์ข้อผิดพลาดที่แก้ไขได้ของ Memory Error Correction Code (ECC) คืออะไร

ข้อผิดพลาดที่แก้ไขได้ของ ECC แสดงถึงการโอเวอร์โฟลว์ของขีดจํากัดสําหรับ Dual In-line Memory Modules (DIMM) ที่ระบุภายในกรอบเวลาที่กําหนด


วิธีแก้ไข:

ข้อผิดพลาดของข้อมูลหน่วยความจําถูกบันทึกว่าสามารถแก้ไขได้หรือแก้ไขไม่ได้ ดู คําแนะนําด้านล่างตามประเภทข้อผิดพลาดที่คุณพบ:

error types

หมาย เหตุ
  • หากไม่มีปัญหารุนแรง (Purple Screen of Death (PSOD) หรือการรีสตาร์ทที่ไม่คาดคิด) และข้อผิดพลาด ECC ที่แก้ไขได้ รวมถึงข้อผิดพลาด Adaptative Double Device Data Correction (ADDDC) น้อยกว่า 10 เหตุการณ์ทุกๆ 24 ชั่วโมงสําหรับแต่ละตําแหน่ง DIMM ซึ่งอยู่ภายในขีดจํากัดคําแนะนําคือ ตรวจสอบ เซิร์ฟเวอร์สําหรับข้อผิดพลาด ECC ซ้ําๆ ของตําแหน่ง DIMM แต่ละตัวที่กระตุ้นเหตุการณ์
     
  • หากมีปัญหารุนแรง (Purple Screen of Death (PSOD) หรือการรีสตาร์ทที่ไม่คาดคิด) และข้อผิดพลาด ECC ที่แก้ไขได้ รวมถึงข้อผิดพลาด Adaptative Double Device Data Correction (ADDDC) น้อยกว่า ขอแนะนํา 10 กิจกรรมทุก 24 ชั่วโมงสําหรับแต่ละสถานที่ DIMM นั่งใหม่ แต่ละตําแหน่ง DIMM โดยทําตามขั้นตอนด้านล่าง:
    1. ปิด ระบบและ ถอด สายไฟ AC
    2. ระบุ ตําแหน่ง DIMM เพื่อนั่งอีกครั้ง โปรดดู ข้อมูลจําเพาะทางเทคนิคของผลิตภัณฑ์ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณเพื่อระบุตําแหน่ง DIMM
    3. นั่ง DIMM ที่ระบุอีกครั้ง
    4. เสียบสายไฟ AC และ เปิดเครื่องกลับเข้า ที่ระบบ
    5. งดให้บริการตลอด 24 ชั่วโมงสําหรับข้อผิดพลาดที่เกิดขึ้นซ้ําๆ ของ ECC
    6. หากข้อผิดพลาด ECC ยังคงอยู่ในตําแหน่ง DIM เดิมที่นั่งอีกครั้ง สร้างและส่งบันทึก SEL และดีบัก ทั้งสองเกิดขึ้นจาก BMC Web Console ไปยังฝ่ายสนับสนุนลูกค้า Intel
  • คุณสมบัติการทดสอบหน่วยความจํา (AMT) ขั้นสูงถูกนํามาใช้ใน BIOS และสแต็กเฟิร์มแวร์ เริ่มต้นที่ BIOS revision 02.01.0014 สําหรับระบบเซิร์ฟเวอร์ Intel® S2600BP, S2600WF และ S2600ST; และเริ่มด้วย BIOS รุ่นปรับปรุง 22.01.0097 สําหรับระบบเซิร์ฟเวอร์ Intel® S9200WK สําหรับผลิตภัณฑ์เหล่านี้ แนะนําให้เปิดใช้งานคุณสมบัติการทดสอบหน่วยความจําขั้นสูง (AMT) และหลังการซ่อมแซมแพคเกจ (PPR) ผ่านยูทิลิตี้การตั้งค่า BIOS เพื่อตรวจสอบสถานภาพของหน่วยความจําทั้งหมด โปรดดูบทที่ 5 ในคู่มือการเปลี่ยนหน่วยความจําและการทดสอบหน่วยความจําขั้นสูงสําหรับผลิตภัณฑ์เซิร์ฟเวอร์ Intel® ที่ใช้ชิปเซ็ต Intel® 62X – เอกสารข้อมูล สําหรับขั้นตอนโดยละเอียด

หมาย เหตุ

ข้อผิดพลาด Error Correction Code (ECC) เป็นการแก้ไขด้วยตนเอง ตัวควบคุมหน่วยความจําในตัว (IMC) อาจได้รับผลกระทบแบบออฟไลน์ ทั้งนี้ขึ้นอยู่กับการกําหนดค่า Reliability Availability Serviceability (RAS) ของหน่วยความจํา

สําหรับแพลตฟอร์มเซิร์ฟเวอร์ Intel ที่แตกต่างกัน มีความแตกต่างบางประการในคําจํากัดความของกิจกรรม โปรดดู คู่มือการแก้ไขปัญหาบันทึกเหตุการณ์ของระบบ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ

Intel แนะนําให้ดาวน์โหลดและอัปเดต BIOS ระบบเป็น เวอร์ชั่นล่าสุดสําหรับ แพลตฟอร์มเซิร์ฟเวอร์ของคุณ

หากระบบเป็น Intel® Data Center Block สําหรับ Nutanix* Enterprise Cloud โปรดไปที่หน้า Nutanix* Life Cycle Manager สําหรับรายการความเข้ากันได้ของฮาร์ดแวร์และเฟิร์มแวร์ โปรดไปที่ หน้าความเข้ากันได้ของฮาร์ดแวร์และเฟิร์มแวร์ Nutanix*

 

หัวข้อที่เกี่ยวข้อง
แนวทางการเปลี่ยนหน่วยความจําและการทดสอบหน่วยความจําขั้นสูงสําหรับผลิตภัณฑ์เซิร์ฟเวอร์ Intel® ที่ใช้ชิปเซ็ต Intel® 62X – เอกสารไวท์เปเปอร์
บทบาทของหน่วยความจํา ECC
วิธีการกู้คืนจาก IERR สําหรับบอร์ดเซิร์ฟเวอร์ Intel®
เซิร์ฟเวอร์ของฉันหยุดทํางานและแสดงข้อผิดพลาดนี้: CPU Machine Chk ของโปรเซสเซอร์
สําหรับเคล็ดลับการอัปเดตเฟิร์มแวร์และการแก้ไขปัญหา
เหตุการณ์ข้อผิดพลาดที่แก้ไขได้ของ Memory Error Correction Code (ECC) คืออะไร
เครื่องมือ SDLA วิธีนับข้อผิดพลาด ECC