การวินิจฉัยพื้นฐานสําหรับข้อผิดพลาดหน่วยความจํา ECC ที่แก้ไขได้/ไม่สามารถแก้ไขได้ด้วยบอร์ดเซิร์ฟเวอร์ Intel®

เอกสาร

การแก้ไขปัญหา

000024007

21/12/2023

หมาย เหตุ สําหรับการสนับสนุนการแก้ไขปัญหาที่อธิบายไว้ในบทความนี้ โปรดดู ข้อมูลจําเพาะทางเทคนิคของผลิตภัณฑ์ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ

สิ่งที่ฉันเห็นคืออะไร

เหตุการณ์ Error Correcting Code (ECC) ที่แก้ไขได้และ/หรือไม่สามารถแก้ไขได้สําหรับโมดูลหน่วยความจํา ตัวอย่างเช่น:

Mmry ECC Sensor SMI Handler Memory Warning CPU: 1, DIMM: D0 DIMM Rank: 1. - ECC ที่แก้ไขได้ / ข้อผิดพลาดหน่วยความจําที่แก้ไขได้อื่นๆ - ยกเลิกการใช้งาน

เหตุการณ์ข้อผิดพลาดที่แก้ไขได้ของ Memory Error Correction Code (ECC) คืออะไร

ข้อผิดพลาดที่แก้ไข ECC ได้แสดงถึงการเกินขีดจํากัดสําหรับ Dual In-line Memory Modules (DIMM) ที่กําหนดภายในกรอบเวลาที่กําหนด


วิธีแก้ไข:

ข้อผิดพลาดของข้อมูลหน่วยความจําถูกบันทึกว่าถูกต้องหรือไม่สามารถแก้ไขได้ ดู คําแนะนําด้านล่างตามประเภทข้อผิดพลาดที่คุณพบ:

error types

หมาย เหตุ
  • หากไม่มีปัญหารุนแรง (Purple Screen of Death (PSOD) หรือการรีสตาร์ทที่ไม่คาดคิด) และข้อผิดพลาดของ ECC ที่แก้ไขได้ รวมถึงข้อผิดพลาด Adaptative Double Device Data Correction (ADDDC) จะน้อยกว่า 10 เหตุการณ์ในทุกๆ 24 ชั่วโมงสําหรับแต่ละตําแหน่งที่ตั้ง DIMM ซึ่งอยู่ภายในขีดจํากัดคําแนะนําคือ การตรวจสอบ เซิร์ฟเวอร์สําหรับข้อผิดพลาด ECC ในตําแหน่ง DIMM แต่ละตําแหน่งที่กระตุ้นเหตุการณ์
  • หากมีปัญหารุนแรง (Purple Screen of Death (PSOD) หรือการรีสตาร์ทโดยไม่คาดคิด) และข้อผิดพลาดของ ECC ที่แก้ไขได้ รวมถึงข้อผิดพลาด Adaptative Double Device Data Correction (ADDDC) จะน้อยกว่า 10 เหตุการณ์ทุกๆ 24 ชั่วโมงสําหรับตําแหน่ง DIMM แต่ละรายการ ขอแนะนําให้ใส่ตําแหน่ง DIMM แต่ละตําแหน่ง อีกครั้ง โดยทําตามขั้นตอนด้านล่าง:
    1. ปิด ระบบและ ถอด สายไฟ AC
    2. ระบุ ตําแหน่ง DIMM เพื่อนั่งใหม่ โปรดดู ข้อมูลจําเพาะทางเทคนิคของผลิตภัณฑ์ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณเพื่อระบุตําแหน่ง DIMM
    3. นั่ง ใหม่ของ DIMM ที่ระบุ
    4. เสียบ สายไฟ AC และ เปิดเครื่องอีกครั้งบน ระบบ
    5. สังเกต เป็นเวลา 24 ชั่วโมงหากมีข้อผิดพลาด ECC เกิดขึ้นซ้ํา
    6. หากข้อผิดพลาด ECC ยังคงอยู่ในตําแหน่ง DIM เดียวกันที่ติดตั้งใหม่ สร้างและส่ง SEL และดีบักล็อก โดยทั้งคู่สร้างขึ้นจาก BMC Web Console ไปยัง Intel Customer Support
  • คุณสมบัติการทดสอบหน่วยความจําขั้นสูง (AMT) ถูกนํามาใช้ใน BIOS และสแต็กเฟิร์มแวร์ โดยเริ่มต้นจาก BIOS ฉบับปรับปรุง 02.01.0014 สําหรับระบบเซิร์ฟเวอร์ Intel® S2600BP S2600WF และ S2600ST และเริ่มต้นด้วยการปรับปรุง BIOS 22.01.0097 สําหรับระบบเซิร์ฟเวอร์ Intel® S9200WK สําหรับผลิตภัณฑ์เหล่านี้ ขอแนะนําให้เปิดใช้งานคุณสมบัติการทดสอบหน่วยความจําขั้นสูง (AMT) และคุณลักษณะ Post Package Repair (PPR) ผ่านยูทิลิตีการตั้งค่า BIOS เพื่อดําเนินการตรวจสอบสถานะหน่วยความจําโดยสมบูรณ์ ดูบทที่ 5 ใน แนวทางการเปลี่ยนหน่วยความจําและการทดสอบหน่วยความจําขั้นสูงสําหรับผลิตภัณฑ์เซิร์ฟเวอร์ Intel® ที่ใช้ชิปเซ็ต Intel® 62X – เอกสาร ข้อมูลสําหรับขั้นตอนโดยละเอียด

หมาย เหตุ

ข้อผิดพลาด Error Correction Code (ECC) ได้รับการแก้ไขด้วยตนเอง ขึ้นอยู่กับการกําหนดค่า Reliability Availability Serviceability (RAS) ของหน่วยความจํา Integrated Memory Controller (IMC) อาจใช้ DIMM แบบออฟไลน์ที่ได้รับผลกระทบ

สําหรับแพลตฟอร์มเซิร์ฟเวอร์ Intel ที่แตกต่างกัน อาจมีความแตกต่างบางประการในคําจํากัดความของเหตุการณ์โปรดดูที่คู่มือการแก้ไขปัญหาบันทึกเหตุการณ์ระบบสําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ

Intel ขอแนะนําให้ดาวน์โหลดและอัปเดต BIOS ระบบเป็น เวอร์ชั่นล่าสุดที่มี สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ

หากระบบเป็น Intel® Data Center Block สําหรับ Nutanix* Enterprise Cloud แต่โปรดไปที่หน้า Nutanix* Life Cycle Manager สําหรับรายการความเข้ากันได้ของฮาร์ดแวร์และเฟิร์มแวร์ ให้ไปที่ หน้าความเข้ากันได้ของฮาร์ดแวร์และเฟิร์มแวร์ Nutanix*

หัวข้อที่เกี่ยวข้อง
แนวทางการเปลี่ยนหน่วยความจําและการทดสอบหน่วยความจําขั้นสูงสําหรับผลิตภัณฑ์เซิร์ฟเวอร์ Intel® ที่ใช้ชิปเซ็ต Intel® 62X – เอกสารข้อมูล
บทบาทของหน่วยความจํา ECC
วิธีการกู้คืนจาก IERR สําหรับบอร์ดเซิร์ฟเวอร์ Intel®
เซิร์ฟเวอร์ของฉันล่มและแสดงข้อผิดพลาดนี้: เครื่อง CPU โปรเซสเซอร์ Chk
สําหรับการอัปเดตเฟิร์มแวร์และเคล็ดลับในการแก้ไขปัญหา
เหตุการณ์ข้อผิดพลาดที่แก้ไขได้ของ Memory Error Correction Code (ECC) คืออะไร
เครื่องมือ SDLA วิธีการนับข้อผิดพลาด ECC