การวินิจฉัยพื้นฐานสําหรับข้อผิดพลาดหน่วยความจํา ECC ที่แก้ไขได้/ไม่สามารถแก้ไขได้ด้วยบอร์ดเซิร์ฟเวอร์ Intel®
หมาย เหตุ | สําหรับการสนับสนุนการแก้ไขปัญหาที่อธิบายไว้ในบทความนี้ โปรดดู ข้อมูลจําเพาะทางเทคนิคของผลิตภัณฑ์ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ |
สิ่งที่ฉันเห็นคืออะไร
เหตุการณ์ Error Correcting Code (ECC) ที่แก้ไขได้และ/หรือไม่สามารถแก้ไขได้สําหรับโมดูลหน่วยความจํา ตัวอย่างเช่น:
Mmry ECC Sensor SMI Handler Memory Warning CPU: 1, DIMM: D0 DIMM Rank: 1. - ECC ที่แก้ไขได้ / ข้อผิดพลาดหน่วยความจําที่แก้ไขได้อื่นๆ - ยกเลิกการใช้งาน
เหตุการณ์ข้อผิดพลาดที่แก้ไขได้ของ Memory Error Correction Code (ECC) คืออะไร
ข้อผิดพลาดที่แก้ไข ECC ได้แสดงถึงการเกินขีดจํากัดสําหรับ Dual In-line Memory Modules (DIMM) ที่กําหนดภายในกรอบเวลาที่กําหนด
วิธีแก้ไข:
ข้อผิดพลาดของข้อมูลหน่วยความจําถูกบันทึกว่าถูกต้องหรือไม่สามารถแก้ไขได้ ดู คําแนะนําด้านล่างตามประเภทข้อผิดพลาดที่คุณพบ:
หมาย เหตุ |
|
- หากไม่มีปัญหารุนแรง (Purple Screen of Death (PSOD) หรือการรีสตาร์ทที่ไม่คาดคิด) และข้อผิดพลาดของ ECC ที่แก้ไขได้ รวมถึงข้อผิดพลาด Adaptative Double Device Data Correction (ADDDC) จะน้อยกว่า 10 เหตุการณ์ในทุกๆ 24 ชั่วโมงสําหรับแต่ละตําแหน่งที่ตั้ง DIMM ซึ่งอยู่ภายในขีดจํากัดคําแนะนําคือ การตรวจสอบ เซิร์ฟเวอร์สําหรับข้อผิดพลาด ECC ในตําแหน่ง DIMM แต่ละตําแหน่งที่กระตุ้นเหตุการณ์
- หากมีปัญหารุนแรง (Purple Screen of Death (PSOD) หรือการรีสตาร์ทโดยไม่คาดคิด) และข้อผิดพลาดของ ECC ที่แก้ไขได้ รวมถึงข้อผิดพลาด Adaptative Double Device Data Correction (ADDDC) จะน้อยกว่า 10 เหตุการณ์ทุกๆ 24 ชั่วโมงสําหรับตําแหน่ง DIMM แต่ละรายการ ขอแนะนําให้ใส่ตําแหน่ง DIMM แต่ละตําแหน่ง อีกครั้ง โดยทําตามขั้นตอนด้านล่าง:
- ปิด ระบบและ ถอด สายไฟ AC
- ระบุ ตําแหน่ง DIMM เพื่อนั่งใหม่ โปรดดู ข้อมูลจําเพาะทางเทคนิคของผลิตภัณฑ์ สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณเพื่อระบุตําแหน่ง DIMM
- นั่ง ใหม่ของ DIMM ที่ระบุ
- เสียบ สายไฟ AC และ เปิดเครื่องอีกครั้งบน ระบบ
- สังเกต เป็นเวลา 24 ชั่วโมงหากมีข้อผิดพลาด ECC เกิดขึ้นซ้ํา
- หากข้อผิดพลาด ECC ยังคงอยู่ในตําแหน่ง DIM เดียวกันที่ติดตั้งใหม่ สร้างและส่ง SEL และดีบักล็อก โดยทั้งคู่สร้างขึ้นจาก BMC Web Console ไปยัง Intel Customer Support
- คุณสมบัติการทดสอบหน่วยความจําขั้นสูง (AMT) ถูกนํามาใช้ใน BIOS และสแต็กเฟิร์มแวร์ โดยเริ่มต้นจาก BIOS ฉบับปรับปรุง 02.01.0014 สําหรับระบบเซิร์ฟเวอร์ Intel® S2600BP S2600WF และ S2600ST และเริ่มต้นด้วยการปรับปรุง BIOS 22.01.0097 สําหรับระบบเซิร์ฟเวอร์ Intel® S9200WK สําหรับผลิตภัณฑ์เหล่านี้ ขอแนะนําให้เปิดใช้งานคุณสมบัติการทดสอบหน่วยความจําขั้นสูง (AMT) และคุณลักษณะ Post Package Repair (PPR) ผ่านยูทิลิตีการตั้งค่า BIOS เพื่อดําเนินการตรวจสอบสถานะหน่วยความจําโดยสมบูรณ์ ดูบทที่ 5 ใน แนวทางการเปลี่ยนหน่วยความจําและการทดสอบหน่วยความจําขั้นสูงสําหรับผลิตภัณฑ์เซิร์ฟเวอร์ Intel® ที่ใช้ชิปเซ็ต Intel® 62X – เอกสาร ข้อมูลสําหรับขั้นตอนโดยละเอียด
หมาย เหตุ | ข้อผิดพลาด Error Correction Code (ECC) ได้รับการแก้ไขด้วยตนเอง ขึ้นอยู่กับการกําหนดค่า Reliability Availability Serviceability (RAS) ของหน่วยความจํา Integrated Memory Controller (IMC) อาจใช้ DIMM แบบออฟไลน์ที่ได้รับผลกระทบ |
สําหรับแพลตฟอร์มเซิร์ฟเวอร์ Intel ที่แตกต่างกัน อาจมีความแตกต่างบางประการในคําจํากัดความของเหตุการณ์โปรดดูที่คู่มือการแก้ไขปัญหาบันทึกเหตุการณ์ระบบสําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ | |
Intel ขอแนะนําให้ดาวน์โหลดและอัปเดต BIOS ระบบเป็น เวอร์ชั่นล่าสุดที่มี สําหรับแพลตฟอร์มเซิร์ฟเวอร์ของคุณ | |
หากระบบเป็น Intel® Data Center Block สําหรับ Nutanix* Enterprise Cloud แต่โปรดไปที่หน้า Nutanix* Life Cycle Manager สําหรับรายการความเข้ากันได้ของฮาร์ดแวร์และเฟิร์มแวร์ ให้ไปที่ หน้าความเข้ากันได้ของฮาร์ดแวร์และเฟิร์มแวร์ Nutanix* |