พบทรูพุตการอนุมานที่แตกต่างกันเมื่อรันสถาปัตยกรรมโมเดลเดียวกันด้วยไฟล์น้ําหนักที่แตกต่างกัน แม้ว่าโครงสร้างโมเดลจะเหมือนกัน ประสิทธิภาพการอนุมานจะแตกต่างกันไปขึ้นอยู่กับความแม่นยําของน้ําหนักและการนําเสนอที่ใช้
น้ําหนักและความแม่นยําของรุ่น (FP32, FP16, INT8) มีผลต่อประสิทธิภาพการอนุมาน
การใช้รูปแบบ FP32 จะส่งผลให้เกิดการกระจายน้ําหนักทั้งหมดและเป็นที่รู้จักในชื่อจุดลอยตัวที่มีความแม่นยําเดียว
ในขณะเดียวกัน รูปแบบ FP16 และ INT8 ก็เป็นทั้งรูปแบบน้ําหนักที่ถูกบีบอัดที่บีบให้เล็กลง ข้อดีข้อเสียของการบีบอัดเหล่านี้คือความถูกต้องของโมเดล หรือที่เรียกว่า ข้อผิดพลาดกําหนดปริมาณ
ยิ่งบิตได้รับการจัดสรรเพื่อเป็นตัวแทนของข้อมูล ช่วงที่กว้างขึ้นที่อาจจะแสดงถึงและอาจหมายถึงความแม่นยําของโมเดลที่ดีกว่า อย่างไรก็ตาม ข้อมูลที่ใหญ่กว่าต้องการพื้นที่หน่วยความจําที่ใหญ่ขึ้นสําหรับการจัดเก็บข้อมูล แบนด์วิดท์หน่วยความจําที่สูงขึ้นซึ่งจําเป็นในการถ่ายโอนข้อมูลไปรอบๆ และทรัพยากรและเวลาในการประมวลผลมากขึ้น
ผลลัพธ์การวัดประสิทธิภาพ Intel® ดิสทริบิวชันของชุดเครื่องมือ OpenVINO™แสดงถึงความแตกต่างที่ชัดเจนในด้านประสิทธิภาพระหว่างรูปแบบน้ําหนักหรือความแม่นยําที่แตกต่างกัน