ความคาดหวังเป็นรูปแบบ FP16 เพื่อดําเนินการอนุมานที่เร็วขึ้นเมื่อเทียบกับรุ่นเดียวกันในรูปแบบ FP32 การใช้ benchmark_app เพื่อเรียกใช้การอนุมานด้วยการตั้งค่าเริ่มต้นของแอปพลิเคชันสําหรับทั้งสองรูปแบบ แต่ไม่มีการปรับปรุงประสิทธิภาพ (FPS ที่สูงขึ้น) เมื่อเปรียบเทียบรูปแบบ FP16 กับรูปแบบ FP32
หากต้องการดําเนินการรุ่น FP32 เป็นรูปแบบ F32 ขณะใช้ benchmark_app ให้เพิ่ม -infer_precision f32 สําหรับอุปกรณ์ที่เลือก
ตัวอย่างเช่น:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
สําหรับปลั๊กอิน GPU ความแม่นยําจุดลอยตัวของ GPU primitive จะถูกเลือกตามความแม่นยําในการทํางานใน OpenVINO IR ยกเว้น <บีบอัด f16 OpenVINO รูปแบบ IR ซึ่งดําเนินการใน f16
ความแม่นยํา
สําหรับปลั๊กอิน CPU ความแม่นยําจุดลอยเริ่มต้นของ CPU primitive คือ f32 เพื่อรองรับ f16 OpenVINO™ IR ปลั๊กอินจะแปลงค่า f16 ทั้งหมดเป็น f32 ภายในและการคํานวณทั้งหมดดําเนินการโดยใช้ความแม่นยําดั้งเดิมของ f32 บนแพลตฟอร์มที่รองรับการคํานวณ bfloat16 ดั้งเดิม (มีส่วนขยาย AVX512_BF16 หรือ AMX) ประเภท bf16 จะถูกใช้โดยอัตโนมัติแทนที่จะเป็น f32 เพื่อให้ได้ประสิทธิภาพที่ดีขึ้น (ดู คําแนะนําโหมดการทํางาน)
สําหรับข้อมูลเพข้อมูลเพิ่มเติมเกี่ยวกับประเภทข้อมูลสําหรับปลั๊กอิน CPU/GPU โปรดดู: