Intel® Distribution ของชุดเครื่องมือ OpenVINO™

753640
3/6/2024

บทนำ

แพ็คเกจนี้มี Intel® Distribution ซอฟต์แวร์ OpenVINO™ Toolkit เวอร์ชัน 2023.3 LTS สําหรับ Linux*, Windows* และ macOS*

การดาวน์โหลดที่พร้อมให้บริการ

  • Debian Linux*
  • ขนาด: 24.7 MB
  • SHA256: A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65
  • CentOS 7 (1908)*
  • ขนาด: 48.4 MB
  • SHA256: BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259
  • Red Hat Enterprise Linux 8*
  • ขนาด: 41.7 MB
  • SHA256: DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD
  • Ubuntu 22.04 LTS*
  • ขนาด: 45.6 MB
  • SHA256: CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D
  • Ubuntu 20.04 LTS*
  • ขนาด: 44.6 MB
  • SHA256: 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03
  • Ubuntu 18.04 LTS*
  • ขนาด: 41.7 MB
  • SHA256: 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31
  • Ubuntu 18.04 LTS*
  • ขนาด: 36.1 MB
  • SHA256: 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1
  • macOS*
  • ขนาด: 30.3 MB
  • SHA256: 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B
  • macOS*
  • ขนาด: 124.8 MB
  • SHA256: EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3
  • Windows 11*, Windows 10, 64-bit*
  • ขนาด: 95.9 MB
  • SHA256: 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

คำอธิบายโดยละเอียด

มีอะไรใหม่

การครอบคลุมที่สร้าง AI และการผนวกรวมเฟรมเวิร์กเพิ่มเติมเพื่อลดการเปลี่ยนแปลงรหัส

  • ประสบการณ์ใหม่ในทันทีที่เริ่มใช้งานสําหรับรูปแบบการเข้ารหัสประโยค TensorFlow* ผ่านการติดตั้ง OpenVINO™ Toolkit Tokenizers
  • ชุดเครื่องมือ OpenVINO™ตอนนี้รองรับผสมผสานผู้เชี่ยวชาญ (MoE) ซึ่งเป็นสถาปัตยกรรมใหม่ที่ช่วยประมวลผลแบบจําลองการผลิตที่มีประสิทธิภาพมากขึ้นผ่านไปป์ไลน์
  • ขณะนี้นักพัฒนา JavaScript สามารถเข้าถึง OpenVINO API ได้อย่างราบรื่น ผูกพันใหม่นี้ช่วยให้การรวมราบรื่นกับ JavaScript API
  • รุ่นใหม่และน่าจดจําได้รับการตรวจสอบ: Mistral, StableLM-tuned-alpha-3b และ StableLM-Epoch-3B

รองรับ Large Language Model (LLM) ที่กว้างขึ้นและเทคนิคการบีบอัดโมเดลมากขึ้น

  • คุณภาพที่ดีขึ้นในการบีบอัดน้ําหนัก INT4 สําหรับ LLM โดยการเพิ่มเทคนิคยอดนิยม การกําหนดปริมาณน้ําหนักที่ทราบการเปิดใช้งาน ไปยัง Neural Network Compression Framework (NNCF) ส่วนเพิ่มเติมนี้จะช่วยลดข้อกําหนดหน่วยความจําและช่วยเร่งความเร็วการสร้างโทเค็น
  • สัมผัสประสิทธิภาพ LLM ที่ปรับปรุงใหม่บน Intel® CPU พร้อมการปรับปรุงสถานะหน่วยความจําภายใน และความแม่นยํา INT8 สําหรับ KV-cache ปรับแต่งมาโดยเฉพาะสําหรับ LLM แบบหลายคิวรีเช่น ChatGLM
  • การเปิดตัว OpenVINO™ 2024.0 ช่วยให้นักพัฒนาง่ายขึ้นโดยการรวมคุณสมบัติ OpenVINO™มากขึ้นเข้ากับระบบนิเวศ Hugging Face* จัดเก็บการกําหนดค่ากําหนดปริมาณสําหรับรุ่นยอดนิยมโดยตรงใน Hugging Face เพื่อบีบอัดแบบจําลองเป็นรูปแบบ INT4 ในขณะที่รักษาความถูกต้องและประสิทธิภาพ

ความสามารถในการพกพาและประสิทธิภาพที่มากขึ้นเพื่อใช้งาน AI ที่ Edge ในระบบคลาวด์ หรือภายในเครื่อง

  • สถาปัตยกรรมปลั๊กอินแสดงตัวอย่างของ Neural Processor Unit (NPU) ในตัวซึ่งเป็นส่วนหนึ่งของโปรเซสเซอร์ Intel® Core™ Ultra รวมอยู่ในแพ็คเกจ OpenVINO™หลักบน PyPI
  • ประสิทธิภาพที่ปรับปรุงบน ARM* โดยเปิดใช้งานไลบรารีเธรด AR ม นอกจากนี้ ตอนนี้เรายังรองรับแพลตฟอร์ม Arm แบบมัลติคอร์และเปิดใช้งานความแม่นยํา FP16 ตามค่าเริ่มต้นบน MacOS*
  • LLM ที่ให้บริการตัวอย่างใหม่และที่ได้รับการปรับปรุงจาก OpenVINO™ Model Server สําหรับอินพุตแบบหลายชุด และ Retrieval Augmented Generation (RAG)

รันไทม์ OpenVINO™

ทั่ว ไป

  • API ดั้งเดิมสําหรับ CPP และการรวม Python ถูกลบออกแล้ว
  • การสนับสนุน StringTensor ได้ขยายออกไปโดยตัวดําเนินการ เช่น Gather, Reshape และ Concat เป็นรากฐานในการปรับปรุงการสนับสนุนสําหรับตัวดําเนินการโทเคน และสอดคล้องกับ TensorFlow Hub
  • oneDNN ได้รับการอัปเดตเป็น v3.3 สําหรับอุปกรณ์ CPU และเป็น v3.4 สําหรับเป้าหมายของอุปกรณ์ GPU (บันทึกย่อประจํารุ่น oneDNN: https://github.com/oneapi-src/oneDNN/releases)

ปลั๊กอินอุปกรณ์ CPU

  • ประสิทธิภาพของ LLM บนแพลตฟอร์ม Intel® CPU ได้รับการปรับปรุงสําหรับระบบที่ใช้ AVX2 และ AVX512 โดยใช้การกําหนดปริมาณแบบไดนามิกและการปรับปรุงสถานะหน่วยความจําภายใน เช่น ความแม่นยํา INT8 สําหรับแคช KV โปรเซสเซอร์ Intel® Core™ เจนเนอเรชั่น 13 และ 14 และ Intel® Core™ Ultra ใช้ AVX2 สําหรับการทํางานของ CPU และแพลตฟอร์มเหล่านี้จะได้รับประโยชน์จากความเร็วที่เร็วขึ้น
  • เปิดใช้งานคุณสมบัติเหล่านี้โดยการตั้งค่า "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" และ "KV_CACHE_PRECISION":"u8" ในไฟล์การกําหนดค่า
  • ขณะนี้การกําหนดค่า API "ov:affinity" ถูกยกเลิกแล้วและจะถูกลบออกในเวอร์ชัน 2025.0
  • ต่อไปนี้ได้รับการปรับปรุงและปรับให้เหมาะสม:
    • LLM แบบหลายแบบสอบถาม (เช่น ChatGLM 2/3) สําหรับ BF16 บนโปรเซสเซอร์เจนเนอเรชั่น 4 และ 5 Intel® Xeon®ปรับขนาดได้
    • ประสิทธิภาพโมเดล Mixtral
    • เวลาคอมไพล์ LLM แบบบีบอัด 8 บิตและการใช้หน่วยความจํา ซึ่งเป็นประโยชน์สําหรับโมเดลที่มีระบบฝังขนาดใหญ่ เช่น Qwen
    • เครือข่ายแบบคอนโวลูชันในความแม่นยํา FP16 บนแพลตฟอร์ม ARM

ปลั๊กอินอุปกรณ์ GPU

  • ต่อไปนี้ได้รับการปรับปรุงและปรับให้เหมาะสม:
    • ความหน่วงแฝงโทเค็นเฉลี่ยสําหรับ LLM บนแพลตฟอร์ม GPU (iGPU) ในตัว โดยใช้โมเดลที่บีบอัด INT4 ที่มีขนาดบริบทขนาดใหญ่บนโปรเซสเซอร์ Intel® Core™ Ultra
    • ประสิทธิภาพการค้นหาลําแสง LLM บน iGPU ทั้งค่าเฉลี่ย และโทเค็นแรกลดอาจคาดว่าจะมีขนาดบริบทที่ใหญ่ขึ้น
    • ประสิทธิภาพแบบหลายชุดของ YOLOv5 บนแพลตฟอร์ม iGPU
  • การใช้หน่วยความจําสําหรับ LLM ได้รับการปรับให้เหมาะสม โดยเปิดใช้งานโมเดล 7B ที่มีบริบทที่ใหญ่กว่าบนแพลตฟอร์ม 16 Gb

NPU Device Plugin (คุณสมบัติตัวอย่าง)

  • ปลั๊กอิน NPU สําหรับ OpenVINO™พร้อมใช้งานผ่าน PyPI (รัน "pip install openvino")

OpenVINO Python API

  • ลายเซ็นวิธีการ.add_extension ได้รับการปรับให้สอดคล้อง ปรับปรุงพฤติกรรมของ API เพื่อประสบการณ์ผู้ใช้ที่ดีขึ้น

OpenVINO C API

  • ตอนนี้ ov_property_key_cache_mode (C++ ov::cache_mode) จะเปิดใช้โหมด optimize_size และ optimize_speed ในการตั้งค่า/รับแคชโมเดล
  • มีการแก้ไขพื้นผิว VA บน Windows*

OpenVINO Node.js API

  • OpenVINO - การผูก JS จะสอดคล้องกับ OpenVINO C++ API
  • ตอนนี้ช่องทางการเผยแพร่ใหม่: รีจิสทรีซอฟต์แวร์ Node Package Manager (npm) (ตรวจสอบคู่มือการติดตั้ง)
  • JavaScript API มีให้สําหรับผู้ใช้ Windows* แล้ว เนื่องจากข้อจํากัดบางประการสําหรับแพลตฟอร์มอื่นนอกเหนือจาก Linux* ถูกลบออก

การสนับสนุนเฟรมเวิร์ก TensorFlow

  • ขณะนี้ Tensor สตริงได้รับการสนับสนุนโดยเนทีฟ จัดการบนอินพุต เอาต์พุต และชั้นกลาง #22024
    • TensorFlow Hub ตัวเข้ารหัสแบบหลายภาษาแบบสากลที่อนุมานออกจากกล่อง
    • Tensor สตริงที่รองรับการดําเนินการ Gather, Concat และ Reshape
    • การผนวกรวมกับโมดูล openvino-tokenizers - การนําเข้า openvino-tokenizers แก้ไข TensorFlow Frontend โดยอัตโนมัติด้วยตัวแปลที่จําเป็นสําหรับแบบจําลองที่มีโทเคน
  • ไม่สามารถใช้งาน Fallback สําหรับ Model Optimizer โดยการดําเนินการไปยังส่วนหน้าแบบเดิมได้อีกต่อไป ความล้มเหลวในการกําหนดค่า.json จะยังคงมีอยู่จนกว่า Model Optimizer จะเลิกผลิต #21523
  • เพิ่มการสนับสนุนสําหรับรายการต่อไปนี้แล้ว:
    • ตัวแปรและทรัพยากรที่เสถียร เช่น HashTable*, ตัวแปร, VariableV2 #22270
    • ประเภทเทนเซอร์ใหม่: tf.u16, tf.u32 และ tf.u64 #21864
    • 14 NEW Ops* ตรวจสอบรายการ ที่นี่ (ทําเครื่องหมายเป็นใหม่)
    • TensorFlow 2.15 #22180
  • ปัญหาต่อไปนี้ได้รับการแก้ไขแล้ว:
    • การแปลง UpSampling2D ล้มเหลวเมื่อพิมพ์อินพุตเป็น int16 #20838
    • ดัชนีรายการตัวสร้างดัชนีสําหรับ Squeeze #22326
    • แก้ไข FloorDiv Computation สําหรับจํานวนเต็มที่ลงชื่อไว้ #22684
    • แก้ไขข้อผิดพลาดแคสต์ที่ไม่ดีสําหรับ tf TensorShape ที่จะ ov. รูปร่างบางส่วน #22813
    • แก้ไขแอททริบิวต์ tf.string สําหรับรุ่นในหน่วยความจํา #22752

การสนับสนุนเฟรมเวิร์ก ONNX

  • ขณะนี้ ONNX* Frontend ใช้ OpenVINO API 2.0

การสนับสนุนเฟรมเวิร์ก PyTorch

  • ชื่อเอาต์พุตที่ถูกถอดออกจาก dict หรือ tuple ชัดเจนขึ้นแล้ว #22821
  • ตอนนี้ FX Graph (torch.compile) รองรับอินพุต kwarg ซึ่งเพิ่มความครอบคลุมชนิดข้อมูล #22397

เซิร์ฟเวอร์รุ่น OpenVINO

  • OpenVINO™ใช้แบ็กเอนด์รันไทม์คือ 2024.0 ในขณะนี้
  • ตอนนี้การสาธิตการสร้างข้อความรองรับขนาดชุดข้อความหลายชุดพร้อมการสตรีมและไคลเอนต์ทั่วไป
  • ขณะนี้ไคลเอนต์ REST รองรับการบริการตามกราฟ mediapipe รวมถึงโหนดไปป์ไลน์ python
  • การขึ้นต่อกันที่รวมไว้ได้รับการปรับปรุงที่เกี่ยวข้องกับความปลอดภัย
  • การเปลี่ยนโมเดลในรันไทม์ตามคําขอที่เข้ามา (รูปร่างอัตโนมัติและขนาดชุดอัตโนมัติ) ถูกยกเลิกการใช้งานและจะถูกลบออกในอนาคต แนะนําให้ใช้โมเดลรูปร่างไดนามิกของ OpenVINO แทน

เฟรมเวิร์คการบีบอัดโครงข่ายประสาทเทียม (NNCF)

  • อัลกอริธึม Activation-aware Weight Quantization (AWQ) สําหรับการบีบอัดน้ําหนัก 4 บิตที่รับรู้ข้อมูลมีให้ดาวน์โหลดแล้ว ช่วยเพิ่มความแม่นยําที่ดีขึ้นสําหรับ LLM ที่ถูกบีบอัดโดยมีอัตราส่วนสูงของน้ําหนัก 4 บิต ในการเปิดใช้งาน ให้ใช้พารามิเตอร์ตัวเลือก 'awq' เฉพาะของ nncf.compress_weights() API
  • ขณะนี้โมเดล ONNX ได้รับการสนับสนุนในการกําหนดปริมาณการฝึกอบรมหลังการฝึกอบรมด้วยการควบคุมความถูกต้องผ่าน วิธีการ nncf.quantize_with_accuracy_control() สามารถใช้กับรุ่น OpenVINO รูปแบบ IR และ ONNX
  • มีตัวอย่างการบีบอัดน้ําหนัก แล้ว โดยสาธิตวิธีค้นหาไฮเปอร์คามิเตอร์ที่เหมาะสมสําหรับโมเดล TinyLLama จาก Hugging Face Transformers รวมถึง LLM อื่นๆ พร้อมการปรับเปลี่ยนบางอย่าง

โทเคน OpenVINO

  • การสนับสนุน Regex ได้รับการปรับปรุงแล้ว
  • ปรับปรุงความครอบคลุมโมเดลแล้ว
  • เพิ่มข้อมูลเมตาของโทเคนไปยัง rt_info แล้ว
  • เพิ่มการรองรับแบบจํากัดสําหรับ Tensorflow Text models: แปลง MUSE สําหรับ TF Hub พร้อมอินพุตสตริง
  • โทเคน OpenVINO มีที่เก็บข้อมูลของตนเองตอนนี้: https://github.com/openvinotoolkit/openvino_tokenizers

การเปลี่ยนแปลงอื่นๆ และปัญหาที่ทราบ

โน้ตบุ๊ก Jupyter

สมุดบันทึกต่อไปนี้ได้รับการอัปเดตแล้วหรือถูกเพิ่มใหม่:

ปัญหาที่ทราบ

ส่วนประกอบ: PyTorch FE

ID: N/A

คําอธิบาย: เริ่มต้นด้วยรุ่น 2024.0 อินพุตและเอาต์พุตโมเดลจะไม่มีชื่อเทนเซอร์อีกต่อไป เว้นแต่จะตั้งค่าให้สอดคล้องกับพฤติกรรมเฟรมเวิร์ก PyTorch อย่างชัดแจ้ง

ส่วนประกอบ: รันไทม์ของ GPU

รหัส: 132376

รายละเอียด: ความหน่วงแฝงการอนุมานครั้งแรกช้าลงสําหรับ LLM บนโปรเซสเซอร์ Intel® Core™ Ultra อาจลดลงสูงสุด 10-20% เนื่องจากการเพิ่มประสิทธิภาพหน่วยความจําอย่างรุนแรงสําหรับการประมวลผลลําดับแบบยาว (การใช้หน่วยความจําลดลงประมาณ 1.5-2 GB)

ส่วนประกอบ: CPU รันไทม์

ID: N/A

รายละเอียด: ผลลัพธ์ประสิทธิภาพ (ความหน่วงแฝงโทเค็นแรก) อาจแตกต่างกันไปจากเวอร์ชั่น OpenVINO ก่อนหน้า สําหรับการอนุมาน "ความหน่วง" ของ LLM ที่มีพรอมท์ที่ยาวบนแพลตฟอร์ม Intel® Xeon®ที่มี 2 ซ็อกเก็ตขึ้นไป เหตุผลก็คือ คอร์ CPU ทั้งหมดของซ็อกเก็ตเดียวที่ใช้แอปพลิเคชันนั้นถูกใช้ เพื่อลดโอเวอร์เฮดหน่วยความจําสําหรับ LLM เมื่อไม่ได้ใช้การควบคุม NUMA

การแก้ไขปัญหา: คาดว่าจะมีลักษณะการทํางานแต่อาจใช้การกําหนดค่าสตรีมและเธรดเพื่อรวมคอร์จากทุกซ็อกเก็ต

การเสื่อมราคาและการสนับสนุน

ไม่แนะนําให้ใช้คุณลักษณะและส่วนประกอบที่ไม่ได้รับการสนับสนุน พร้อมให้ใช้งานในการเปลี่ยนไปใช้โซลูชันใหม่ได้อย่างราบรื่นและจะเลิกผลิตในอนาคต หากต้องการใช้คุณสมบัติที่เลิกผลิตต่อไป คุณจะต้องกลับไปใช้เวอร์ชัน LTS OpenVINO ล่าสุดที่รองรับคุณสมบัติดังกล่าว

สําหรับรายละเอียดเพิ่มเติม โปรดดู ที่หน้า OpenVINO Legacy Features and Components

เลิกผลิตในปี 2024.0:

ยกเลิกการใช้งานและจะถูกลบออกไปในอนาคต:

  • แพ็คเกจ OpenVINO™ Development Tools (pip install openvino-dev) จะถูกลบออกจากตัวเลือกการติดตั้งและช่องทางการกระจายที่เริ่มต้นด้วย OpenVINO 2025.0
  • เครื่องมือเพิ่มประสิทธิภาพโมเดลจะเลิกผลิตด้วย OpenVINO 2025.0 แนะนําให้ใช้ OpenVINO Model Converter (การเรียก API: OVC) แทน ทําตามคําแนะนําการแปลงรุ่น สําหรับรายละเอียดเพิ่มเติม
  • OpenVINO property Affinity API จะเลิกผลิตด้วย OpenVINO 2025.0 ซึ่งจะถูกแทนที่ด้วยการกําหนดค่าการผูก CPU (ov::hint:enable_cpu_pinning)
  • OpenVINO รุ่นส่วนประกอบเซิร์ฟเวอร์:
    • การเปลี่ยนโมเดลในรันไทม์ตามคําขอที่เข้ามา (รูปร่างอัตโนมัติและขนาดชุดอัตโนมัติ) ถูกยกเลิกการใช้งานและจะถูกลบออกในอนาคต แนะนําให้ใช้โมเดลรูปร่างไดนามิกของ OpenVINO แทน

ข้อกําหนดของระบบ

ปฏิเสธ ฮาร์ดแวร์บางอย่าง (รวมถึงแต่ไม่จํากัดเพียง GPU และ NPU) ต้องติดตั้งไดรเวอร์เฉพาะด้วยตนเอง และ/หรือส่วนประกอบซอฟต์แวร์อื่นๆ เพื่อให้ทํางานได้อย่างถูกต้องและ/หรือใช้ความสามารถของฮาร์ดแวร์อย่างดีที่สุด นี่อาจต้องมีการอัปเดตระบบปฏิบัติการ ซึ่งรวมถึงแต่ไม่จํากัดเพียงเคอร์เนล Linux โปรดดูเอกสารประกอบสําหรับรายละเอียด การแก้ไขเหล่านี้ควรได้รับการจัดการโดยผู้ใช้และไม่ได้เป็นส่วนหนึ่งของการติดตั้ง OpenVINO การแก้ไขเหล่านี้ควรได้รับการจัดการโดยผู้ใช้ และไม่ได้เป็นส่วนหนึ่งของการติดตั้ง OpenVINO สําหรับความต้องการของระบบ โปรดดูที่ส่วน ความต้องการของระบบ ใน บันทึกย่อประจํารุ่น

คําแนะนําในการติดตั้ง

คุณสามารถเลือกวิธีการติดตั้ง OpenVINO™ Runtime ตามระบบปฏิบัติการของคุณ:

สิ่งที่รวมอยู่ในแพ็คเกจดาวน์โหลด

  • OpenVINO™ Runtime/Inference Engine สําหรับ C/C++

ลิงก์ที่เป็นประโยชน์

หมายเหตุ: ลิงก์จะเปิดขึ้นในหน้าต่างใหม่

การดาาวน์โหลดนี้สำหรับผลิตภัณฑ์ในรายการด้านล่างเท่านั้น

เนื้อหาในหน้านี้เป็นการผสมผสานระหว่างการแปลเนื้อหาต้นฉบับภาษาอังกฤษโดยมนุษย์และคอมพิวเตอร์ เนื้อหานี้จัดทำขึ้นเพื่อความสะดวกของคุณและเพื่อเป็นข้อมูลทั่วไปเท่านั้นและไม่ควรอ้างอิงว่าสมบูรณ์หรือถูกต้อง หากมีความขัดแย้งใด ๆ ระหว่างเวอร์ชันภาษาอังกฤษของหน้านี้กับคำแปล เวอร์ชันภาษาอังกฤษจะมีผลเหนือกว่าและควบคุม ดูเวอร์ชันภาษาอังกฤษของหน้านี้