Intel® Distribution ของชุดเครื่องมือ OpenVINO™

753640
4/25/2024

บทนำ

แพ็คเกจนี้มี Intel® Distribution ซอฟต์แวร์ชุดเครื่องมือ OpenVINO™ เวอร์ชัน 2024.1 สําหรับ Linux*, Windows* และ macOS*

การดาวน์โหลดที่พร้อมให้บริการ

  • CentOS 7 (1908)*
  • ขนาด: 51.2 MB
  • SHA256: 8F1D8B7D51DD8364BEB330B8364C8C98B15AE70164E5D2843C6D0D71375B83FD
  • Debian Linux*
  • ขนาด: 25 MB
  • SHA256: 916C33CA6902665F62DE80F25309E0B5BDC252225DA33213164C8E2000ABF035
  • Red Hat Enterprise Linux 8*
  • ขนาด: 44.3 MB
  • SHA256: A6EB3A623B1AEB252A10AC57AAD118871E2907B87C4DBE318CAEBC04519C7B5B
  • Ubuntu 18.04 LTS*
  • ขนาด: 44.3 MB
  • SHA256: BAC6A147EBD6D32A9E097C56652553663191FD5D784E5C11EE16A8D3C35A0718
  • Ubuntu 20.04 LTS*
  • ขนาด: 47.2 MB
  • SHA256: F6DAF300D235458B22A03789F8CB4BC81CA9108A0B72C18480090B4EF84BF751
  • Ubuntu 20.04 LTS*
  • ขนาด: 33.3 MB
  • SHA256: 7B8A88ACC9EF8E65E6B896D4BE4BCCCB9FEE7AC19FC20C62B4F99DB18BF15084
  • Ubuntu 22.04 LTS*
  • ขนาด: 48.3 MB
  • SHA256: 69F15878F54D7B61EB54EB5B2631741F147E85383539F5436A6672FB07C459D2
  • macOS*
  • ขนาด: 126.4 MB
  • SHA256: 4FEB824F610D65D8218183D3453C8DA6DB5EA641F858B5CB98413B675554898F
  • macOS*
  • ขนาด: 30.8 MB
  • SHA256: 6997E398DC14F0E52B7A286374CC7A02FE6B3285CE52E2F6324FB5D928050A95
  • Windows 11*, Windows 10, 64-bit*
  • ขนาด: 99.1 MB
  • SHA256: 4EE0C4036C91A3C1423C14F47E31B5B4C15082A6CFF3A5B7A63CF12DA39B70E6

คำอธิบายโดยละเอียด

มีอะไรใหม่

การครอบคลุม AI เจนเนอเรชั่นและการรวมเฟรมเวิร์กที่มากขึ้นเพื่อลดการเปลี่ยนแปลงรหัส

  • รุ่น Mixtral* และ URLNet* ที่ปรับให้เหมาะสมสําหรับการปรับปรุงประสิทธิภาพบนโปรเซสเซอร์ Intel® Xeon®
  • รุ่น Diffusion* 1.5, ChatGLM3-6B* และ Qwen-7B* ที่เสถียรซึ่งปรับให้เหมาะสมสําหรับความเร็วในการอนุมานบนโปรเซสเซอร์ Intel® Core™ Ultra ที่มี GPU ในตัวที่ดีขึ้น
  • รองรับ Falcon-7B-Instruct*, GenAI Large Language Model (LLM) แบบพร้อมใช้แชท/แนะนําโมเดลที่มีตัวชี้วัดประสิทธิภาพที่เหนือกว่า
  • เพิ่ม Jupyter* Notebooks ใหม่: YOLO V9*, YOLO V8* Oriented Bounded Bounded Boxes Detection (OOB), Stable Diffusion in Keras*, MobileCLIP*, RMBG-v1.4* Background Removal, Magika*, TripoSR*, AnimateAnyone*, LLaVA-NeXT* และระบบ RAG พร้อม OpenVINO™และ LangChain*

รองรับโมเดล LLM ที่กว้างขึ้นและเทคนิคการบีบอัดแบบจําลองมากขึ้น

  • เวลาการคอมไพล์ LLM ลดลงผ่านการเพิ่มประสิทธิภาพเพิ่มเติมพร้อมเอ็มเบ็ดเด็ดเอ็มเบ็ดเด็ด ประสิทธิภาพโทเค็นที่ 1 ของ LLM ที่ดีขึ้นบนโปรเซสเซอร์ Intel® Xeon® เจนเนอเรชั่น 4 และ 5 ที่มี Intel® Advanced Matrix Extensions (Intel® AMX)
  • การบีบอัด LLM ที่ดีขึ้นและประสิทธิภาพที่ดีขึ้นด้วยการรองรับ oneDNN, INT4 และ INT8 สําหรับ Intel® Arc™ GPU
  • การลดหน่วยความจําอย่างมากสําหรับ GenAI รุ่นที่เล็กกว่าบางรุ่นบนโปรเซสเซอร์ Intel® Core™ Ultra ที่มี GPU ในตัว

ความสามารถในการพกพาและประสิทธิภาพที่มากขึ้นเพื่อใช้งาน AI ที่ Edge ในระบบคลาวด์ หรือภายในเครื่อง

  • ตอนนี้ปลั๊กอิน NPU แสดงตัวอย่างสําหรับโปรเซสเซอร์ Intel® Core™ Ultra มีอยู่ในคลังข้อมูล GitHub* แบบโอเพนซอร์ส OpenVINO นอกเหนือจากแพ็คเกจ OpenVINO หลักใน PyPI* แล้ว
  • ขณะนี้ JavaScript* API สามารถเข้าถึงได้ง่ายมากขึ้นผ่านที่เก็บ npm ซึ่งทําให้นักพัฒนา JavaScript สามารถเข้าถึง OpenVINO API ได้อย่างราบรื่น
  • ตอนนี้การอนุมาน FP16 บนโปรเซสเซอร์ ARM* ที่เปิดใช้งานสําหรับ Convolutional Neural Network (CNN) ตามค่าเริ่มต้น

รันไทม์ OpenVINO™

ทั่ว ไป

  • ขณะนี้เส้นทางไฟล์ Unicode สําหรับรูปแบบแคชได้รับการสนับสนุนบน Windows* แล้ว
  • API การประมวลผลล่วงหน้าของ Pad เพื่อขยายเทนเซอร์อินพุตบน Edge ด้วยค่าคงที่
  • มีการแก้ไขสําหรับการอนุมานที่ล้มเหลวของการสร้างภาพบางรุ่นได้รับการปรับใช้ (ชื่อพอร์ต Fused I/O หลังจากการเปลี่ยนแปลง)
  • ขณะนี้ตัวเลือกการเตือนเป็นข้อผิดพลาดของคอมไพเลอร์กําลังดําเนินการปรับปรุงเกณฑ์และคุณภาพการเข้ารหัส ไม่อนุญาตให้ใช้คําเตือนเกี่ยวกับการสร้างสําหรับรหัส OpenVINO ใหม่ และการเตือนที่มีอยู่ได้รับการแก้ไขแล้ว

โหมดการอนุมานอัตโนมัติ

  • ตอนนี้การส่งคืนค่า ov::enable_profiling จาก ov::CompiledModel รองรับแล้ว

ปลั๊กอินอุปกรณ์ CPU

  • ประสิทธิภาพโทเค็นที่ 1 ของ LLM ได้รับการปรับปรุงในโปรเซสเซอร์ Intel® Xeon® เจนเนอเรชั่น 4 และ 5 ที่มี Intel® Advanced Matrix Extensions (Intel® AMX)
  • เวลาการคอมไพล์ LLM และขนาดหน่วยความจําได้รับการปรับปรุงผ่านการเพิ่มประสิทธิภาพเพิ่มเติมพร้อมเอ็มเบ็ดเด็ดเอ็มเบ็ดเด็ด
  • ประสิทธิภาพของ MoE (เช่น Mixtral), Gemma* และ GPT-J ได้รับการปรับปรุงเพิ่มเติม
  • ปรับปรุงประสิทธิภาพอย่างมากสําหรับชุดรุ่นต่างๆ บนอุปกรณ์ ARM
  • ตอนนี้ความแม่นยําการอนุมาน FP16 เป็นค่าเริ่มต้นสําหรับรุ่นทุกประเภทบนอุปกรณ์ ARM
  • ใช้สถาปนิกสถาปนิก-ไม่ใช้การสร้าง CPU เพื่อเปิดใช้งานการกระจายไบนารีแบบรวมบนอุปกรณ์ ARM ที่แตกต่างกัน

ปลั๊กอินอุปกรณ์ GPU

  • ความหน่วงแฝงโทเค็นแรก LLM ได้รับการปรับปรุงบนแพลตฟอร์ม GPU ทั้งแบบรวมและแบบแยก
  • สําหรับรุ่น ChatGLM3-6B* ความหน่วงของโทเค็นโดยเฉลี่ยได้รับการปรับปรุงบนแพลตฟอร์ม GPU ในตัว
  • เพื่อความแม่นยําของ Diffusion 1.5 FP16 ที่เสถียร ประสิทธิภาพได้รับการปรับปรุงบน Intel® Core™ Ultra โปรเซสเซอร์

ปลั๊กอินอุปกรณ์ NPU

  • ตอนนี้ปลั๊กอิน NPU เป็นส่วนหนึ่งของคลังข้อมูล OpenVINO GitHub การเปลี่ยนแปลงปลั๊กอินล่าสุดทั้งหมดจะพร้อมให้ใช้งานใน repo ทันที โปรดทราบว่า NPU เป็นส่วนหนึ่งของโปรเซสเซอร์ Intel® Core™ Ultra
  • เพิ่มโน้ตบุ๊ก OpenVINO™ ใหม่ "Hello, NPU!" การแนะนําการใช้งาน NPU ด้วย OpenVINO แล้ว
  • ต้องใช้เวอร์ชัน 22H2 หรือใหม่กว่าสําหรับ Microsoft Windows® 11 รุ่น 64 บิตเพื่อรันการอนุมานบน NPU

OpenVINO Python* API

  • ตอนนี้การสร้าง RemoteTensors ที่ปราศจาก GIL - การถือ GIL หมายความว่ากระบวนการไม่เหมาะสําหรับมัลติเธรดและการลบล็อค GIL จะเพิ่มประสิทธิภาพซึ่งสําคัญสําหรับแนวคิดของ RemoteTensors
  • เพิ่ม BF16 ชนิดข้อมูลที่บรรจุบนระดับ Python API แล้ว ซึ่งเป็นการเปิดวิธีการใหม่ในการสนับสนุนชนิดข้อมูลที่ไม่ได้จัดการโดย NumPy*
  • เพิ่มการรองรับโอเปอเรเตอร์ 'pad' สําหรับ ov::p reprocess::P rePostProcessorItem
  • กลุ่มผู้ใช้ คําจํากัดความ PartialShape.dynamic(int) ได้ถูกจัดเตรียมไว้แล้ว

OpenVINO C API

  • มีการเพิ่ม API ก่อนการประมวลผลใหม่สองตัวสําหรับขนาดและค่าเฉลี่ย

OpenVINO Node.js API

  • เพิ่มวิธีการใหม่ในการจัดเรียง JavaScript API ด้วย CPP API เช่น CompiledModel.exportModel(), core.import_model(), ชุด/รับคอร์ และ Tensor.get_size() และ Model.is_dynamic()
  • มีการขยายเอกสารประกอบเพื่อช่วยให้นักพัฒนาเริ่มผนวกรวมแอปพลิเคชัน JavaScript กับ OpenVINO™

การสนับสนุนเฟรมเวิร์ก TensorFlow

  • ขณะนี้รองรับโทเค็นไลเซอร์ tf.keras.layers.TextVectorization
  • การแปลงรูปแบบที่มีทรัพยากรตัวแปรและ HashTable (พจนานุกรม) ได้รับการปรับปรุงแล้ว
  • 8 การดําเนินการใหม่ได้ถูกเพิ่ม (ดูรายการที่นี่ ซึ่งถูกทําเครื่องหมายเป็น NEW)
  • 10 การดําเนินการได้รับการสนับสนุน Tensor ที่ซับซ้อน
  • ชื่อเทนเซอร์อินพุตสําหรับรุ่น TF1 ได้รับการแก้ไขให้มีชื่อเดียวต่ออินพุต
  • การรองรับโมเดล Hugging Face* เพิ่มขึ้นอย่างมาก เนื่องจาก:
    • การแยกลายเซ็นอินพุตของโมเดลในหน่วยความจําได้รับการแก้ไขแล้ว
    • การอ่านค่าตัวแปรสําหรับโมเดลในหน่วยความจําได้รับการแก้ไขแล้ว

การสนับสนุนเฟรมเวิร์ค PyTorch*

  • ModuleExtension, รองรับส่วนขยายประเภทใหม่สําหรับรุ่น PyTorch แล้ว (PR #23536)
  • มีการเพิ่มการดําเนินการใหม่ 22 รายการ
  • เพิ่มการสนับสนุนเชิงทดลองสําหรับรูปแบบที่ผลิตโดย torch.export (กราฟ FX) (PR #23815)

เซิร์ฟเวอร์รุ่น OpenVINO

  • OpenVINO™ใช้แบ็กเอนด์รันไทม์คือ 2024.1 ในขณะนี้
  • รองรับรูปแบบ OpenVINO™ที่มีชนิดข้อมูล String บนเอาต์พุต ตอนนี้ OpenVINO™ Model Server สามารถรองรับโมเดลที่มีอินพุตและเอาต์พุตของประเภทสตริง เพื่อให้นักพัฒนาสามารถใช้ประโยชน์จากโทเค็นเซชันที่สร้างขึ้นในแบบจําลองเป็นเลเยอร์แรก นักพัฒนายังสามารถพึ่งพาการประมวลผลใดๆ ที่ฝังอยู่ในแบบจําลองที่ส่งคืนข้อความเท่านั้น ตรวจสอบการสาธิตเกี่ยวกับข้อมูลอินพุตสตริงด้วยโมเดลตัวเข้ารหัสประโยคสากลและโมเดลเอาต์พุตสตริง
  • เครื่องคํานวณ MediaPipe* Python ได้รับการอัปเดตเพื่อรองรับเส้นทางแบบสัมพัทธ์สําหรับไฟล์การกําหนดค่าและรหัส Python ที่เกี่ยวข้องทั้งหมด ตอนนี้โฟลเดอร์การกําหนดค่ากราฟที่สมบูรณ์สามารถปรับใช้ในเส้นทางที่กําหนดได้โดยไม่ต้องเปลี่ยนแปลงรหัสใด ๆ
  • การสนับสนุน KServe* REST API ได้รับการขยายเพื่อจัดการรูปแบบสตริงในร่างกาย JSON อย่างถูกต้อง เช่นเดียวกับรูปแบบไบนารีที่เข้ากันได้กับ NVIDIA Triton*
  • การสาธิตที่แสดงอัลกอริธึม RAG แบบเต็มได้รับการมอบสิทธิ์ทั้งหมดไปยังเซิร์ฟเวอร์โมเดลแล้ว

เฟรมเวิร์คการบีบอัดโครงข่ายประสาทเทียม

  • ตอนนี้สามารถกําหนดระดับย่อยของโมเดลในขอบเขตที่ถูกมองข้ามสําหรับ INT8 Post-training Quantization, nncf.quantize() ซึ่งทําให้ไม่รวมเลเยอร์ที่ไวต่อความถูกต้องจากการกําหนดปริมาณ
  • ในตอนนี้ขนาดชุดที่มากกว่า 1 จะได้รับการรองรับ INT8 Post-training Quantization บางส่วน เพื่อเร่งความเร็วกระบวนการ โปรดทราบว่าเราไม่แนะนําให้ใช้กับรุ่นที่ใช้หม้อแปลงเนื่องจากอาจส่งผลกระทบต่อความแม่นยําได้ นี่เป็นตัวอย่างการสาธิต
  • ตอนนี้เป็นไปได้ที่จะใช้การปรับแต่งอย่างละเอียดกับโมเดล INT8 หลังจากการฝึกอบรมควอนไลเซชั่นหลังการฝึกอบรมเพื่อปรับปรุงความแม่นยําของโมเดลและทําให้ง่ายต่อการย้ายจากการฝึกอบรมไปจนถึงการกําหนดปริมาณการฝึกอบรม นี่เป็นตัวอย่างการสาธิต

โทเคน OpenVINO

  • มีการขยายการสนับสนุน TensorFlow - การแปลเลเยอร์ TextVectorization:
    • จัดเรียง ops ที่มีอยู่ด้วย TF ops และเพิ่มตัวแปลสําหรับพวกเขา
    • เพิ่ม opsor ragged ใหม่และ ops สตริง
  • รองรับประเภทโทเค็นไลเซอร์ใหม่ตอนนี้ RWKV:
    • เพิ่มโทเค็นโทเคน Trie และ Fuse op แล้วสําหรับเทนเซอร์ที่ลักลอบโกง
    • วิธีใหม่ในการรับโทเค็นซิเซอร์ OV: สร้างคําศัพท์จากไฟล์
  • การแคชโทเค็นเซอร์ได้รับการออกแบบใหม่ให้ทํางานกับกลไกการแคชแบบจําลอง OpenVINO™

การเปลี่ยนแปลงอื่นๆ และปัญหาที่ทราบ

โน้ตบุ๊ก Jupyter

สาขาเริ่มต้นสําหรับที่เก็บ OpenVINO™ Notebooks มีการเปลี่ยนแปลงจาก 'หลัก' เป็น 'ล่าสุด' แล้ว ในตอนนี้คลังโน๊ตบุ๊ค 'หลัก' จะถูกตัดขาด และจะถูกเก็บรักษาไว้จนถึงวันที่ 30 กันยายน 2024

สาขาใหม่ 'ล่าสุด' มอบประสบการณ์ผู้ใช้ที่ดีขึ้นและการบํารุงรักษาที่ง่ายขึ้น เนื่องจากการปรับโครงสร้างใหม่ที่สําคัญและโครงสร้างการตั้งชื่อไดเรกทอรีที่ได้รับการปรับปรุง

ใช้ไฟล์ README.md ในเครื่อง และ OpenVINO™ Notebooks ที่หน้า GitHub เพื่อไปยังเนื้อหา

สมุดบันทึกต่อไปนี้ได้รับการอัปเดตแล้วหรือถูกเพิ่มใหม่:

ปัญหาที่ทราบ

ส่วนประกอบ - ปลั๊กอิน CPU

ID - N/A

คำ อธิบาย:

นโยบายการปักหมุด CPU เริ่มต้นบน Windows ได้ถูกเปลี่ยนเป็นตามนโยบายของ Windows แทนที่จะควบคุมการปักหมุด CPU ในปลั๊กอิน OpenVINO ซึ่งทําให้เกิดความแตกต่างแบบไดนามิกหรือประสิทธิภาพบางอย่างใน Windows นักพัฒนาสามารถใช้ ov:hint::enable_cpu_pinning เพื่อเปิดใช้งานหรือปิดใช้งานการปักหมุด CPU อย่างชัดแจ้ง

ส่วนประกอบ - การกําหนดค่าฮาร์ดแวร์

ID - N/A

คำ อธิบาย:

ประสิทธิภาพที่ลดลงสําหรับ LLM อาจพบได้ใน CPU ที่ใหม่กว่า เพื่อลดความเสี่ยง ปรับเปลี่ยนการตั้งค่าเริ่มต้นใน BIOS เพื่อเปลี่ยนระบบเป็นระบบโหนด NUMA 2 ระบบ:

1. เข้าสู่เมนูการกําหนดค่า BIOS

2. เลือกเมนู EDKII -> Socket Configuration -> Uncore Configuration -> Uncore การกําหนดค่าทั่วไป -> SNC

3. การตั้งค่า SNC ถูกตั้งค่าเป็น อัตโนมัติ ตามค่าเริ่มต้น เปลี่ยนการตั้งค่า SNC เป็น ปิดใช้งาน เพื่อกําหนดค่าโหนด NUMA หนึ่งโหนดต่อซ็อกเก็ตโปรเซสเซอร์เมื่อบูท

4. หลังจากรีบูตระบบ ยืนยันการตั้งค่าโหนด NUMA โดยใช้: numatcl -H คาดหวังที่จะเห็นเฉพาะโหนด 0 และ 1 ใน

ระบบ 2 ซ็อกเก็ตที่มีการแมปดังต่อไปนี้:

โหนด - 0 - 1

0 - 10 - 21

1 - 21 - 10

ข้อกําหนดของระบบ

ปฏิเสธ ฮาร์ดแวร์บางอย่าง (รวมถึงแต่ไม่จํากัดเพียง GPU และ NPU) ต้องติดตั้งไดรเวอร์เฉพาะด้วยตนเอง และ/หรือส่วนประกอบซอฟต์แวร์อื่นๆ เพื่อให้ทํางานได้อย่างถูกต้องและ/หรือใช้ความสามารถของฮาร์ดแวร์อย่างดีที่สุด นี่อาจต้องมีการอัปเดตระบบปฏิบัติการ ซึ่งรวมถึงแต่ไม่จํากัดเพียงเคอร์เนล Linux โปรดดูเอกสารประกอบสําหรับรายละเอียด การแก้ไขเหล่านี้ควรได้รับการจัดการโดยผู้ใช้และไม่ได้เป็นส่วนหนึ่งของการติดตั้ง OpenVINO การแก้ไขเหล่านี้ควรได้รับการจัดการโดยผู้ใช้ และไม่ได้เป็นส่วนหนึ่งของการติดตั้ง OpenVINO สําหรับความต้องการของระบบ โปรดดูที่ส่วน ความต้องการของระบบ ใน บันทึกย่อประจํารุ่น

คําแนะนําในการติดตั้ง

คุณสามารถเลือกวิธีการติดตั้ง OpenVINO™ Runtime ตามระบบปฏิบัติการของคุณ:

สิ่งที่รวมอยู่ในแพ็คเกจดาวน์โหลด

  • OpenVINO™ Runtime/Inference Engine สําหรับ C/C++

ลิงก์ที่เป็นประโยชน์

หมายเหตุ: ลิงก์จะเปิดขึ้นในหน้าต่างใหม่

การดาาวน์โหลดนี้สำหรับผลิตภัณฑ์ในรายการด้านล่างเท่านั้น

เนื้อหาในหน้านี้เป็นการผสมผสานระหว่างการแปลเนื้อหาต้นฉบับภาษาอังกฤษโดยมนุษย์และคอมพิวเตอร์ เนื้อหานี้จัดทำขึ้นเพื่อความสะดวกของคุณและเพื่อเป็นข้อมูลทั่วไปเท่านั้นและไม่ควรอ้างอิงว่าสมบูรณ์หรือถูกต้อง หากมีความขัดแย้งใด ๆ ระหว่างเวอร์ชันภาษาอังกฤษของหน้านี้กับคำแปล เวอร์ชันภาษาอังกฤษจะมีผลเหนือกว่าและควบคุม ดูเวอร์ชันภาษาอังกฤษของหน้านี้