วิธีการใช้ AI เพื่อเพิ่มประสิทธิภาพให้กับธุรกิจได้อย่างสูงสุด โดยใช้โมเดลภาษาขนาดเล็ก (Small Language Model, SLM) และ CPU

มาค้นหาคำตอบกันว่าแนวทางที่มีขนาดเหมาะสมซึ่งใช้โมเดลภาษาขนาดเล็ก จะสามารถช่วยคุณปรับปรุงความคุ้มค่ากับต้นทุน ความแม่นยำ และความปลอดภัยได้อย่างไร

ข้อมูลสำคัญ

  • โมเดลภาษาขนาดเล็กเป็นโมเดล AI ภาษาที่ใช้พลังการประมวลผลเบากว่าและคล่องตัว ซึ่งได้มาจากโมเดลภาษาขนาดใหญ่ (LLM)

  • ตลอดทั้งไปป์ไลน์ SLM ต้องการข้อมูลที่ใช้ในการฝึกและพลังในการประมวลผลน้อยกว่า LLM

  • เมื่อทำงานร่วมกับ CPU ที่เพิ่มประสิทธิภาพด้วย AI แล้ว SLM จะช่วยให้ AI มีความสามารถแบบกำหนดเองได้ ซึ่งสามารถทำงานบนสถาปัตยกรรมที่เน้นความคล่องตัวได้อย่างมีประสิทธิภาพ

  • โปรเซสเซอร์ Intel® Xeon® มอบแพลตฟอร์มที่เหมาะสำหรับเวิร์กโหลด SLM และแอปพลิเคชันที่เพิ่มประสิทธิภาพด้วย AI

author-image

โดย

พิจารณาใช้แนวทางอื่นในการพัฒนาและปรับใช้ AI ด้านภาษา

บริษัท, ISV และองค์กรด้านเทคโนโลยีอื่น ๆ กำลังมองหาวิธีที่ในการทำให้ AI เป็นนวัตกรรมใหม่และทำงานได้จริง แต่เดิมนั้น การพัฒนาและการปรับใช้โมเดล AI ด้านภาษาจะต้องอาศัยโมเดลภาษาขนาดใหญ่ (LLM) ที่ใช้เซิร์ฟเวอร์และเวิร์กสเตชันที่มี GPU แบบแยกหรือฮาร์ดแวร์เฉพาะอื่น ๆ อย่างไรก็ตาม ความพยายามและโครงสร้างพื้นฐานที่จำเป็นในการทำให้โซลูชันประเภทนี้สามารถใช้งานได้ เป็นเครื่องพิสูจน์ให้เห็นว่าอาจเป็นข้อจำกัดสำหรับองค์กรจำนวนมาก

ดังนั้น นวัตกรที่ให้ความสำคัญกับการใช้งานได้จริงจึงเลือกใช้โซลูชันแบบ SLM SLM เป็นโมเดลที่ใช้พลังในการประมวลผลเบากว่าและเน้นเฉพาะด้านที่สามารถทำให้แอปพลิเคชันที่ใช้ภาษาเฉพาะโดเมน เช่น แชทบอท ทำงานได้อย่างมีประสิทธิภาพมากขึ้น เพื่อให้มีความคุ้มค่ากับต้นทุนมากยิ่งขึ้น นวัตกร SLM เหล่านี้จึงกำลังสำรวจว่าพวกเขาสามารถรันเวิร์กโหลด SLM บนสถาปัตยกรรมที่ใช้ CPU เพียงอย่างเดียวได้อย่างไร ไม่ว่าจะใช้งานบนคลาวด์ ในศูนย์ข้อมูลภายในองค์กร หรือที่ระดับ Edge

เพื่อช่วยให้คุณเข้าใจได้ดีขึ้นว่า เราจะทำให้ AI ภาษาเฉพาะโดเมนทำงานได้อย่างมีประสิทธิภาพมากขึ้นได้อย่างไร เรามาดูกันว่าอะไรที่ทำให้เกิดการผสมผสานกันระหว่าง SLM และ CPU ที่รองรับ AI เช่น โปรเซสเซอร์ Intel® Xeon® มีประสิทธิภาพอย่างมาก

ลดความซับซ้อนของโซลูชัน AI ด้านภาษาด้วย SLM

สำหรับธุรกิจที่ให้ความสำคัญกับประสิทธิภาพ ความเป็นส่วนตัว และความคุ้มทุน SLM ถือเป็นเส้นทางที่ยอดเยี่ยมสู่ความสามารถของ AI SLM เป็นโมเดล AI ขนาดกะทัดรัดที่ออกแบบมา เพื่อทำงานเฉพาะด้านอย่างมีประสิทธิภาพ ซึ่งตรงกันข้ามกับ LLM ซึ่งมีจุดประสงค์ทั่วไปและกว้างขวาง ดังนั้น จึงใช้พลังในการประมวลผลและข้อมูลน้อยลงในแต่ละขั้นตอนของ AI ไปป์ไลน์ ตัวอย่างของ SLM ยอดนิยมได้แก่ Mistral 7B และ Llama 3.2 collection

ประสิทธิภาพและความคุ้มค่าด้านต้นทุน

โดยทั่วไป SLM จะมาจาก LLM โดยใช้เทคนิคต่าง ๆ เช่น การสกัดความรู้ (distillation) และการตัดแต่ง (pruning) เนื่องจาก SLM ใช้ข้อมูลน้อยกว่า จึงสามารถฝึกและฝึกซ้ำได้บ่อยครั้ง โดยไม่ต้องเสียค่าใช้จ่ายด้านไฟฟ้าหรือทรัพยากรระบบคลาวด์จำนวนมาก ความยืดหยุ่นนี้สามารถช่วยให้คุณปรับแต่งและปรับปรุงประสิทธิภาพของโมเดลของคุณได้ โดยไม่ต้องใช้งบประมาณหรือเวลามากเกินไป

ประโยชน์ด้านความปลอดภัยและความเป็นส่วนตัว

นอกจากนี้ SLM ยังมอบผลประโยชน์ด้านความเป็นส่วนตัวและความปลอดภัยอีกด้วย เนื่องจากต้องการข้อมูลที่ใช้ในการฝึกน้อยกว่าและการใช้งานที่แพร่หลายน้อยกว่า SLM จึงมีแนวโน้มที่จะนำเข้าและเก็บรักษาข้อมูลที่ละเอียดอ่อนน้อยลง ชุดข้อมูลที่เล็กลงและสถาปัตยกรรมที่เรียบง่ายขึ้น ทำให้การอธิบายผลลัพธ์และระบุอคติ หรือภาพหลอนเป็นเรื่องง่ายยิ่งขึ้น เนื่องจาก SLM ต้องการทรัพยากรน้อยกว่า จึงมีพื้นผิวการโจมตีสำหรับภัยคุกคามทางไซเบอร์ที่เล็กกว่า

ประโยชน์ของ AI เฉพาะโดเมน

เนื่องจาก SLM ถูกสร้างขึ้นบนชุดข้อมูลที่เล็กกว่าและเน้นงานเฉพาะด้านมากขึ้น จึงเหมาะอย่างยิ่งสำหรับการใช้ในแอปพลิเคชันเฉพาะโดเมน การฝึกบนชุดข้อมูลที่สร้างขึ้นสำหรับเฉพาะอุตสาหกรรม เฉพาะสาขา หรือเฉพาะบริษัท ช่วยให้ SLM พัฒนาความเข้าใจที่ลึกซึ้งและละเอียดอ่อน ซึ่งสามารถลดความเสี่ยงของผลลัพธ์ที่ผิดพลาดได้ การเน้นเฉพาะด้านมากขึ้นยังช่วยในการปรับตัวชี้วัดให้เหมาะสม เช่น อัตราความสำเร็จของงานและความแม่นยำ นอกจากนี้ ความต้องการข้อมูลและการฝึกที่น้อยลงสำหรับ SLM ทำให้งานสำเร็จอย่างรวดเร็วและได้รับผลตอบแทนจากการลงทุนที่รวดเร็วยิ่งขึ้น

เพิ่มประสิทธิภาพให้สูงสุดด้วย SLM บนซีพียู

SLM และ CPU ที่รองรับ AI สามารถใช้ร่วมกันเพื่อให้ได้โซลูชันที่ใช้พลังในการประมวลผลที่เบากว่าและคุ้มค่ากับต้นทุนสำหรับการใช้งาน AI ด้านภาษาโลกแห่งความเป็นจริง โดยไม่กระทบต่อประสิทธิภาพการทำงาน การใช้ CPU แทน GPU หรือฮาร์ดแวร์เฉพาะทางอื่น ๆ สำหรับโมเดลภาษาขนาดเล็กสามารถลดต้นทุน ความซับซ้อน และการใช้ทรัพยากรให้ต่ำที่สุด

ตัวอย่างเช่น เซิร์ฟเวอร์ที่ใช้โปรเซสเซอร์ Intel® Xeon® เจนเนอเรชั่น 4 และใหม่กว่าล่าสุด สามารถช่วยให้ผู้ใช้รัน SLM บนสถาปัตยกรรมที่ใช้ CPU อย่างเดียวในราคาประหยัดและเป็นส่วนตัวด้วยความหน่วงแฝงต่ำ เนื่องจากความยืดหยุ่นและประสิทธิภาพของโปรเซสเซอร์เหล่านี้ การใช้โปรเซสเซอร์เหล่านี้สำหรับโมเดลภาษาขนาดเล็กจึงเป็นวิธีที่น่าสนใจเป็นพิเศษในการเปิดใช้งานแอปพลิเคชัน SLM เพื่อการปรับใช้ภายในองค์กร ซึ่งเป็นที่ต้องการเมื่อต้องเผชิญกับความต้องการด้านความปลอดภัยของข้อมูลที่เข้มงวดเป็นพิเศษ

ตัวเร่งความเร็วในตัวบนโปรเซสเซอร์ Intel® Xeon®

โปรเซสเซอร์ Intel® Xeon® 4, 5 และ 6 ยังมีตัวเร่งความเร็ว Intel® Advanced Matrix Extensions (Intel® AMX) ในตัวที่ผสานรวมกับแบนด์วิดธ์หน่วยความจำที่เพิ่มขึ้นเพื่อเพิ่มประสิทธิภาพการคำนวณผลสำหรับ SLM ขนาดโมเดลที่เล็กลงยังหมายถึง การที่แอปพลิเคชันเต็มรูปแบบสามารถทำงานบนโหนดที่ใช้โปรเซสเซอร์ Intel® Xeon® ตัวเดียวได้ ซึ่งจะช่วยลดต้นทุนได้อย่างมากและมีความหน่วงแฝงและปริมาณงานที่ยอดเยี่ยม

Intel® AMX ช่วยเพิ่มประสิทธิภาพในการฝึกและการอนุมานให้กับการเรียนรู้เชิงลึก (deep learning, DL) ทำให้เหมาะอย่างยิ่งสำหรับเวิร์กโหลด เช่น การประมวลผลภาษาธรรมชาติ คุณสามารถเขียนโค้ดฟังก์ชัน AI เพื่อใช้ประโยชน์จากชุดคำสั่ง Intel® AMX หรือเขียนโค้ดฟังก์ชันที่ไม่ใช่ AI เพื่อใช้สถาปัตยกรรมชุดคำสั่งของโปรเซสเซอร์ได้

สิ่งสำคัญอีกประการหนึ่งที่ต้องทราบไว้ก็คือ โปรเซสเซอร์ Intel® Xeon® มีการเพิ่มประสิทธิภาพและเอ็นจินการเร่งความเร็วในตัวมากมาย นอกเหนือจาก Intel® AMX ซึ่งรองรับรูปแบบการใช้งานต่าง ๆ เช่น การรักษาความปลอดภัยและเครือข่าย

 

Llama 3.2 3B บนโปรเซสเซอร์ Intel® Xeon®

ผลการเปรียบเทียบแสดงให้เห็นว่าการใช้งาน Llama 3.2 3B ด้วยอินพุต 1,024 โทเค็นและเอาท์พุต 128 โทเค็นบนโปรเซสเซอร์ Intel® Xeon® เจนเนอเรชันที่ 5 และโปรเซสเซอร์ Intel® Xeon® 6 P-core สามารถบรรลุปริมาณงานที่น่าทึ่งในขณะที่รักษาเวลาแฝงของโทเค็นถัดไปที่ต่ำกว่า 50 มิลลิวินาที (P99)1
 

 

Microsoft Phi-3 บนโปรเซสเซอร์ Intel® Xeon®

SLM ตระกูล Phi-3 นำเสนอตัวเลือกที่มีความสามารถและคุ้มค่ากับต้นทุนสำหรับการสร้างแอปพลิเคชันปัญญาประดิษฐ์แบบรู้สร้าง (GenAI) การเปรียบเทียบประสิทธิภาพของ Phi-3-medium 4K และ 128K แสดงให้เห็นว่าโปรเซสเซอร์ Intel® Xeon® เป็นตัวเลือกที่มีประสิทธิภาพสำหรับการใช้งานการอนุมาน LLM2
 

ประเมินโอกาส SLM และ CPU ของคุณ

SLM ที่ทำงานบน CPU มอบเส้นทางที่มีประสิทธิภาพ คุ้มต้นทุน แม่นยำ และปลอดภัยในการทำให้ AI ด้านภาษาและโมเดลเฉพาะโดเมนนั้นใช้งานได้จริงมากขึ้นสำหรับองค์กรของคุณในการใช้งาน

นอกจากนี้ เส้นทางของคุณในการใช้งาน SLM บนสถาปัตยกรรม CPU ซึ่งรวมถึงโปรเซสเซอร์ Intel® Xeon® อาจจะตรงจุดมากกว่าที่คุณคาด

ต่อไปนี้คือสี่ขั้นตอนที่คุณสามารถดำเนินการได้ในวันนี้เพื่อเริ่มประเมินตัวเลือก SLM บน CPU ของคุณ:

 

  1. ประเมินการลงทุนปัจจุบันของคุณกับทีมโครงสร้างพื้นฐานของคุณ องค์กรต่าง ๆ เป็นเจ้าของเซิร์ฟเวอร์ที่ใช้โปรเซสเซอร์ Intel Xeon และการปรับเปลี่ยนโครงสร้างพื้นฐานเดิมที่มีอยู่ของคุณด้วยการย้ายไปใช้โปรเซสเซอร์ Intel Xeon 6 ที่ใช้ Intel AMX จะมอบผลประโยชน์ด้านต้นทุนรวมในการเป็นเจ้าของที่ยอดเยี่ยมสำหรับ SLM
  2. ติดต่อผู้ให้บริการคลาวด์ของคุณ อินสแตนซ์ที่ใช้โปรเซสเซอร์ Intel® Xeon® พร้อมตัวเร่งความเร็ว Intel® AMX มีจำหน่ายจากผู้ให้บริการระบบคลาวด์ชั้นนำทุกรายและพร้อมให้คุณใช้ประโยชน์แล้ว
  3. ปรึกษาเกี่ยวกับทางเลือกต่าง ๆ กับพันธมิตรด้านเทคโนโลยีของคุณ พันธมิตรของ Intel® พร้อมช่วยให้คุณได้รับประโยชน์สูงสุดจากเทคโนโลยีของเรา ซึ่งรวมถึงโปรเซสเซอร์ Intel® Xeon® สำหรับโมเดลภาษาขนาดเล็กตั้งแต่ Edge จนถึงคลาวด์
  4. มาดูกันว่าการย้ายแอปพลิเคชัน AI ที่มีอยู่ไปยังสถาปัตยกรรม CPU เป็นเรื่องง่ายเพียงใด Intel นำเสนอเครื่องมือการพัฒนามากมาย รวมถึง OpenVINO™ toolkit ที่ช่วยให้คุณเขียนโค้ดครั้งเดียวแล้วนำไปใช้งานได้ทุกที่