เร่งความสำเร็จ RAG และ AI เชิงการสร้างของคุณ
แอปพลิเคชันโมเดลภาษาขนาดใหญ่ (LLM) เช่น แชทบอท กำลังปลดล็อกคุณประโยชน์อันทรงพลังในอุตสาหกรรมต่างๆ องค์กรต่างๆ ใช้ LLM เพื่อลดต้นทุนการดำเนินงาน เพิ่มประสิทธิภาพการทำงานของพนักงาน และมอบประสบการณ์ลูกค้าที่ปรับให้เหมาะสมเฉพาะบุคคลมากขึ้น
ในขณะที่องค์กรเช่นคุณกำลังแข่งขันกันเพื่อเปลี่ยนเทคโนโลยีที่ปฏิวัติวงการนี้ให้กลายเป็นข้อได้เปรียบทางการแข่งขัน ขั้นตอนสำคัญคือการปรับแต่ง LLM ที่มีจำหน่ายทั่วไปให้เข้ากับข้อมูลขององค์กรก่อน เพื่อให้โมเดลสามารถส่งมอบผลลัพธ์ AI ที่เหมาะสมเฉพาะธุรกิจได้ อย่างไรก็ตาม อุปสรรคขนาดใหญ่ที่อาจขัดขวางผู้มีแนวโน้มจะสร้างนวัตกรรมจำนวนมากอาจเกิดจากการลงทุนด้านต้นทุนและเวลาซึ่งจำเป็นสำหรับการปรับแต่งโมเดลอย่างละเอียด
การสร้างสรรค์แบบเสริมด้วยการค้นคืนข้อมูล (RAG) ช่วยเอาชนะอุปสรรคเหล่านี้ด้วยการนำเสนอแนวทางการปรับแต่ง LLM ที่คุ้มค่ากว่า RAG สามารถช่วยให้คุณเปิดใช้งานแอปพลิเคชัน LLM ที่ปรับให้เหมาะกับธุรกิจหรือลูกค้าของคุณได้อย่างรวดเร็วด้วยการช่วยคุณสร้างโมเดลพื้นฐานบนข้อมูลที่เป็นกรรมสิทธิ์ของคุณโดยไม่จำเป็นต้องปรับแต่งอย่างละเอียด แนวทางแบบ RAG ช่วยให้คุณสามารถเชื่อมต่อ LLM ที่มีจำหน่ายทั่วไปกับฐานความรู้ภายนอกที่ได้รับการดูแลจัดการซึ่งสร้างขึ้นจากข้อมูลที่เป็นกรรมสิทธิ์เฉพาะขององค์กรของคุณแทนการฝึกใหม่หรือการปรับแต่งอย่างละเอียด โดยฐานความรู้นี้จะแจ้งผลลัพธ์ของแบบจำลองพร้อมด้วยบริบทและข้อมูลเฉพาะองค์กร
ในบทความนี้ คุณจะได้เรียนรู้วิธีตั้งค่าองค์ประกอบสำคัญของการปรับใช้ RAG ของคุณ ตั้งแต่การเลือกพื้นฐานด้านฮาร์ดแวร์และซอฟต์แวร์ไปจนถึงการสร้างฐานความรู้และการปรับแต่งประสิทธิภาพแอปพลิเคชันของคุณในการผลิต นอกจากนี้เรายังจะแบ่งปันเครื่องมือและทรัพยากรที่สามารถช่วยให้คุณได้รับสมรรถนะและประสิทธิภาพสูงสุดจากแต่ละช่วงของไปป์ไลน์
RAG เป็นแนวทางที่เหมาะสมสำหรับขั้นตอนใด
ก่อนที่คุณจะเริ่มประเมินสถาปัตยกรรมของไปป์ไลน์ สิ่งสำคัญคือต้องพิจารณาว่า RAG หรือการปรับแต่งแบบละเอียดมีความเหมาะสมที่สุดสำหรับแอปพลิเคชัน LLM ของคุณหรือไม่
โดยทั้งสองแนวทางจะเริ่มต้นด้วย LLM พื้นฐาน ซึ่งเสนอกระบวนการที่รวบรัดกว่าไปสู่ LLM ที่ปรับแต่งแล้วแทนการฝึกโมเดลตั้งแต่เริ่มต้น โมเดลพื้นฐานจะได้รับการฝึกล่วงหน้า และไม่จำเป็นต้องเข้าถึงชุดข้อมูลขนาดใหญ่ ทีมผู้เชี่ยวชาญด้านข้อมูล หรือสมรรถนะระดับสูงในการประมวลผลสำหรับการฝึก
อย่างไรก็ตาม เมื่อคุณเลือกโมเดลพื้นฐานแล้ว คุณยังคงต้องปรับแต่งโมเดลให้เหมาะกับธุรกิจของคุณ เพื่อให้โมเดลของคุณสามารถมอบผลลัพธ์ที่เอาชนะอุปสรรคและตอบสนองความต้องการของคุณ RAG จะเหมาะสมอย่างยิ่งสำหรับแอปพลิเคชัน LLM ของคุณ หากคุณไม่มีเวลาหรือเงินที่จะลงทุนในการปรับแต่งอย่างละเอียด RAG ยังลดความเสี่ยงต่ออาการหลอน สามารถจัดหาแหล่งที่มาเพื่อให้สามารถอธิบายผลลัพธ์ได้ดีขึ้น และเสนอคุณประโยชน์ด้านความปลอดภัย เนื่องจากสามารถเก็บข้อมูลที่ละเอียดอ่อนไว้ได้อย่างปลอดภัยในฐานข้อมูลส่วนตัว
เรียนรู้เพิ่มเติมเกี่ยวกับประโยชน์ที่ RAG สามารถนำมาสู่โครงการริเริ่มด้าน AI เชิงการสร้างของคุณ
เลือกฮาร์ดแวร์ที่มุ่งเน้นประสิทธิภาพและความปลอดภัย
ไปป์ไลน์ RAG มีส่วนประกอบที่เน้นการประมวลผลจำนวนมาก และผู้ใช้ปลายทางคาดหวังที่จะได้รับการตอบสนองที่มีเวลาแฝงต่ำ ดังนั้น การเลือกแพลตฟอร์มคอมพิวเตอร์ของคุณจึงเป็นหนึ่งในการตัดสินใจที่สำคัญที่สุดที่คุณต้องทำในขณะที่ให้การสนับสนุนไปป์ไลน์ตั้งแต่ต้นจนจบ
โปรเซสเซอร์ Intel® Xeon® ช่วยให้คุณสามารถขับเคลื่อนและจัดการไปป์ไลน์ RAG เต็มรูปแบบบนแพลตฟอร์มเดียว ซึ่งช่วยมอบความคล่องตัวให้กับการพัฒนา การปรับใช้ และการบำรุงรักษา โปรเซสเซอร์ Intel® Xeon® มีเอนจิน AI ในตัวเพื่อเร่งการทำงานหลักตลอดไปป์ไลน์ รวมถึงการรับข้อมูล การดึงข้อมูล และการอนุมาน AI บน CPU โดยไม่จำเป็นต้องใช้ฮาร์ดแวร์เพิ่มเติม
สำหรับแอปพลิเคชัน RAG ที่ต้องการอัตราความเร็วสูงสุดหรือเวลาแฝงต่ำสุด คุณสามารถผสานรวมตัวเร่ง Intel® Gaudi® AI เพื่อตอบสนองความต้องการด้านประสิทธิภาพขั้นสูงอย่างคุ้มค่า ตัวเร่ง Intel® Gaudi® ได้รับการออกแบบโดยมีจุดประสงค์เพื่อเร่งการอนุมาน และยังสามารถแทนที่ CPU และตัวเร่งอื่นๆ สำหรับการอนุมาน RAG
เนื่องจากองค์กรต่างๆ มักใช้ RAG เมื่อทำงานกับข้อมูลที่เป็นความลับ การรักษาความปลอดภัยไปป์ไลน์ของคุณระหว่างการพัฒนาและในการผลิตจึงมีความสำคัญเป็นอย่างยิ่ง โปรเซสเซอร์ Intel® Xeon® ใช้เทคโนโลยีความปลอดภัยในตัว ซึ่งก็คือ Intel® Software Guard Extensions (Intel® SGX) และ Intel® Trust Domain Extensions (Intel® TDX) เพื่อให้การประมวลผล AI มีความปลอดภัยตลอดไปป์ไลน์ผ่านการประมวลผลที่เป็นความลับและการเข้ารหัสข้อมูล
เมื่อปรับใช้แล้ว แอปพลิเคชันของคุณอาจมีเวลาแฝงเพิ่มขึ้นเนื่องจากมีความต้องการของผู้ใช้ปลายทางเพิ่มขึ้น ฮาร์ดแวร์ของ Intel® สามารถปรับขนาดได้อย่างมาก คุณจึงสามารถเพิ่มทรัพยากรโครงสร้างพื้นฐานได้อย่างรวดเร็วเพื่อรองรับการใช้งานที่เพิ่มขึ้น คุณยังสามารถผสานรวมการปรับให้เหมาะสมเพื่อรองรับการดำเนินงานหลักตลอดทั้งกระบวนการ เช่น การทำเวกเตอร์ข้อมูล การค้นหาเวกเตอร์ และการอนุมาน LLM
คุณสามารถทดสอบประสิทธิภาพ RAG บนโปรเซสเซอร์ Intel® Xeon® และ โปรเซสเซอร์ AI Intel® Gaudi® ผ่านทางคลาวด์สำหรับนักพัฒนา Intel® Tiber™
ใช้ RAG Framework เพื่อรวมเครือข่ายเครื่องมือ AI ได้อย่างง่ายดาย
ในการเชื่อมต่อองค์ประกอบต่างๆ ไปป์ไลน์ RAG จะรวมเครือข่ายเครื่องมือ AI หลายรายการสำหรับการนำเข้าข้อมูล ฐานข้อมูลเวกเตอร์ LLM และอื่นๆ
เมื่อคุณเริ่มพัฒนาแอปพลิเคชัน RAG ของคุณ เฟรมเวิร์ก RAG แบบผสานรวม เช่น LangChain, fastRAG ของ Intel Lab และ LlamaIndex จะช่วยปรับปรุงการพัฒนาให้มีประสิทธิภาพขึ้น เฟรมเวิร์ก RAG มักมี API เพื่อรวมเครือข่ายเครื่องมือ AI ข้ามไปป์ไลน์อย่างราบรื่น และนำเสนอโซลูชันตามเทมเพลตสำหรับกรณีการใช้งานจริง
Intel นำเสนอการปรับแต่งเพื่อช่วยเพิ่มประสิทธิภาพไปป์ไลน์โดยรวมบนฮาร์ดแวร์ Intel® ให้สูงสุด ตัวอย่างเช่น fastRAG จะผสานรวม Intel® Extension สำหรับ PyTorch และ Optimum Habana เพื่อเพิ่มประสิทธิภาพแอปพลิเคชัน RAG บนโปรเซสเซอร์ Intel® Xeon® และตัวเร่ง Intel® Gaudi® AI
Intel ยังมีส่วนร่วมในการปรับแต่งประสิทธิภาพให้กับ LangChain เพื่อเพิ่มประสิทธิภาพบนฮาร์ดแวร์ Intel® ค้นหาวิธีตั้งค่าเวิร์กโฟลว์นี้อย่างง่ายดายโดยใช้ตัวเร่งความเร็ว LangChain และ Intel® Gaudi® 2 AI
สร้างฐานความรู้ของคุณ
RAG ช่วยให้องค์กรต่างๆ สามารถป้อนข้อมูลที่เป็นกรรมสิทธิ์ที่สำคัญของ LLM เกี่ยวกับธุรกิจและลูกค้าของตนได้ โดยข้อมูลนี้จะถูกจัดเก็บไว้ในฐานข้อมูลเวกเตอร์ที่คุณสามารถสร้างได้เอง
ระบุแหล่งข้อมูล
ลองนึกภาพการใช้ RAG เพื่อปรับใช้ผู้ช่วยส่วนตัว AI ที่สามารถช่วยตอบคำถามของพนักงานเกี่ยวกับองค์กรของคุณได้ คุณสามารถป้อนข้อมูลสำคัญของ LLM เช่น ข้อมูลผลิตภัณฑ์ นโยบายบริษัท ข้อมูลลูกค้า และโปรโตคอลเฉพาะแผนก พนักงานสามารถสอบถามข้อสงสัยกับแชทบอทที่ขับเคลื่อนโดย RAG และรับคำตอบเฉพาะองค์กร ซึ่งจะช่วยให้พนักงานทำงานเสร็จเร็วขึ้น และส่งเสริมให้พวกเขามุ่งเน้นการคิดเชิงกลยุทธ์
อุตสาหกรรมและการใช้งานที่แตกต่างกันย่อมมีฐานความรู้ที่แตกต่างกันไป บริษัทยาอาจต้องการเก็บถาวรผลการทดสอบและประวัติผู้ป่วย ผู้ผลิตสามารถป้อนข้อมูลจำเพาะของอุปกรณ์และข้อมูลประสิทธิภาพในอดีตไปยังแขนหุ่นยนต์ที่ใช้ RAG เพื่อให้สามารถตรวจจับปัญหาของอุปกรณ์ที่อาจเกิดขึ้นได้ตั้งแต่เนิ่นๆ สถาบันการเงินอาจต้องการเชื่อมต่อ LLM เข้ากับกลยุทธ์ทางการเงินที่เป็นกรรมสิทธิ์และแนวโน้มของตลาดแบบเรียลไทม์เพื่อให้แชทบอทสามารถให้คำแนะนำทางการเงินส่วนบุคคลได้
ท้ายที่สุดแล้ว คุณจะต้องรวบรวมข้อมูลสำคัญที่คุณต้องการให้ LLM ของคุณเข้าถึงเพื่อสร้างฐานความรู้ ข้อมูลนี้สามารถมาจากแหล่งข้อความที่หลากหลาย รวมถึง PDF, การถอดเสียงวิดีโอ, อีเมล, สไลด์การนำเสนอ และแม้กระทั่งข้อมูลแบบตารางจากแหล่งต่างๆ เช่น หน้า Wikipedia และสเปรดชีต RAG ยังสนับสนุนโซลูชัน AI ต่อเนื่องหลายรูปแบบ ซึ่งรวมโมเดล AI หลายแบบเข้าด้วยกันเพื่อประมวลผลข้อมูลในรูปแบบต่างๆ รวมถึงเสียง รูปภาพ และวิดีโอ
ตัวอย่างเช่น ผู้ค้าปลีกสามารถใช้โซลูชัน RAG ต่อเนื่องหลายรูปแบบเพื่อค้นหาภาพวงจรปิดสำหรับเหตุการณ์สำคัญได้อย่างรวดเร็ว ในการดำเนินการนี้ ผู้ค้าปลีกจะสร้างฐานข้อมูลฟุตเทจวิดีโอและใช้ข้อความแจ้ง เช่น “ผู้ชายคนหนึ่งกำลังหยิบของเข้าไปในกระเป๋าของตนเอง” เพื่อระบุคลิปที่เกี่ยวข้องโดยไม่ต้องค้นหาวิดีโอความยาวหลายร้อยชั่วโมงด้วยตนเอง
เตรียมข้อมูลของคุณ
ขั้นตอนแรกของการเตรียมข้อมูลของคุณเพื่อการประมวลผลที่มีประสิทธิภาพคือการล้างข้อมูล เช่น การลบข้อมูลที่ซ้ำกันและจุดรบกวนออก และแบ่งออกเป็นส่วนที่จัดการได้ คุณสามารถอ่านเคล็ดลับเพิ่มเติมในการล้างข้อมูลของคุณได้ที่นี่
ถัดไป คุณจะต้องใช้เฟรมเวิร์ก AI ที่เรียกว่าโมเดลการฝังเพื่อแปลงข้อมูลของคุณให้เป็นเวกเตอร์ หรือการแทนข้อความทางคณิตศาสตร์ที่ช่วยให้โมเดลเข้าใจบริบทมากขึ้น คุณสามารถดาวน์โหลดโมเดลการฝังได้จากบุคคลที่สาม เช่น โมเดลที่แสดงในกระดานผู้นำโมเดลการฝังโอเพ่นซอร์สของ Hugging Face และสามารถรวมโมเดลการฝังส่วนใหญ่เข้ากับเฟรมเวิร์ก RAG ของคุณได้อย่างราบรื่นผ่าน Hugging Face API หลังจากทำเวกเตอร์แล้ว คุณสามารถจัดเก็บข้อมูลของคุณในฐานข้อมูลเวกเตอร์เพื่อให้พร้อมสำหรับการดึงข้อมูลโดยโมเดลอย่างมีประสิทธิภาพ
การประมวลผลข้อมูลและการสร้างการฝังอาจมีความเข้มข้นในการคำนวณเท่ากับการอนุมาน LLM โดยขึ้นอยู่กับปริมาณและความซับซ้อนของข้อมูลของคุณ โปรเซสเซอร์ Intel® Xeon® สามารถจัดการการนำเข้า การฝัง และเวกเตอร์ข้อมูลทั้งหมดของคุณบนโหนดที่ใช้ CPU ได้อย่างมีประสิทธิภาพโดยไม่จำเป็นต้องใช้ฮาร์ดแวร์เพิ่มเติมใดๆ
นอกจากนี้ โปรเซสเซอร์ Intel® Xeon® ยังสามารถจับคู่กับโมเดลการฝังแบบเชิงปริมาณเพื่อเพิ่มประสิทธิภาพกระบวนการทำเวกเตอร์ ซึ่งปรับปรุงอัตราความเร็วในการเข้ารหัสขึ้นสูงสุดถึง 4 เท่า เมื่อเทียบกับโมเดลที่ไม่ใช่แบบเชิงปริมาณ1
ปรับคำถามและการดึงบริบทให้เหมาะสม
เมื่อผู้ใช้ส่งคำถามไปยังโมเดลที่ใช้ RAG กลไกการดึงข้อมูลจะค้นหาฐานความรู้ของคุณเพื่อหาข้อมูลภายนอกที่เกี่ยวข้องเพื่อเพิ่มปรับปรุงผลลัพธ์ขั้นสุดท้ายของ LLM กระบวนการนี้อาศัยการดำเนินการค้นหาเวกเตอร์เพื่อค้นหาและจัดอันดับข้อมูลที่เกี่ยวข้องมากที่สุด
การดำเนินการค้นหาเวกเตอร์ได้รับการปรับให้เหมาะสมเป็นอย่างยิ่งบนโปรเซสเซอร์ Intel® Xeon® Intel® Advanced Vector Extensions 512 (Intel® AVX-512) ที่มีในตัวของโปรเซสเซอร์ Intel® Xeon® ช่วยเพิ่มประสิทธิภาพการทำงานหลักในการค้นหาเวกเตอร์และลดจำนวนคำสั่ง ทำให้ได้อัตราความเร็วและประสิทธิภาพที่ดีขึ้นอย่างมาก
คุณยังใช้ประโยชน์จากโซลูชัน Scalable Vector Search (SVS) ของ Intel Lab เพื่อเพิ่มประสิทธิภาพฐานข้อมูลเวกเตอร์ได้อีกด้วย SVS ปรับประสิทธิภาพในการค้นหาเวกเตอร์บน CPU Intel® Xeon® เพื่อปรับปรุงเวลาในการดึงข้อมูลและประสิทธิภาพไปป์ไลน์โดยรวม
เพิ่มประสิทธิภาพการสร้างการตอบสนอง LLM
เมื่อมีข้อมูลเพิ่มเติมจากร้านค้าเวกเตอร์ของคุณแล้ว LLM จะสามารถสร้างการตอบสนองที่แม่นยำตามบริบทได้ การดำเนินการนี้เกี่ยวข้องกับการอนุมาน LLM ซึ่งโดยทั่วไปเป็นขั้นตอนที่ต้องใช้การประมวลผลมากที่สุดของไปป์ไลน์ RAG
โปรเซสเซอร์ Intel® Xeon® ใช้ Intel® Advanced Matrix Extensions (Intel® AMX) ซึ่งเป็นตัวเร่ง AI ในตัว เพื่อยกระดับประสิทธิภาพของการดำเนินงานเมทริกซ์ และปรับปรุงการจัดการหน่วยความจำ ซึ่งช่วยเพิ่มประสิทธิภาพการอนุมานให้ถึงระดับสูงสุด สำหรับ LLM ขนาดกลางและขนาดใหญ่ ให้ใช้ตัวเร่ง Intel® Gaudi® AI เพื่อเร่งการอนุมานด้วยประสิทธิภาพและประสิทธิผลของ AI ที่สร้างขึ้นตามวัตถุประสงค์
Intel ยังมีไลบรารีเครื่องมือปรับแต่งประสิทธิภาพให้เหมาะสมอีกมากมายเพื่อช่วยให้คุณเพิ่มการอนุมาน LLM บนทรัพยากรฮาร์ดแวร์ของคุณให้ถึงระดับสูงสุด ไลบรารี Intel® oneAPI ของเรามีการเพิ่มประสิทธิภาพระดับต่ำสำหรับเฟรมเวิร์ก AI ยอดนิยม เช่น PyTorch และ TensorFlow ซึ่งช่วยให้คุณใช้เครื่องมือโอเพ่นซอร์สที่คุ้นเคยที่ได้รับการปรับให้เหมาะสมบนฮาร์ดแวร์ Intel® คุณยังสามารถเพิ่มส่วนขยาย เช่น Intel® Extension สำหรับ PyTorch เพื่อเปิดใช้งานเทคนิคการอนุมานเชิงปริมาณขั้นสูงเพื่อเพิ่มประสิทธิภาพโดยรวม
เมื่อแอปพลิเคชันของคุณอยู่ในการใช้งานจริง คุณอาจต้องการอัปเกรดเป็น LLM ล่าสุดเพื่อให้ทันกับความต้องการของผู้ใช้ปลายทาง RAG ช่วยให้คุณสามารถแทนที่ LLM ของคุณด้วยโมเดลใหม่ได้อย่างรวดเร็วเพื่อรองรับการอนุมานที่รวดเร็วยิ่งขึ้น เนื่องจากไม่จำเป็นต้องทำการปรับแต่งอย่างละเอียด และมีฐานความรู้ของคุณอยู่ภายนอกโมเดล
เร่งความเร็วของกระบวนการ RAG ของคุณด้วย Intel
RAG สามารถช่วยให้คุณปรับใช้แอปพลิเคชัน LLM ที่ปรับแต่งแล้วได้อย่างรวดเร็วและคุ้มค่าโดยไม่ต้องมีการปรับแต่งอย่างละเอียด เนื่องจากมีสถาปัตยกรรมที่เหมาะสม คุณจึงสามารถตั้งค่าไปป์ไลน์ RAG ที่ปรับให้เหมาะสมได้ภายในไม่กี่ขั้นตอน
เมื่อคุณดำเนินโครงการริเริ่มด้าน AI อย่าลืมใช้ประโยชน์จาก Intel® AI Portfolio เพื่อปรับปรุงแต่ละขั้นตอนของไปป์ไลน์ RAG ของคุณ เราสร้างโซลูชันฮาร์ดแวร์และซอฟต์แวร์ขึ้นเพื่อเร่งความสำเร็จของคุณ
คลาวด์สำหรับนักพัฒนา Intel® Tiber™
สำรวจและรับประสบการณ์จริงด้วยเทคโนโลยีที่สำคัญของ Intel® สำหรับ RAG
สถาปัตยกรรม RAG กับ Intel
เรียนรู้เพิ่มเติมเกี่ยวกับการปรับแต่งประสิทธิภาพของ Intel ทั่วทั้งไปป์ไลน์ RAG
บทช่วยสอนสำหรับนักพัฒนา: RAG บน Intel® Gaudi® 2
รับคำแนะนำทีละขั้นตอนพร้อมตัวอย่างโค้ดสำหรับการปรับใช้แอปพลิเคชัน RAG บนโปรเซสเซอร์ AI Intel® Gaudi® 2