อย่าปล่อยให้พื้นที่เก็บข้อมูลกลายเป็นปัญหาคอขวดในการฝึกโมเดล

มีการกล่าวกันว่าบริษัทด้านเทคโนโลยีกำลังดิ้นรนหา GPU หรือไม่ก็อยู่บนเส้นทางที่จะได้มาซึ่งสิ่งเหล่านี้ในเดือนเมษายน Elon Musk CEO ของ Tesla ซื้อ GPU 10,000 ตัว และระบุว่าบริษัทจะยังคงซื้อ GPU จำนวนมากจาก NVIDIA ต่อไปในด้านองค์กร บุคลากรด้านไอทียังพยายามอย่างหนักเพื่อให้มั่นใจว่ามีการใช้ GPU อย่างต่อเนื่องเพื่อเพิ่มผลตอบแทนจากการลงทุนให้ได้สูงสุดอย่างไรก็ตาม บางบริษัทอาจพบว่าในขณะที่จำนวน GPU เพิ่มขึ้น ความเกียจคร้านของ GPU จะรุนแรงขึ้น

หากประวัติศาสตร์ได้สอนอะไรเราเกี่ยวกับการประมวลผลประสิทธิภาพสูง (HPC) ก็คือไม่ควรเสียสละที่เก็บข้อมูลและเครือข่ายโดยเสียค่าใช้จ่ายไปกับการมุ่งเน้นที่การคำนวณมากเกินไปหากที่จัดเก็บข้อมูลไม่สามารถถ่ายโอนข้อมูลไปยังหน่วยประมวลผลได้อย่างมีประสิทธิภาพ แม้ว่าคุณจะมี GPU มากที่สุดในโลก คุณก็จะไม่ได้ประสิทธิภาพสูงสุด

Mike Matchett นักวิเคราะห์จาก Small World Big Data กล่าวว่าโมเดลขนาดเล็กสามารถดำเนินการในหน่วยความจำ (RAM) ได้ ทำให้มีสมาธิมากขึ้นในการคำนวณอย่างไรก็ตาม โมเดลขนาดใหญ่เช่น ChatGPT ที่มีโหนดหลายพันล้านโหนดไม่สามารถจัดเก็บไว้ในหน่วยความจำได้เนื่องจากมีค่าใช้จ่ายสูง

“คุณไม่สามารถใส่โหนดหลายพันล้านโหนดในหน่วยความจำได้ ดังนั้นพื้นที่จัดเก็บจึงมีความสำคัญมากยิ่งขึ้น” Matchett กล่าวน่าเสียดายที่การจัดเก็บข้อมูลมักถูกมองข้ามในระหว่างกระบวนการวางแผน

โดยทั่วไป โดยไม่คำนึงถึงกรณีการใช้งาน มีจุดร่วมสี่จุดในกระบวนการฝึกอบรมแบบจำลอง:

1. การฝึกอบรมแบบจำลอง
2. การประยุกต์ใช้การอนุมาน
3. การจัดเก็บข้อมูล
4. การเร่งความเร็วของคอมพิวเตอร์

เมื่อสร้างและปรับใช้โมเดล ข้อกำหนดส่วนใหญ่ให้ความสำคัญกับการพิสูจน์แนวคิดอย่างรวดเร็ว (POC) หรือสภาพแวดล้อมการทดสอบเพื่อเริ่มต้นการฝึกโมเดล โดยไม่จำเป็นต้องคำนึงถึงพื้นที่จัดเก็บข้อมูลเป็นหลัก

อย่างไรก็ตาม ความท้าทายอยู่ที่ความจริงที่ว่าการฝึกอบรมหรือการอนุมานอาจใช้เวลาหลายเดือนหรือหลายปีหลายบริษัทขยายขนาดโมเดลอย่างรวดเร็วในช่วงเวลานี้ และโครงสร้างพื้นฐานต้องขยายเพื่อรองรับโมเดลและชุดข้อมูลที่เพิ่มขึ้น

การวิจัยจาก Google เกี่ยวกับเวิร์กโหลดการฝึกอบรม ML หลายล้านรายการเปิดเผยว่า เวลาฝึกอบรมโดยเฉลี่ย 30% ถูกใช้ไปกับไปป์ไลน์ข้อมูลอินพุตแม้ว่าการวิจัยที่ผ่านมาจะมุ่งเน้นไปที่การปรับ GPU ให้เหมาะสมเพื่อเพิ่มความเร็วในการฝึกอบรม แต่ความท้าทายมากมายยังคงอยู่ในการเพิ่มประสิทธิภาพส่วนต่าง ๆ ของท่อข้อมูลเมื่อคุณมีพลังในการคำนวณสูง จุดคอขวดที่แท้จริงคือความรวดเร็วในการป้อนข้อมูลเข้าสู่การคำนวณเพื่อให้ได้ผลลัพธ์

โดยเฉพาะอย่างยิ่ง ความท้าทายในการจัดเก็บและจัดการข้อมูลจำเป็นต้องมีการวางแผนสำหรับการเติบโตของข้อมูล ทำให้คุณสามารถแยกมูลค่าของข้อมูลได้อย่างต่อเนื่องตามความคืบหน้า โดยเฉพาะอย่างยิ่งเมื่อคุณเข้าสู่กรณีการใช้งานขั้นสูง เช่น การเรียนรู้เชิงลึกและโครงข่ายประสาทเทียม ซึ่งทำให้ความต้องการสูงขึ้น ที่เก็บข้อมูลในแง่ของความจุ ประสิทธิภาพ และความสามารถในการปรับขยาย

โดยเฉพาะอย่างยิ่ง:

ความสามารถในการปรับขนาด
แมชชีนเลิร์นนิงต้องการการจัดการข้อมูลจำนวนมหาศาล และเมื่อปริมาณข้อมูลเพิ่มขึ้น ความแม่นยำของโมเดลก็ดีขึ้นเช่นกันซึ่งหมายความว่าธุรกิจต้องรวบรวมและจัดเก็บข้อมูลมากขึ้นทุกวันเมื่อพื้นที่จัดเก็บไม่สามารถปรับขนาดได้ ปริมาณงานที่ต้องใช้ข้อมูลมากจะสร้างปัญหาคอขวด จำกัดประสิทธิภาพ และส่งผลให้ GPU เสียเวลาเปล่า

ความยืดหยุ่น
การสนับสนุนที่ยืดหยุ่นสำหรับหลายโปรโตคอล (รวมถึง NFS, SMB, HTTP, FTP, HDFS และ S3) เป็นสิ่งจำเป็นเพื่อตอบสนองความต้องการของระบบต่างๆ แทนที่จะจำกัดอยู่ในสภาพแวดล้อมประเภทเดียว

เวลาแฝง
เวลาแฝงของ I/O มีความสำคัญต่อการสร้างและใช้โมเดล เนื่องจากข้อมูลถูกอ่านและอ่านซ้ำหลายครั้งการลดเวลาแฝงของ I/O สามารถลดระยะเวลาการฝึกของโมเดลได้เป็นวันหรือเป็นเดือนการพัฒนารูปแบบที่เร็วขึ้นส่งผลโดยตรงต่อข้อได้เปรียบทางธุรกิจที่มากขึ้น

ปริมาณงาน
ทรูพุตของระบบสตอเรจมีความสำคัญต่อการฝึกโมเดลอย่างมีประสิทธิภาพกระบวนการฝึกอบรมเกี่ยวข้องกับข้อมูลจำนวนมาก โดยทั่วไปมีหน่วยเป็นเทราไบต์ต่อชั่วโมง

การเข้าถึงแบบขนาน
เพื่อให้ได้ปริมาณงานสูง โมเดลการฝึกอบรมจะแบ่งกิจกรรมออกเป็นหลายงานคู่ขนานกันซึ่งมักหมายความว่าอัลกอริทึมการเรียนรู้ของเครื่องจะเข้าถึงไฟล์เดียวกันจากหลายกระบวนการ (อาจเป็นไปได้ในเซิร์ฟเวอร์จริงหลายเครื่อง) พร้อมกันระบบสตอเรจต้องรองรับความต้องการพร้อมกันโดยไม่สูญเสียประสิทธิภาพ

ด้วยความสามารถที่โดดเด่นในด้านเวลาแฝงต่ำ ปริมาณงานสูง และ I/O แบบขนานขนาดใหญ่ Dell PowerScale จึงเป็นส่วนเสริมการจัดเก็บข้อมูลในอุดมคติสำหรับการประมวลผลที่เร่งด้วย GPUPowerScale ช่วยลดเวลาที่จำเป็นสำหรับโมเดลการวิเคราะห์ที่ฝึกฝนและทดสอบชุดข้อมูลหลายเทราไบต์ได้อย่างมีประสิทธิภาพในที่จัดเก็บข้อมูลแบบออลแฟลช PowerScale แบนด์วิธจะเพิ่มขึ้น 18 เท่า ขจัดปัญหาคอขวดของ I/O และสามารถเพิ่มไปยังคลัสเตอร์ Isilon ที่มีอยู่เพื่อเร่งความเร็วและปลดล็อกมูลค่าของข้อมูลที่ไม่มีโครงสร้างจำนวนมาก

ยิ่งไปกว่านั้น ความสามารถในการเข้าถึงหลายโปรโตคอลของ PowerScale ยังมอบความยืดหยุ่นไม่จำกัดสำหรับการเรียกใช้ปริมาณงาน ทำให้สามารถจัดเก็บข้อมูลโดยใช้โปรโตคอลเดียวและเข้าถึงได้โดยใช้อีกโปรโตคอลหนึ่งโดยเฉพาะอย่างยิ่ง คุณลักษณะอันทรงพลัง ความยืดหยุ่น ความสามารถในการปรับขนาด และฟังก์ชันระดับองค์กรของแพลตฟอร์ม PowerScale ช่วยจัดการกับความท้าทายต่อไปนี้:

- เร่งนวัตกรรมได้ถึง 2.7 เท่า ลดวงจรการฝึกอบรมแบบจำลอง

- ขจัดปัญหาคอขวดของ I/O และให้การฝึกอบรมและการตรวจสอบโมเดลที่รวดเร็วขึ้น ความแม่นยำของโมเดลที่ได้รับการปรับปรุง ประสิทธิภาพด้านวิทยาศาสตร์ข้อมูลที่ได้รับการปรับปรุง และเพิ่มผลตอบแทนสูงสุดจากการลงทุนด้านคอมพิวเตอร์โดยใช้ประโยชน์จากคุณสมบัติระดับองค์กร ประสิทธิภาพสูง การทำงานพร้อมกัน และความสามารถในการปรับขนาดปรับปรุงความแม่นยำของโมเดลด้วยชุดข้อมูลที่มีความลึกและมีความละเอียดสูงขึ้นโดยใช้ประโยชน์จากพื้นที่จัดเก็บที่มีประสิทธิภาพสูงสุด 119 PB ในคลัสเตอร์เดียว

- บรรลุการปรับใช้ตามขนาดโดยเริ่มต้นขนาดเล็กและปรับขนาดการประมวลผลและการจัดเก็บอย่างอิสระ มอบการปกป้องข้อมูลที่แข็งแกร่งและตัวเลือกการรักษาความปลอดภัย

- ปรับปรุงประสิทธิภาพด้านวิทยาการข้อมูลด้วยการวิเคราะห์แบบแทนที่และโซลูชันที่ผ่านการตรวจสอบล่วงหน้าเพื่อการปรับใช้ที่รวดเร็วขึ้นและมีความเสี่ยงต่ำ

- ใช้ประโยชน์จากการออกแบบที่ได้รับการพิสูจน์แล้วโดยอิงจากเทคโนโลยีที่ดีที่สุด รวมถึงการเร่งความเร็ว NVIDIA GPU และสถาปัตยกรรมอ้างอิงด้วยระบบ NVIDIA DGXประสิทธิภาพการทำงานสูงและการทำงานพร้อมกันของ PowerScale เป็นไปตามข้อกำหนดด้านประสิทธิภาพการจัดเก็บข้อมูลในทุกขั้นตอนของการเรียนรู้ของเครื่อง ตั้งแต่การรับข้อมูลและการเตรียมการไปจนถึงการฝึกอบรมแบบจำลองและการอนุมานเมื่อใช้ร่วมกับระบบปฏิบัติการ OneFS โหนดทั้งหมดสามารถทำงานได้อย่างราบรื่นภายในคลัสเตอร์ที่ขับเคลื่อนด้วย OneFS เดียวกัน โดยมีฟีเจอร์ระดับองค์กร เช่น การจัดการประสิทธิภาพ การจัดการข้อมูล ความปลอดภัย และการปกป้องข้อมูล ทำให้การฝึกอบรมโมเดลและการตรวจสอบสำหรับธุรกิจเสร็จสิ้นเร็วขึ้น


เวลาโพสต์: Jul-03-2023