อย่าปล่อยให้พื้นที่จัดเก็บกลายเป็นปัญหาคอขวดที่สำคัญในการฝึกโมเดล

กล่าวกันว่าบริษัทเทคโนโลยีต่างกำลังแย่งชิง GPU หรือกำลังหาทางเพื่อให้ได้มาซึ่ง GPU เหล่านี้ ในเดือนเมษายน Elon Musk ซีอีโอของ Tesla ซื้อ GPU จำนวน 10,000 ตัว และระบุว่าบริษัทจะยังคงซื้อ GPU จำนวนมากจาก NVIDIA ต่อไป ในด้านองค์กร เจ้าหน้าที่ไอทียังพยายามอย่างหนักเพื่อให้แน่ใจว่า GPU จะถูกใช้งานอย่างต่อเนื่องเพื่อเพิ่มผลตอบแทนจากการลงทุนให้สูงสุด อย่างไรก็ตาม บางบริษัทอาจพบว่าในขณะที่จำนวน GPU เพิ่มขึ้น ความไม่ทำงานของ GPU จะรุนแรงมากขึ้น

หากประวัติศาสตร์ได้สอนเราเกี่ยวกับการประมวลผลประสิทธิภาพสูง (HPC) ก็ไม่ควรเสียสละพื้นที่จัดเก็บข้อมูลและเครือข่ายโดยเสียค่าใช้จ่ายในการมุ่งเน้นที่การคำนวณมากเกินไป หากพื้นที่จัดเก็บข้อมูลไม่สามารถถ่ายโอนข้อมูลไปยังหน่วยประมวลผลได้อย่างมีประสิทธิภาพ แม้ว่าคุณจะมี GPU มากที่สุดในโลก คุณจะไม่ได้รับประสิทธิภาพสูงสุด

Mike Matchett นักวิเคราะห์จาก Small World Big Data กล่าวว่าโมเดลขนาดเล็กสามารถดำเนินการได้ในหน่วยความจำ (RAM) ช่วยให้มุ่งเน้นไปที่การคำนวณมากขึ้น อย่างไรก็ตาม โมเดลขนาดใหญ่เช่น ChatGPT ที่มีโหนดนับพันล้านโหนดไม่สามารถจัดเก็บไว้ในหน่วยความจำได้เนื่องจากมีต้นทุนสูง

“คุณไม่สามารถใส่โหนดนับพันล้านโหนดในหน่วยความจำได้ ดังนั้นพื้นที่จัดเก็บข้อมูลจึงมีความสำคัญมากยิ่งขึ้น” Matchett กล่าว น่าเสียดายที่การจัดเก็บข้อมูลมักถูกมองข้ามในระหว่างขั้นตอนการวางแผน

โดยทั่วไป ไม่ว่ากรณีการใช้งานจะเป็นอย่างไร มีจุดร่วมสี่ประการในกระบวนการฝึกโมเดล:

1. การฝึกโมเดล
2. การสมัครอนุมาน
3. การจัดเก็บข้อมูล
4. คอมพิวเตอร์เร่งความเร็ว

เมื่อสร้างและปรับใช้โมเดล ข้อกำหนดส่วนใหญ่จะจัดลำดับความสำคัญของสภาพแวดล้อมการพิสูจน์แนวคิดอย่างรวดเร็ว (POC) หรือสภาพแวดล้อมการทดสอบเพื่อเริ่มต้นการฝึกโมเดล โดยไม่จำเป็นต้องคำนึงถึงความต้องการพื้นที่จัดเก็บข้อมูลเป็นอันดับแรก

อย่างไรก็ตาม ความท้าทายอยู่ที่ความจริงที่ว่าการฝึกอบรมหรือการอนุมานอาจใช้เวลานานหลายเดือนหรือหลายปี บริษัทหลายแห่งขยายขนาดโมเดลอย่างรวดเร็วในช่วงเวลานี้ และโครงสร้างพื้นฐานจะต้องขยายเพื่อรองรับโมเดลและชุดข้อมูลที่เพิ่มมากขึ้น

การวิจัยจาก Google เกี่ยวกับปริมาณงานการฝึกอบรม ML หลายล้านรายการพบว่าใช้เวลาโดยเฉลี่ย 30% ของเวลาการฝึกอบรมไปกับไปป์ไลน์ข้อมูลอินพุต แม้ว่างานวิจัยที่ผ่านมาจะมุ่งเน้นไปที่การปรับ GPU ให้เหมาะสมเพื่อเร่งการฝึกอบรม แต่ความท้าทายมากมายยังคงมีอยู่ในการปรับส่วนต่างๆ ของไปป์ไลน์ข้อมูลให้เหมาะสม เมื่อคุณมีพลังในการคำนวณที่สำคัญ ปัญหาคอขวดที่แท้จริงจะกลายเป็นความรวดเร็วในการป้อนข้อมูลเข้าสู่การคำนวณเพื่อให้ได้ผลลัพธ์

โดยเฉพาะอย่างยิ่ง ความท้าทายในการจัดเก็บข้อมูลและการจัดการจำเป็นต้องมีการวางแผนสำหรับการเติบโตของข้อมูล ซึ่งช่วยให้คุณสามารถดึงคุณค่าของข้อมูลได้อย่างต่อเนื่องในขณะที่คุณดำเนินการ โดยเฉพาะอย่างยิ่งเมื่อคุณเสี่ยงต่อกรณีการใช้งานขั้นสูง เช่น การเรียนรู้เชิงลึกและโครงข่ายประสาทเทียม ซึ่งมีความต้องการสูงขึ้น พื้นที่จัดเก็บข้อมูลในแง่ของความจุ ประสิทธิภาพ และความสามารถในการขยายขนาด

โดยเฉพาะอย่างยิ่ง:

ความสามารถในการขยายขนาด
การเรียนรู้ของเครื่องจำเป็นต้องจัดการข้อมูลจำนวนมหาศาล และเมื่อปริมาณข้อมูลเพิ่มขึ้น ความแม่นยำของแบบจำลองก็จะดีขึ้นเช่นกัน ซึ่งหมายความว่าธุรกิจต่างๆ จะต้องรวบรวมและจัดเก็บข้อมูลมากขึ้นทุกวัน เมื่อพื้นที่จัดเก็บข้อมูลไม่สามารถปรับขนาดได้ ปริมาณงานที่ใช้ข้อมูลจำนวนมากจะทำให้เกิดปัญหาคอขวด จำกัดประสิทธิภาพ และส่งผลให้ GPU ไม่ทำงานมีค่าใช้จ่ายสูง

ความยืดหยุ่น
การสนับสนุนที่ยืดหยุ่นสำหรับหลายโปรโตคอล (รวมถึง NFS, SMB, HTTP, FTP, HDFS และ S3) เป็นสิ่งจำเป็นเพื่อตอบสนองความต้องการของระบบที่แตกต่างกัน แทนที่จะจำกัดอยู่เพียงสภาพแวดล้อมประเภทเดียว

เวลาแฝง
เวลาแฝงของ I/O มีความสำคัญอย่างยิ่งต่อการสร้างและการใช้โมเดล เนื่องจากข้อมูลถูกอ่านและอ่านซ้ำหลายครั้ง การลดเวลาแฝงของ I/O สามารถลดระยะเวลาการฝึกอบรมของโมเดลลงได้หลายวันหรือหลายเดือน การพัฒนาโมเดลที่เร็วขึ้นแปลโดยตรงถึงความได้เปรียบทางธุรกิจที่มากขึ้น

ปริมาณงาน
ปริมาณงานของระบบจัดเก็บข้อมูลมีความสำคัญอย่างยิ่งต่อการฝึกโมเดลที่มีประสิทธิภาพ กระบวนการฝึกอบรมเกี่ยวข้องกับข้อมูลจำนวนมาก โดยทั่วไปมีหน่วยเป็นเทราไบต์ต่อชั่วโมง

การเข้าถึงแบบขนาน
เพื่อให้บรรลุปริมาณงานสูง โมเดลการฝึกอบรมจะแบ่งกิจกรรมออกเป็นงานคู่ขนานหลายงาน ซึ่งมักหมายความว่าอัลกอริธึมการเรียนรู้ของเครื่องเข้าถึงไฟล์เดียวกันจากหลายกระบวนการ (อาจอยู่บนเซิร์ฟเวอร์จริงหลายเครื่อง) พร้อม ๆ กัน ระบบจัดเก็บข้อมูลจะต้องจัดการกับความต้องการที่เกิดขึ้นพร้อมกันโดยไม่กระทบต่อประสิทธิภาพการทำงาน

ด้วยความสามารถที่โดดเด่นในด้านเวลาแฝงต่ำ ปริมาณงานสูง และ I/O แบบขนานขนาดใหญ่ Dell PowerScale จึงเป็นอุปกรณ์จัดเก็บข้อมูลในอุดมคติสำหรับการประมวลผลที่เร่งด้วย GPU PowerScale ช่วยลดเวลาที่ต้องใช้สำหรับโมเดลการวิเคราะห์ที่ฝึกฝนและทดสอบชุดข้อมูลหลายเทราไบต์ได้อย่างมีประสิทธิภาพ ในพื้นที่จัดเก็บข้อมูลแบบแฟลชทั้งหมด PowerScale แบนด์วิดท์จะเพิ่มขึ้น 18 เท่า ขจัดปัญหาคอขวดของ I/O และสามารถเพิ่มลงในคลัสเตอร์ Isilon ที่มีอยู่เพื่อเร่งและปลดล็อกมูลค่าของข้อมูลที่ไม่มีโครงสร้างจำนวนมาก

นอกจากนี้ ความสามารถในการเข้าถึงหลายโปรโตคอลของ PowerScale ยังมอบความยืดหยุ่นไม่จำกัดสำหรับการรันเวิร์กโหลด ทำให้สามารถจัดเก็บข้อมูลโดยใช้โปรโตคอลหนึ่งและเข้าถึงโดยใช้อีกโปรโตคอลหนึ่งได้ โดยเฉพาะอย่างยิ่ง คุณสมบัติอันทรงพลัง ความยืดหยุ่น ความสามารถในการปรับขนาด และฟังก์ชันการทำงานระดับองค์กรของแพลตฟอร์ม PowerScale ช่วยจัดการกับความท้าทายต่อไปนี้:

- เร่งสร้างนวัตกรรมได้สูงสุดถึง 2.7 เท่า ช่วยลดวงจรการฝึกฝนโมเดล

- ขจัดปัญหาคอขวดของ I/O และมอบการฝึกฝนและการตรวจสอบโมเดลที่รวดเร็วยิ่งขึ้น ความแม่นยำของโมเดลที่ได้รับการปรับปรุง ผลผลิตด้านวิทยาศาสตร์ข้อมูลที่เพิ่มขึ้น และเพิ่มผลตอบแทนจากการลงทุนในการประมวลผลสูงสุดโดยใช้ประโยชน์จากฟีเจอร์ระดับองค์กร ประสิทธิภาพสูง การทำงานพร้อมกัน และความสามารถในการปรับขนาด ปรับปรุงความแม่นยำของโมเดลด้วยชุดข้อมูลที่ลึกและมีความละเอียดสูงกว่าโดยใช้ประโยชน์จากความจุพื้นที่จัดเก็บข้อมูลที่มีประสิทธิภาพสูงสุด 119 PB ในคลัสเตอร์เดียว

- บรรลุการปรับใช้งานในวงกว้างโดยเริ่มต้นขนาดเล็กและปรับขนาดการประมวลผลและพื้นที่เก็บข้อมูลอย่างอิสระ มอบตัวเลือกการปกป้องข้อมูลและความปลอดภัยที่แข็งแกร่ง

- ปรับปรุงประสิทธิภาพการทำงานด้านวิทยาศาสตร์ข้อมูลด้วยการวิเคราะห์แบบแทนที่และโซลูชันที่ได้รับการตรวจสอบล่วงหน้าเพื่อการปรับใช้ที่รวดเร็วและมีความเสี่ยงต่ำ

- ใช้ประโยชน์จากการออกแบบที่ได้รับการพิสูจน์แล้วบนพื้นฐานของเทคโนโลยีที่ดีที่สุด รวมถึงการเร่งความเร็ว NVIDIA GPU และสถาปัตยกรรมอ้างอิงด้วยระบบ NVIDIA DGX ประสิทธิภาพและการทำงานพร้อมกันระดับสูงของ PowerScale ตอบสนองความต้องการด้านประสิทธิภาพการจัดเก็บข้อมูลในทุกขั้นตอนของแมชชีนเลิร์นนิง ตั้งแต่การรับและการเตรียมข้อมูล ไปจนถึงการฝึกโมเดลและการอนุมาน เมื่อใช้ร่วมกับระบบปฏิบัติการ OneFS โหนดทั้งหมดสามารถทำงานได้อย่างราบรื่นภายในคลัสเตอร์ที่ขับเคลื่อนด้วย OneFS เดียวกัน พร้อมด้วยฟีเจอร์ระดับองค์กร เช่น การจัดการประสิทธิภาพ การจัดการข้อมูล ความปลอดภัย และการปกป้องข้อมูล ช่วยให้การฝึกฝนโมเดลและการตรวจสอบความถูกต้องสำหรับธุรกิจเสร็จสิ้นเร็วขึ้น


เวลาโพสต์: Jul-03-2023