[จีน เซินเจิ้น 14 กรกฎาคม 2566] วันนี้ หัวเว่ยได้เปิดตัวโซลูชันการจัดเก็บข้อมูล AI ใหม่สำหรับยุคของโมเดลขนาดใหญ่ โดยมอบโซลูชันการจัดเก็บข้อมูลที่เหมาะสมที่สุดสำหรับการฝึกโมเดลพื้นฐาน การฝึกโมเดลเฉพาะอุตสาหกรรม และการอนุมานในสถานการณ์ที่แบ่งกลุ่ม ปลดปล่อยความสามารถ AI ใหม่
ในการพัฒนาและการใช้งานแอปพลิเคชันโมเดลขนาดใหญ่ องค์กรต่างๆ ต้องเผชิญกับความท้าทายหลักสี่ประการ:
ประการแรก เวลาที่ต้องใช้ในการเตรียมข้อมูลนั้นยาวนาน แหล่งข้อมูลกระจัดกระจาย และการรวมกลุ่มทำได้ช้า โดยใช้เวลาประมาณ 10 วันในการประมวลผลข้อมูลล่วงหน้าหลายร้อยเทราไบต์ ประการที่สอง สำหรับโมเดลขนาดใหญ่หลายรูปแบบที่มีชุดข้อมูลข้อความและรูปภาพขนาดใหญ่ ความเร็วในการโหลดปัจจุบันสำหรับไฟล์ขนาดเล็กขนาดใหญ่จะน้อยกว่า 100MB/s ส่งผลให้มีประสิทธิภาพต่ำสำหรับการโหลดชุดการฝึก ประการที่สาม การปรับพารามิเตอร์บ่อยครั้งสำหรับโมเดลขนาดใหญ่ ร่วมกับแพลตฟอร์มการฝึกที่ไม่เสถียร ทำให้เกิดการหยุดชะงักของการฝึกทุกๆ 2 วันโดยประมาณ ทำให้กลไก Checkpoint ต้องกลับมาฝึกต่อ โดยการฟื้นฟูจะใช้เวลามากกว่าหนึ่งวัน สุดท้ายนี้ เกณฑ์การใช้งานที่สูงสำหรับโมเดลขนาดใหญ่ การตั้งค่าระบบที่ซับซ้อน ความท้าทายในการจัดตารางเวลาทรัพยากร และการใช้ทรัพยากร GPU มักจะต่ำกว่า 40%
หัวเว่ยสอดคล้องกับแนวโน้มการพัฒนา AI ในยุคของโมเดลขนาดใหญ่ โดยนำเสนอโซลูชันที่ปรับให้เหมาะกับอุตสาหกรรมและสถานการณ์ที่แตกต่างกัน เปิดตัวพื้นที่เก็บข้อมูล Data Lake การเรียนรู้เชิงลึก OceanStor A310 และอุปกรณ์ Super-Converged การฝึกอบรม/การอนุมาน FusionCube A3000 พื้นที่เก็บข้อมูล Data Lake การเรียนรู้เชิงลึก OceanStor A310 กำหนดเป้าหมายทั้งแบบจำลอง Data Lake ขนาดใหญ่ขั้นพื้นฐานและระดับอุตสาหกรรม เพื่อให้บรรลุการจัดการข้อมูล AI ที่ครอบคลุมตั้งแต่การรวมข้อมูล การประมวลผลล่วงหน้าไปจนถึงการฝึกโมเดล และแอปพลิเคชันการอนุมาน OceanStor A310 ในแร็ค 5U เดี่ยว รองรับแบนด์วิดท์ชั้นนำของอุตสาหกรรม 400GB/s และ IOPS สูงถึง 12 ล้าน IOPS พร้อมความสามารถในการปรับขนาดเชิงเส้นสูงสุด 4096 โหนด ทำให้สามารถสื่อสารข้ามโปรโตคอลได้อย่างราบรื่น Global File System (GFS) อำนวยความสะดวกในการสานข้อมูลอัจฉริยะข้ามภูมิภาค ทำให้กระบวนการรวบรวมข้อมูลคล่องตัวขึ้น การประมวลผลแบบ Near-storage ทำให้มีการประมวลผลข้อมูลล่วงหน้าที่ใกล้เคียง ลดการเคลื่อนย้ายข้อมูล และปรับปรุงประสิทธิภาพการประมวลผลล่วงหน้าถึง 30%
อุปกรณ์ Super-Converged สำหรับการฝึกฝน/การอนุมาน FusionCube A3000 ได้รับการออกแบบมาสำหรับสถานการณ์การฝึก/การอนุมานโมเดลขนาดใหญ่ระดับอุตสาหกรรม รองรับการใช้งานที่เกี่ยวข้องกับโมเดลที่มีพารามิเตอร์นับพันล้านรายการ โดยผสานรวมโหนดการจัดเก็บข้อมูลประสิทธิภาพสูง OceanStor A300 โหนดการฝึกอบรม/การอนุมาน อุปกรณ์สวิตชิ่ง ซอฟต์แวร์แพลตฟอร์ม AI และซอฟต์แวร์การจัดการและการดำเนินงาน ช่วยให้พันธมิตรโมเดลขนาดใหญ่ได้รับประสบการณ์การใช้งานแบบปลั๊กแอนด์เพลย์สำหรับการส่งมอบแบบครบวงจร พร้อมใช้งานสามารถใช้งานได้ภายใน 2 ชั่วโมง ทั้งโหนดการฝึกอบรม/การอนุมานและหน่วยเก็บข้อมูลสามารถขยายได้อย่างอิสระและในแนวนอนเพื่อให้ตรงกับข้อกำหนดขนาดของโมเดลต่างๆ ในขณะเดียวกัน FusionCube A3000 ใช้คอนเทนเนอร์ประสิทธิภาพสูงเพื่อให้สามารถฝึกโมเดลหลายแบบและงานอนุมานเพื่อแชร์ GPU ได้ เพิ่มการใช้ทรัพยากรจาก 40% เป็นมากกว่า 70% FusionCube A3000 รองรับโมเดลธุรกิจที่ยืดหยุ่นสองโมเดล: โซลูชัน Huawei Ascend One-Stop และโซลูชันแบบครบวงจรของพันธมิตรบุคคลที่สามพร้อมซอฟต์แวร์คอมพิวเตอร์แบบเปิด เครือข่าย และแพลตฟอร์ม AI
โจว เยว่เฟิง ประธานกลุ่มผลิตภัณฑ์จัดเก็บข้อมูลของ Huawei กล่าวว่า “ในยุคของโมเดลขนาดใหญ่ ข้อมูลเป็นตัวกำหนดความสูงของความฉลาดของ AI ในฐานะผู้ให้บริการข้อมูล การจัดเก็บข้อมูลกลายเป็นโครงสร้างพื้นฐานที่สำคัญสำหรับโมเดล AI ขนาดใหญ่ Huawei Data Storage จะยังคงสร้างสรรค์นวัตกรรมต่อไป โดยนำเสนอโซลูชั่นและผลิตภัณฑ์ที่หลากหลายสำหรับยุคของโมเดลขนาดใหญ่ของ AI โดยร่วมมือกับพันธมิตรเพื่อขับเคลื่อนการเพิ่มศักยภาพของ AI ในอุตสาหกรรมที่หลากหลาย”
เวลาโพสต์: 01-01-2023