เรายังอยู่ในขั้นตอนการนำโครงสร้างพื้นฐานขั้นสูงไปใช้ในสาขาที่สำคัญที่แอธลูมิส ผ่านความร่วมมืออันแน่นแฟ้นกับผู้นำด้านเทคโนโลยีระดับโลก เช่น HPE, Dell และ Huawei มีเทคโนโลยีสถาปัตยกรรมหนึ่งด้านปัญญาประดิษฐ์ที่ได้กลายเป็นสิ่งจำเป็นในการสร้างระบบซูเปอร์คอมพิวเตอร์ที่ขับเคลื่อนปัญญาประดิษฐ์ในปัจจุบัน: คือ OAM (Open Accelerator Module) GPU server ไม่ใช่เพียงฮาร์ดแวร์อีกตัวหนึ่ง แต่เป็นโครงสร้างหลักที่รองรับการขยายขนาด สมรรถนะ และประสิทธิภาพของงานด้านปัญญาประดิษฐ์ที่ท้าทายที่สุดในยุคปัจจุบัน

แรงผลักดันจากมาตรฐานและความหนาแน่น
ขนาดอันใหญ่โตของโมเดลปัญญาประดิษฐ์ โดยเฉพาะโมเดลภาษาขนาดใหญ่ (LLMs) และเครือข่ายประสาทเทียมที่ซับซ้อนยิ่งขึ้น ทำให้สถาปัตยกรรมเซิร์ฟเวอร์แบบดั้งเดิมที่ออกแบบมาเพื่อใช้งานกับโมเดลง่ายๆ ไม่สามารถใช้งานได้อีกต่อไป โมเดลดังกล่าวต้องการพลังประมวลผลแบบขนานในระดับที่ไม่เคยมีมาก่อน ซึ่งจำเป็นต้องใช้ GPU หลายสิบ หรือบางครั้งถึงหลายร้อยตัวที่ทำงานร่วมกันอย่างไร้รอยต่อภายในระบบหนึ่ง OAM เป็นมาตรฐานเปิดที่สำคัญ ซึ่งเป็นระบบที่แยกตัวเร่งความเร็ว GPU ออกจากปัจจัยรูปร่างแบบเจ้าขุนมูลนาย มาตรฐานนี้ ซึ่งถูกพัฒนาโดยกลุ่มอุตสาหกรรมร่วมกัน ช่วยให้ผู้ผลิตเช่น NVIDIA, AMD และรายอื่นๆ สามารถพัฒนา GPU ประสิทธิภาพสูงที่สามารถติดตั้งเข้ากับแชสซีมาตรฐานที่ได้รับการปรับให้มีประสิทธิภาพได้ สำหรับลูกค้าของเราในภาคการเงิน การผลิต และพลังงาน หมายความว่าพวกเขาสามารถสร้างคลัสเตอร์คอมพิวเตอร์ประสิทธิภาพสูงขนาดใหญ่ได้ โดยไม่ต้องผูกติดกับระบบนิเวศของผู้ขายรายเดียว ทำให้พวกเขามีความยืดหยุ่นและสามารถปกป้องการลงทุนให้คงอยู่ได้ในอนาคต

เอาชนะคอขวดของการเชื่อมต่อ
การมีพลังการประมวลผลดิบโดยไม่สามารถสื่อสารกันด้วยความเร็วสูงพิเศษนั้นไร้ประโยชน์ โดยเฉพาะกับ GPU แม้แต่เซิร์ฟเวอร์เดียวที่มีเพียงไม่กี่ตัวก็ไม่สามารถใช้ฝึกโมเดลที่มีพารามิเตอร์เป็นล้านล้านตัวได้ ความชาญฉลาดที่แท้จริงของสถาปัตยกรรม OAM คือการผสานรวมเข้ากับโครงข่ายเชื่อมต่อความเร็วสูงมากและหน่วงต่ำ เช่น NVLink และ NVSwitch (ในระบบนิเวียดา) หรือเทียบเท่า ซึ่งถูกออกแบบมาเพื่อสนับสนุนการสื่อสารโดยตรงระหว่าง GPU ทั้งหมดในแร็คของโมดูล โดยไม่ต้องผ่านเส้นทาง PCIe แบบดั้งเดิมที่ช้ากว่า สิ่งนี้ทำให้เกิดเครื่องเร่งความเร็วขนาดใหญ่เดียวที่สามารถแลกเปลี่ยนข้อมูลจำลองจำนวนหลายเทระไบต์ได้เกือบแบบเรียลไทม์ นี่คือสิ่งที่ทำให้ชุดคอมพิวเตอร์ที่แยกจากกันกลายเป็นซูเปอร์คอมพิวเตอร์ AI แบบโมโนลิธิกที่แท้จริง ซึ่งช่วยให้สามารถส่งมอบโครงการได้อย่างมีประสิทธิภาพและตรงเวลา ซึ่งหากปราศจากสิ่งนี้ก็จะไม่สามารถทำได้

การออกแบบด้านความร้อนและพลังงาน: วิศวกรรมในระดับสเกล
ความหนาแน่นของพลังงานขนาดใหญ่ในแร็คเดียวก่อให้เกิดปัญหาด้านความร้อนและพลังงานอย่างมีนัยสำคัญ เซิร์ฟเวอร์ OAM ไม่ใช่เพียงกล่องที่บรรจุ GPU เท่านั้น แต่เป็นผลงานชิ้นเอกของการออกแบบระบบวิศวกรรมที่คำนึงถึงประสิทธิภาพในระยะยาว ระบบทั้งเหล่านี้ได้รับการออกแบบด้วยระบบระบายความร้อนขั้นสูงที่ทำงานร่วมกันอย่างมีประสิทธิภาพ โดยทั่วไปจะใช้การระบายความร้อนแบบของเหลวโดยตรงสู่ชิป (direct-to-chip liquid cooling) ซึ่งมีประสิทธิภาพในการกระจายความร้อนได้ดีแม้ในระดับการใช้พลังงานหลายกิโลวัตต์ ส่งผลให้ GPU สามารถรักษาระดับความเร็วสัญญาณนาฬิกาเพิ่มสูง (boost clocks) ได้อย่างต่อเนื่องเป็นเวลานาน ซึ่งเป็นสิ่งจำเป็นอย่างยิ่งสำหรับโปรแกรมการฝึกอบรมที่ดำเนินต่อเนื่องเป็นเวลาหลายสัปดาห์ นอกจากนี้ การออกแบบระบบจ่ายพลังงานแบบบูรณาการยังช่วยให้มั่นใจได้ถึงเสถียรภาพของพลังงานในระดับใหญ่ และมีคุณภาพสูง ซึ่งส่งผลให้ระบบมีความน่าเชื่อถือมากขึ้น และลดความเสี่ยงในการหยุดทำงานแก่ลูกค้าของเรา ในกรณีปฏิบัติการฝึกอบรม AI ระยะยาวที่สำคัญ หรือการทำงานอนุมานขนาดใหญ่

ความสามารถในการปรับขยายของปัญญาประดิษฐ์
ในที่สุด รูปแบบ OAM ก็เป็นหน่วยโครงสร้างพื้นฐานของระบบปัญญาประดิษฐ์ที่สามารถปรับขนาดได้ ซึ่งช่วยให้การขยายศูนย์ข้อมูลเปลี่ยนมาใช้แนวทางแบบ scale-out แทนที่จะเป็นแบบ scale-up โดยสามารถประกอบเป็นพ็อด (pod) ได้จากการเชื่อมต่อโมดูล OAM เดี่ยวๆ เข้าด้วยกัน และสามารถประกอบเป็นคลัสเตอร์ซูเปอร์คอมพิวเตอร์ได้โดยการเชื่อมต่อพ็อดต่างๆ เข้าด้วยกัน ประสบการณ์ของเราในการรวมระบบกับพันธมิตรอย่าง HPE และ Huawei ทำให้เราสามารถนำเสนอความยืดหยุ่นในรูปแบบโมดูลาร์นี้ เพื่อให้องค์กรต่างๆ พัฒนาขีดความสามารถด้านปัญญาประดิษฐ์ได้อย่างมีประสิทธิภาพตามลำดับขั้นตอนและตรงตามความต้องการ มันมอบประสิทธิภาพและความน่าเชื่อถือที่จำเป็นสำหรับแอปพลิเคชันปัญญาประดิษฐ์ในภาคอุตสาหกรรมและการเงินที่ต้องการความแม่นยำสูง ตั้งแต่ปัญญาประดิษฐ์เพื่อการสร้างสรรค์ ไปจนถึงการตรวจจับการฉ้อโกงแบบเรียลไทม์ รวมถึงการจำลองแบบดิจิทัลทวิน (digital twins) และการบำรุงรักษาเชิงคาดการณ์
โดยสรุป เซิร์ฟเวอร์ GPU แบบ OAM ไม่ใช่เพียงการอัปเกรดธรรมดาเท่านั้น แต่ถือเป็นการเปลี่ยนแปลงรูปแบบอย่างสิ้นเชิงในการออกแบบศูนย์ข้อมูล โดยมีจุดประสงค์เฉพาะเพื่อก้าวข้ามข้อจำกัดเฉพาะตัวที่เกิดขึ้นในระบบซูเปอร์คอมพิวเตอร์สำหรับปัญญาประดิษฐ์ พวกมันนำเสนอองค์ประกอบพื้นฐานสามประการ ได้แก่ ความหนาแน่นที่ได้มาตรฐาน การเชื่อมต่อประสิทธิภาพสูง และการจัดการความร้อนที่มีประสิทธิภาพ ซึ่งร่วมกันสร้างรากฐานอันแข็งแกร่งที่จะรองรับอนาคตของเทคโนโลยีปัญญาประดิษฐ์ เราใช้ประโยชน์จากความร่วมมือและผู้เชี่ยวชาญทางเทคนิคของเรา เพื่อจัดหาและดูแลโครงสร้างพื้นฐานหลักนี้ที่ Aethlumis ช่วยให้ลูกค้าของเราในอุตสาหกรรมการเงิน การผลิต และพลังงานสามารถนวัตกรรมได้อย่างมีประสิทธิภาพและมั่นใจ