เซินเจิ้น ประเทศจีน — 18 พฤศจิกายน 2025 — เนื่องจากความต้องการด้านพลังการประมวลผลปัญญาประดิษฐ์ (AI) ทั่วโลกยังคงเพิ่มสูงขึ้นอย่างต่อเนื่อง Aethlumis ได้ประกาศเปิดตัวเซิร์ฟเวอร์ AI รุ่นเรือธงรุ่นใหม่ คือ TG990V3 หลังจากที่ได้มีการติดตั้งใช้งานในระยะเริ่มต้นกับบริษัทอินเทอร์เน็ตรายใหญ่ สถาบันวิจัยปัญญาประดิษฐ์ และผู้ให้บริการคลาวด์รายสำคัญแล้ว TG990V3 ได้แสดงให้เห็นถึงความก้าวหน้าอย่างมากในด้านประสิทธิภาพสำหรับการฝึกโมเดลขนาดใหญ่ ในการทดสอบที่เกี่ยวข้องกับงานประมวลผลระดับล้านล้านพารามิเตอร์ เซิร์ฟเวอร์สามารถเพิ่มประสิทธิภาพการฝึกอบรมโดยรวมได้สูงถึง 40% และลดระยะเวลาการฝึกอบรมลงได้ 30%–32% เมื่อเทียบกับรุ่นก่อน

โครงสร้างพื้นฐานด้านปัญญาประดิษฐ์ถึงจุดเปลี่ยนใหม่
ด้วยขนาดของโมเดลที่ขยายตัวจากหลายพันล้านไปเป็นล้านล้านพารามิเตอร์ภายในช่วงสองปีที่ผ่านมา ช่องว่างระหว่างความก้าวหน้าของอัลกอริทึมและโครงสร้างพื้นฐานด้านการประมวลผลจึงปรากฏชัดเจนยิ่งขึ้น CEO ของ Aethlumis คุณหวังฉีหาง ได้เน้นย้ำในงานเปิดตัวว่า:
อัตราการพัฒนาของโมเดลขนาดใหญ่ได้ก้าวข้ามความเร็วของการอัปเกรดโครงสร้างพื้นฐานแบบดั้งเดิมไปแล้ว TG990V3 ได้รับการออกแบบมาเพื่อมอบประสิทธิภาพในการฝึกอบรมที่สูงขึ้นโดยไม่เพิ่มต้นทุนฮาร์ดแวร์หรือการใช้พลังงาน ช่วยให้ทีมงานด้านปัญญาประดิษฐ์สามารถปรับปรุงและพัฒนาโมเดลได้อย่างรวดเร็วและยั่งยืนมากขึ้น
นักวิเคราะห์ในอุตสาหกรรมชี้ว่า การแข่งขันด้านเซิร์ฟเวอร์ปัญญาประดิษฐ์ได้เปลี่ยนผ่านจากการรวมฮาร์ดแวร์แบบดิบๆ มาเป็นการเพิ่มประสิทธิภาพสถาปัตยกรรมในระดับระบบ ซึ่งเป็นทิศทางที่ TG990V3 สะท้อนออกมาอย่างชัดเจน


สถาปัตยกรรมการเชื่อมต่อประสิทธิภาพสูง: การใช้แบนด์วิดธ์แบบเพียร์ทูเพียร์เกิน 95% ในการฝึกอบรมโมเดลขนาด 1 เทระพารามิเตอร์
TG990V3 มาพร้อมโมดูล GPU แบบ OAM จำนวนแปดตัวตามมาตรฐาน OAI 2.0 โดยใช้โครงสร้างการเชื่อมต่อหลายชั้นรุ่นใหม่ที่ถูกออกแบบมาโดยเฉพาะเพื่อการฝึกอบรมแบบกระจายขนาดใหญ่
ในการทดสอบภายในที่ดำเนินการโดยบริษัทอินเทอร์เน็ตชั้นนำบนโมเดลขนาดหนึ่งล้านล้านพารามิเตอร์:
• ประสิทธิภาพการเชื่อมต่อระหว่าง GPU คงที่อยู่ที่ 95–96%
• ความหน่วงเวลาในการซิงค์เกรเดียนต์ลดลง 27%
• ปริมาณการประมวลผลรวมของคลัสเตอร์เพิ่มขึ้น 21%
ผู้อำนวยการด้านเทคนิคจากห้องปฏิบัติการประเมิน AI ให้ความเห็นว่า:
"เมื่อทำการฝึกโมเดลในระดับนี้ ทุกหนึ่งเปอร์เซ็นต์ของประสิทธิภาพในการสื่อสารมีความสำคัญ TG990V3 ยังคงรักษาระดับประสิทธิภาพอย่างมั่นคงแม้ขนาดคลัสเตอร์จะขยายตัว ซึ่งถือเป็นข้อได้เปรียบสำคัญ"

การออกแบบอัตราส่วน "ทองคำ" สำหรับ I/O: กำจัดคอขวดข้อมูลในการฝึกอบรม AI
ปัญหาที่เกิดขึ้นอย่างต่อเนื่องในการฝึกอบรม AI คือ GPU สมรรถนะสูงมักไม่ถูกใช้งานอย่างเต็มที่เนื่องจากคอขวดด้าน I/O — แบนด์วิธเครือข่ายไม่เพียงพอ ปริมาณการถ่ายโอนข้อมูลจากที่จัดเก็บจำกัด หรือช่องทางการโหลดข้อมูลช้า
เพื่อแก้ไขปัญหานี้ Aethlumis ได้แนะนำสถาปัตยกรรมแบบ 8 : 8 : 16 (GPU : NIC : NVMe) ซึ่งพบได้ยากในอุตสาหกรรม:
• แบนด์วิธเครือข่ายเฉพาะตัว 400 Gbps ต่อ GPU หนึ่งตัว
• SSD NVMe Gen4/Gen5 จำนวนสองตัวที่ทำงานแยกจากกันต่อ GPU หนึ่งตัว
• ลดความหน่วงเวลาในการโหลดข้อมูลลงมากกว่า 60%
บริษัทสตาร์ทอัพ AI ในประเทศที่เข้าร่วมทดสอบเบื้องต้นระบุว่า การใช้งาน GPU ยังคงอยู่ในช่วง 94–97% อย่างต่อเนื่อง สูงกว่าช่วง 70–75% ที่พบในเซิร์ฟเวอร์ที่ใช้อยู่ในปัจจุบันอย่างมีนัยสำคัญ

ความน่าเชื่อถือระดับคลัสเตอร์: เวลาเฉลี่ยในการซ่อมแซม (MTTR) ต่ำกว่า 3 นาที, การขยายตัวแบบเชิงเส้นสูงถึง 92%
ออกแบบมาเพื่องานเทรนโมเดลขนาดใหญ่และระยะเวลานาน TG990V3 มีสถาปัตยกรรมแบบโมดูลาร์สมบูรณ์ พร้อมโมดูล GPU พัดลม ไฟฟ้า และเครือข่ายที่สามารถเปลี่ยนได้ขณะระบบทำงาน
ผลการทดสอบจากลูกค้ารายแรกเริ่มรายงานว่า:
• เวลาเฉลี่ยในการซ่อมแซม (MTTR) ลดลงจาก 10–12 นาที เหลือต่ำกว่า 3 นาที
• ระบบมีความพร้อมใช้งานสูงถึง 99.95% ตลอดรอบการฝึกอบรมอย่างต่อเนื่อง 24/7
• มีประสิทธิภาพการขยายตัวแบบเชิงเส้นสูงถึง 92% ในคลัสเตอร์ที่ใช้การ์ดจำนวนพันใบ
• สิ่งนี้ช่วยให้มั่นใจได้ถึงความน่าเชื่อถือในระดับที่ไม่เคยมีมาก่อนสำหรับองค์กรที่ดำเนินงานในสภาพแวดล้อมการฝึกอบรมแบบกระจายขนาดใหญ่
ตัวชี้วัดประสิทธิภาพจริง (จากผู้ใช้งานกลุ่มแรก)
• ลดเวลาการฝึกอบรมลง 32% สำหรับโมเดลภาษาขนาดหนึ่งล้านล้านพารามิเตอร์
• เพิ่มประสิทธิภาพการรับส่งข้อมูลเข้าระบบขึ้นกว่า 60%
• ประสิทธิภาพการปรับขนาด 92% ในคลัสเตอร์แบบมัลตินอด
• ความสามารถในการใช้งาน 99.95% ในงานที่ดำเนินการเป็นเวลานาน
การใช้งานรวมถึง:
• การฝึกโมเดลภาษาขนาดใหญ่ (LLM) (LLaMA, ซีรีส์ GPT เป็นต้น)
• การฝึกโมเดลหลายรูปแบบ (ภาพ เสียง วิดีโอ 3D)
• แพลตฟอร์มปัญญาประดิษฐ์สำหรับองค์กร และคลัสเตอร์เพื่อการอนุมาน
• สภาพแวดล้อมการประมวลผลเพื่อการวิจัยระดับมหาวิทยาลัยและระดับชาติ

การสร้างโครงสร้างพื้นฐานปัญญาประดิษฐ์รุ่นถัดไป
ดร.หลี่จาง รองประธานฝ่ายผลิตภัณฑ์ของเอเทลลูมิส กล่าวสรุป:
“TG990V3 ไม่ใช่การอัปเดตฮาร์ดแวร์ธรรมดา แต่มันแสดงถึงการปรับให้เหมาะสมในระดับระบบสำหรับกระบวนการฝึกโมเดลขนาดใหญ่ทั้งหมด รวมถึงสถาปัตยกรรมการเชื่อมต่อ ซับระบบ I/O และการดำเนินงานอัจฉริยะ เราออกแบบมันขึ้นมาเพื่อรองรับการเติบโตอย่างเร่งด่วนของขนาดโมเดลในอีกสามปีข้างหน้า”
TG990V3 มีวางจำหน่ายแล้วสำหรับการติดตั้งในระดับองค์กร และกำลังถูกใช้งานอยู่แล้วบนแพลตฟอร์มคลาวด์และบริษัทปัญญาประดิษฐ์หลายแห่ง