شنتشن، چین — ۱۸ نوامبر ۲۰۲۵ — با ادامه روند افزایش تقاضا برای قدرت محاسباتی هوش مصنوعی در سطح جهانی، امروز شرکت اِتلومیس از معرفی سرور هوش مصنوعی نسل جدید خود به نام TG990V3 اطلاعرسانی کرد. این سرور پس از انجام نصبهای اولیه در شرکتهای بزرگ اینترنتی، مؤسسات تحقیقاتی هوش مصنوعی و ارائهدهندگان خدمات ابری، به پیشرفتهای چشمگیری در کارآیی آموزش مدلهای بزرگ دست یافته است. در آزمایشهای انجامشده با بارهای کاری ترازیون پارامتری، این سرور بهبودی تا ۴۰ درصدی در کارایی کلی آموزش به همراه کاهش ۳۰ تا ۳۲ درصدی چرخههای آموزش نسبت به نسل قبلی را نشان داده است.

زیرساخت هوش مصنوعی به نقطه عطفی جدید رسیده است
با افزایش اندازه مدلها از میلیارد به تریلیون پارامتر در طی دو سال گذشته، شکاف بین پیشرفت الگوریتمها و زیرساخت محاسباتی بهطور فزایندهای آشکار شده است. وانق چیهانگ، مدیرعامل اِتلومیس، در حین رویداد معرفی محصول تأکید کرد:
«سرعت تحول مدلهای بزرگ از سرعت ارتقاء زیرساختهای سنتی پیشی گرفته است. TG990V3 به گونهای طراحی شده که با افزایش کارایی آموزش، هزینه سختافزاری یا مصرف انرژی را افزایش نمیدهد و به تیمهای هوش مصنوعی امکان میدهد تا سریعتر و پایدارتر تکرارپذیری داشته باشند.»
تحلیلگران صنعت تأکید میکنند که رقابت در سرورهای هوش مصنوعی از انباشت خام سختافزار به سمت بهینهسازی معماری در سطح سیستم جابجا شده است؛ جهتی که TG990V3 به خوبی این رویکرد را تجسم میبخشد.


معماری اتصال کارآمد بالا: بهرهبرداری از پهنای باند نقطهبهنقطه بیش از 95٪ در آموزش مدلهای تراپارامتری
با مجهز شدن به هشت ماژول گرافیکی OAM بر اساس استاندارد OAI 2.0، TG990V3 از یک توپولوژی چندلایه اتصال نسل جدید بهینهسازیشده برای آموزش توزیعشده در مقیاس بزرگ بهره میبرد.
در آزمایش داخلی که توسط یک شرکت اینترنتی پیشرو روی یک مدل تراپارامتری انجام شد:
• کارایی اتصال گرافیکی به گرافیکی در محدوده 95 تا 96 درصد پایدار ماند
• تأخیر همگامسازی گرادیانها 27 درصد کاهش یافت
• عملکرد کلی خوشه 21 درصد بهبود یافت
یک مدیر فنی از آزمایشگاه ارزیابی هوش مصنوعی اظهار داشت:
«هنگام آموزش مدلها در این مقیاس، هر درصد بهرهوری ارتباطات اهمیت دارد. عملکرد TG990V3 حتی با افزایش اندازه خوشه پایدار باقی میماند که این یک مزیت بزرگ است.»

طراحی نسبت طلایی ورودی/خروجی: رفع گلوگاه داده در آموزش هوش مصنوعی
چالشی که همواره در آموزش هوش مصنوعی وجود دارد این است که اغلب واحدهای پردازش گرافیکی (GPU) با عملکرد بالا به دلیل گلوگاههای ورودی/خروجی — عرض باند شبکه ناکافی، توان انتقال ذخیرهسازی محدود یا خطوط بارگذاری داده کند — بهطور کامل استفاده نمیشوند.
برای حل این مشکل، شرکت اِیثلومیس معماری بینظیر صنعتی 8 : 8 : 16 (GPU : NIC : NVMe) را معرفی کرده است:
• 400 گیگابیت بر ثانیه پهنای باند شبکه اختصاصی به ازای هر واحد GPU
• دو حلقه مستقل SSD از نوع NVMe Gen4/Gen5 به ازای هر واحد GPU
• کاهش بیش از 60٪ تأخیر در بارگذاری داده
یک استارتآپ داخلی هوش مصنوعی که در مراحل اولیه آزمایش شرکت کرده بود، اشاره کرد که بهرهوری واحد GPU بهطور مداوم بین 94 تا 97 درصد باقی مانده است که بهمراتب بالاتر از محدوده 70 تا 75 درصد در سرورهای فعلی آنهاست.

قابلیت اطمینان در سطح کلاستر: MTTR زیر ۳ دقیقه، مقیاسپذیری خطی تا ۹۲٪
طراحیشده برای بارهای کاری آموزشی با مقیاس بزرگ و مدتزمان طولانی، TG990V3 دارای معماری کاملاً ماژولار با ماژولهای گرافیکی، پنکه، برق و شبکه قابل تعویض بدون خاموشکردن سیستم است.
گزارش تست مشتریان اولیه:
• میانگین زمان تعمیر (MTTR) از ۱۰ تا ۱۲ دقیقه به کمتر از ۳ دقیقه کاهش یافته است
• دسترسپذیری ۹۹٫۹۵٪ سیستم در چرخههای آموزشی مداوم ۲۴ ساعته و ۷ روز هفته
• بازدهی مقیاسپذیری خطی ۹۲٪ در کلاسترهای هزار کارتی
• این امر قابلیت اطمینان بیسابقهای را برای بنگاههای اقتصادی که در محیطهای آموزش توزیعشده بزرگ عمل میکنند، تضمین میکند.
معیارهای عملکرد در دنیای واقعی (از سوی پیشگامان)
• کاهش ۳۲٪ در زمان آموزش مدلهای زبانی با تریلیون پارامتر
• بهبود بیش از ۶۰٪ در نرخ توان عملیاتی بارگیری داده
• کارایی مقیاسبندی 92 درصدی در خوشههای چندگرهای
• دسترسپذیری 99.95 درصدی در وظایف طولانیمدت
برنامه های کاربردی شامل:
• آموزش مدلهای زبان بزرگ (LLM) (LLaMA، سری GPT و غیره)
• آموزش مدلهای چندرسانهای (دید، صوت، ویدئو، 3D)
• پلتفرمهای هوش مصنوعی سازمانی و خوشههای استنتاج
• محیطهای محاسباتی تحقیقاتی دانشگاهی و سطح ملی

ساخت نسل بعدی زیرساخت هوش مصنوعی
دکتر لی ژانگ، معاون محصول در اِثلومیس، در پایان گفت:
«TG990V3 فقط یک بهروزرسانی سختافزاری ساده نیست. این محصول نشاندهنده بهینهسازی در سطح سیستم در تمام مراحل خط لوله آموزش مدلهای بزرگ — از جمله معماری ارتباطی، زیرسیستم ورودی/خروجی و عملیات هوشمند — است. ما آن را برای پشتیبانی از سه سال آینده رشد شتابان در مقیاس مدل طراحی کردهایم.»
TG990V3 اکنون برای استقرار در مقیاس سازمانی در دسترس است و هماکنون در چندین پلتفرم ابری و شرکت هوش مصنوعی مورد استفاده قرار گرفته است.