دریافت پیشنهاد قیمت رایگان

نماینده ما به زودی با شما تماس خواهد گرفت.
ایمیل
تلفن/واتس‌اپ
نام
نام شرکت
پیام
0/1000

اخبار

صفحه اصلی >  اخبار

اِیتلومیس معرفی سرور هوش مصنوعی نسل جدید TG990V3 کرد که تا ۴۰ درصد بهبود در کارایی آموزش مدل‌های بزرگ ارائه می‌دهد

2025.11.18

شنتشن، چین — ۱۸ نوامبر ۲۰۲۵ — با ادامه روند افزایش تقاضا برای قدرت محاسباتی هوش مصنوعی در سطح جهانی، امروز شرکت اِتلومیس از معرفی سرور هوش مصنوعی نسل جدید خود به نام TG990V3 اطلاع‌رسانی کرد. این سرور پس از انجام نصب‌های اولیه در شرکت‌های بزرگ اینترنتی، مؤسسات تحقیقاتی هوش مصنوعی و ارائه‌دهندگان خدمات ابری، به پیشرفت‌های چشمگیری در کارآیی آموزش مدل‌های بزرگ دست یافته است. در آزمایش‌های انجام‌شده با بارهای کاری ترازیون پارامتری، این سرور بهبودی تا ۴۰ درصدی در کارایی کلی آموزش به همراه کاهش ۳۰ تا ۳۲ درصدی چرخه‌های آموزش نسبت به نسل قبلی را نشان داده است.

1-1.jpg

زیرساخت هوش مصنوعی به نقطه عطفی جدید رسیده است

با افزایش اندازه مدل‌ها از میلیارد به تریلیون پارامتر در طی دو سال گذشته، شکاف بین پیشرفت الگوریتم‌ها و زیرساخت محاسباتی به‌طور فزاینده‌ای آشکار شده است. وانق چی‌هانگ، مدیرعامل اِتلومیس، در حین رویداد معرفی محصول تأکید کرد:

«سرعت تحول مدل‌های بزرگ از سرعت ارتقاء زیرساخت‌های سنتی پیشی گرفته است. TG990V3 به گونه‌ای طراحی شده که با افزایش کارایی آموزش، هزینه سخت‌افزاری یا مصرف انرژی را افزایش نمی‌دهد و به تیم‌های هوش مصنوعی امکان می‌دهد تا سریع‌تر و پایدارتر تکرارپذیری داشته باشند.»

تحلیلگران صنعت تأکید می‌کنند که رقابت در سرورهای هوش مصنوعی از انباشت خام سخت‌افزار به سمت بهینه‌سازی معماری در سطح سیستم جابجا شده است؛ جهتی که TG990V3 به خوبی این رویکرد را تجسم می‌بخشد.

2.jpg

 

01.jpg

معماری اتصال کارآمد بالا: بهره‌برداری از پهنای باند نقطه‌به‌نقطه بیش از 95٪ در آموزش مدل‌های تراپارامتری

با مجهز شدن به هشت ماژول گرافیکی OAM بر اساس استاندارد OAI 2.0، TG990V3 از یک توپولوژی چندلایه اتصال نسل جدید بهینه‌سازی‌شده برای آموزش توزیع‌شده در مقیاس بزرگ بهره می‌برد.

در آزمایش داخلی که توسط یک شرکت اینترنتی پیشرو روی یک مدل تراپارامتری انجام شد:

• کارایی اتصال گرافیکی به گرافیکی در محدوده 95 تا 96 درصد پایدار ماند

• تأخیر همگام‌سازی گرادیان‌ها 27 درصد کاهش یافت

• عملکرد کلی خوشه 21 درصد بهبود یافت

یک مدیر فنی از آزمایشگاه ارزیابی هوش مصنوعی اظهار داشت:

«هنگام آموزش مدل‌ها در این مقیاس، هر درصد بهره‌وری ارتباطات اهمیت دارد. عملکرد TG990V3 حتی با افزایش اندازه خوشه پایدار باقی می‌ماند که این یک مزیت بزرگ است.»


02.jpg

طراحی نسبت طلایی ورودی/خروجی: رفع گلوگاه داده در آموزش هوش مصنوعی

چالشی که همواره در آموزش هوش مصنوعی وجود دارد این است که اغلب واحدهای پردازش گرافیکی (GPU) با عملکرد بالا به دلیل گلوگاه‌های ورودی/خروجی — عرض باند شبکه ناکافی، توان انتقال ذخیره‌سازی محدود یا خطوط بارگذاری داده کند — به‌طور کامل استفاده نمی‌شوند.

برای حل این مشکل، شرکت اِیثلومیس معماری بی‌نظیر صنعتی 8 : 8 : 16 (GPU : NIC : NVMe) را معرفی کرده است:

• 400 گیگابیت بر ثانیه پهنای باند شبکه اختصاصی به ازای هر واحد GPU

• دو حلقه مستقل SSD از نوع NVMe Gen4/Gen5 به ازای هر واحد GPU

• کاهش بیش از 60٪ تأخیر در بارگذاری داده

یک استارت‌آپ داخلی هوش مصنوعی که در مراحل اولیه آزمایش شرکت کرده بود، اشاره کرد که بهره‌وری واحد GPU به‌طور مداوم بین 94 تا 97 درصد باقی مانده است که به‌مراتب بالاتر از محدوده 70 تا 75 درصد در سرورهای فعلی آن‌هاست.


03.jpg

قابلیت اطمینان در سطح کلاستر: MTTR زیر ۳ دقیقه، مقیاس‌پذیری خطی تا ۹۲٪

طراحی‌شده برای بارهای کاری آموزشی با مقیاس بزرگ و مدت‌زمان طولانی، TG990V3 دارای معماری کاملاً ماژولار با ماژول‌های گرافیکی، پنکه، برق و شبکه قابل تعویض بدون خاموش‌کردن سیستم است.

گزارش تست مشتریان اولیه:

• میانگین زمان تعمیر (MTTR) از ۱۰ تا ۱۲ دقیقه به کمتر از ۳ دقیقه کاهش یافته است

• دسترس‌پذیری ۹۹٫۹۵٪ سیستم در چرخه‌های آموزشی مداوم ۲۴ ساعته و ۷ روز هفته

• بازدهی مقیاس‌پذیری خطی ۹۲٪ در کلاسترهای هزار کارتی

• این امر قابلیت اطمینان بی‌سابقه‌ای را برای بنگاه‌های اقتصادی که در محیط‌های آموزش توزیع‌شده بزرگ عمل می‌کنند، تضمین می‌کند.

 

معیارهای عملکرد در دنیای واقعی (از سوی پیشگامان)

• کاهش ۳۲٪ در زمان آموزش مدل‌های زبانی با تریلیون پارامتر

• بهبود بیش از ۶۰٪ در نرخ توان عملیاتی بارگیری داده

• کارایی مقیاس‌بندی 92 درصدی در خوشه‌های چندگره‌ای

• دسترس‌پذیری 99.95 درصدی در وظایف طولانی‌مدت

برنامه های کاربردی شامل:

• آموزش مدل‌های زبان بزرگ (LLM) (LLaMA، سری GPT و غیره)

• آموزش مدل‌های چندرسانه‌ای (دید، صوت، ویدئو، 3D)

• پلتفرم‌های هوش مصنوعی سازمانی و خوشه‌های استنتاج

• محیط‌های محاسباتی تحقیقاتی دانشگاهی و سطح ملی

3.jpg

ساخت نسل بعدی زیرساخت هوش مصنوعی

دکتر لی ژانگ، معاون محصول در اِثلومیس، در پایان گفت:

«TG990V3 فقط یک به‌روزرسانی سخت‌افزاری ساده نیست. این محصول نشان‌دهنده بهینه‌سازی در سطح سیستم در تمام مراحل خط لوله آموزش مدل‌های بزرگ — از جمله معماری ارتباطی، زیرسیستم ورودی/خروجی و عملیات هوشمند — است. ما آن را برای پشتیبانی از سه سال آینده رشد شتابان در مقیاس مدل طراحی کرده‌ایم.»

TG990V3 اکنون برای استقرار در مقیاس سازمانی در دسترس است و هم‌اکنون در چندین پلتفرم ابری و شرکت هوش مصنوعی مورد استفاده قرار گرفته است.