چرا سرورهای GPU با فرمت OAM ستون فقرات زیرساخت رایانش سوپرکامپیوتری هوش مصنوعی هستند

2026-01-19 16:33:38

ما در اِیثلومیس از طریق روابط عمیق خود با رهبران جهانی فناوری مانند HPE، Dell و Huawei نیز در آستانهٔ اجرای زیرساخت‌های پیشرفته در حوزه‌های حیاتی قرار داریم. یک فناوری معماری در حوزه هوش مصنوعی وجود دارد که در ساخت سیستم‌های رایانش ابری محرک هوش مصنوعی امروز ضروری شده است: سرور GPU OAM (ماژول شتاب‌دهنده باز) . این فقط یک قطعه سخت‌افزاری دیگر نیست، بلکه ستون فقراتی است که مقیاس، عملکرد و کارایی بارهای کاری هوش مصنوعی چالش‌برانگیز عصر ما بر روی آن ساخته شده‌اند.

استانداردسازی و افزایش تراکم.

مقیاس بزرگ مدل‌های هوش مصنوعی، به‌ویژه مدل‌های زبانی بزرگ (LLMs) و شبکه‌های عصبی پیچیده‌تر، استفاده از معماری سرورهای قدیمی که برای مدل‌های ساده‌تر طراحی شده بودند را غیرعملی کرده است. این مدل‌ها به میزان بی‌سابقه‌ای از قدرت پردازش موازی نیاز دارند که این امر مستلزم استفاده از ده‌ها و گاهی صدها واحد GPU است که به‌صورت هماهنگ در یک سیستم یکپارچه شده‌اند. OAM یک استاندارد باز مهم است که یک سیستم باز محسوب می‌شود و شتاب‌دهنده GPU و فرم فاکتور اختصاصی آن را از هم جدا می‌کند. این استانداردسازی که توسط کنسرسیوم‌های صنعتی راه‌اندازی شده است، به فروشندگانی مانند NVIDIA، AMD و دیگران اجازه می‌دهد تا GPUهایی با عملکرد بالا توسعه دهند که بتوانند در یک شاسی استاندارد و بهینه‌شده جای گیرند. برای مشتریان ما در حوزه‌های مالی، تولیدی و انرژی، این بدان معناست که آن‌ها می‌توانند خوشه‌های محاسباتی بزرگ و با عملکرد بالا ایجاد کنند بدون اینکه وابسته به اکوسیستم یک فروشنده منحصربه‌فرد باشند و بدین ترتیب سرمایه‌گذاری خود را انعطاف‌پذیر و مقاوم در برابر تغییرات آینده نگه دارند.

غلبه بر گلوگاه اتصال.

استفاده از قدرت پردازش خامی که نتواند با سرعت‌های استثنایی بین واحدهای پردازش گرافیکی (GPU) ارتباط برقرار کند، هیچ فایده‌ای ندارد. حتی یک سرور منفرد با چند GPU نیز نمی‌تواند برای آموزش مدلی با تریلیون پارامتر استفاده شود. هوشمندی واقعی معماری OAM در ترکیب آن با زیرساخت‌های ارتباطی فوق العاده سریع و کم‌تأخیری مانند NVLink و NVSwitch (در اکوسیستم NVIDIA) یا معادل‌هایش است. سرورهای OAM به‌طور خاص به‌منظور پشتیبانی از ارتباط مستقیم بین واحدهای GPU در کل رک ماژول‌ها طراحی شده‌اند، بدون آنکه مسیرهای سنتی و کندتر PCIe دخیل شوند. این امر یک مبدل انبوه واحد را ایجاد می‌کند که در آن ترابایت‌ها داده شبیه‌سازی می‌توانند به‌صورت تقریباً بلادرنگ مبادله شوند. همین موضوع است که مجموعه‌ای از رایانه‌های جداگانه را به یک ابررایانه هوش مصنوعی واقعی و یکپارچه تبدیل می‌کند. این امر به‌صورت مستقیم امکان تحویل مؤثر و به‌موقع پروژه‌ها را فراهم می‌آورد که بدون آن دستیابی به آن‌ها ممکن نخواهد بود.

طراحی حرارتی و توان: مهندسی مقیاس

چگالی توان بالا در یک رک واحد، مشکلات قابل توجهی از نظر حرارتی و تغذیه برقی ایجاد می‌کند. سرور OAM فقط یک جعبه حاوی GPU نیست: بلکه یک اثر مهندسی سیستمی است که به عملکرد بلندمدت توجه دارد. این سیستم‌ها با سیستم‌های خنک‌کننده پیشرفته و هماهنگ طراحی شده‌اند، معمولاً خنک‌کنندگی مایع مستقیم به چیپ، که در پراکندن گرما تا سطوح مصرف توان در حد کیلووات بسیار کارآمد است. این امر باعث می‌شود GPUها بتوانند فرکانس افزایشی خود را برای مدت‌زمان طولانی حفظ کنند، که در برنامه‌های آموزشی که هفته‌ها ادامه دارند، غیرقابل انفصال است. علاوه بر این، طراحی یکپارچه تغذیه برقی، تأمین برق پایدار، تمیز و در مقیاس بزرگ را فراهم می‌کند. این امر به معنی قابلیت اطمینان بیشتر و کاهش خطر توقف سیستم برای مشتریان ما در صورت انجام عملیات حیاتی آموزش هوش مصنوعی یا عملیات استنتاج در مقیاس بزرگ است.

مقیاس‌پذیری هوش مصنوعی.

در نهایت، فاکتور فرم OAM واحد زیرساخت مقیاس‌پذیر هوش مصنوعی است. این فاکتور امکان انباشت دادگاه‌ها را به سمت رویکرد گسترش (scale-out) در شتاب‌دهی فراهم می‌کند، نه رویکرد تقویت (scale-up). یک پاد با اتصال ماژول‌های جداگانهٔ OAM و یک خوشهٔ رایانش سریع با اتصال پادها قابل ساخت است. تجربهٔ ما در یکپارچه‌سازی سیستم با شرکایمان مانند HPE و هوآوی، به ما امکان می‌دهد این ماژولاریته را ارائه دهیم تا سازمان‌ها بتوانند قابلیت‌های هوش مصنوعی خود را به صورت گام‌به‌گام و موثر و متناسب با نیازشان توسعه دهند. این زیرساخت عملکرد و قابلیت اطمینان مورد نیاز کاربردهای حساس صنعتی و مالی هوش مصنوعی را فراهم می‌کند که از هوش مصنوعی تولیدی و تشخیص تقلب بلادرنگ تا کاربردهای چندوجهی مانند دوقلوهای دیجیتال و شبیه‌سازی تعمیر و نگهداری پیش‌بینیکننده گسترده شده است.

به‌طور قطع، سرورهای GPU با معماری OAM تنها یک ارتقاء نیستند. آن‌ها نشان‌دهندهٔ یک تغییر عهد در طراحی مراکز داده هستند و به‌طور خاص با هدف غلبه بر محدودیت‌های خاص محاسبات ابری هوش مصنوعی طراحی شده‌اند. این سرورها سه عنصر اساسیِ چگالی استانداردشده، ارتباطات پیشرفته و مدیریت حرارتی مؤثر را فراهم می‌کنند که پایه‌ای سفت و سخت را تشکیل می‌دهند بر اساس آن آیندهٔ هوش مصنوعی شکل می‌گیرد. ما در اَتلمیس با بهره‌گیری از متحدان و تخصص فنی خود، این زیرساخت بنیادین را تأمین و نگهداری می‌کنیم تا مشتریان خود در صنایع مالی، تولیدی و انرژی را قادر سازیم تا به‌صورت کارآمد و با اطمینان نوآوری کنند.

قبلی:چرا سرورهای GPU با فرمت OAM برای گسترش ظرفیت تحقیقات هوش مصنوعی ضروری هستند

بعدی:

چرا سرورهای GPU با فرمت OAM ستون فقرات زیرساخت رایانش سوپرکامپیوتری هوش مصنوعی هستند

استانداردسازی و افزایش تراکم.

غلبه بر گلوگاه اتصال.

طراحی حرارتی و توان: مهندسی مقیاس

مقیاس‌پذیری هوش مصنوعی.

فهرست مطالب

محصولات ما

لینک‌های سریع

با ما در تماس باشید

دریافت نقل قول رایگان

چرا سرورهای GPU با فرمت OAM ستون فقرات زیرساخت رایانش سوپرکامپیوتری هوش مصنوعی هستند

استانداردسازی و افزایش تراکم.

غلبه بر گلوگاه اتصال.

طراحی حرارتی و توان: مهندسی مقیاس

مقیاس‌پذیری هوش مصنوعی.

فهرست مطالب

محصولات ما

لینک‌های سریع

با ما در تماس باشید