ما در اِیثلومیس از طریق روابط عمیق خود با رهبران جهانی فناوری مانند HPE، Dell و Huawei نیز در آستانهٔ اجرای زیرساختهای پیشرفته در حوزههای حیاتی قرار داریم. یک فناوری معماری در حوزه هوش مصنوعی وجود دارد که در ساخت سیستمهای رایانش ابری محرک هوش مصنوعی امروز ضروری شده است: سرور GPU OAM (ماژول شتابدهنده باز) . این فقط یک قطعه سختافزاری دیگر نیست، بلکه ستون فقراتی است که مقیاس، عملکرد و کارایی بارهای کاری هوش مصنوعی چالشبرانگیز عصر ما بر روی آن ساخته شدهاند.

استانداردسازی و افزایش تراکم.
مقیاس بزرگ مدلهای هوش مصنوعی، بهویژه مدلهای زبانی بزرگ (LLMs) و شبکههای عصبی پیچیدهتر، استفاده از معماری سرورهای قدیمی که برای مدلهای سادهتر طراحی شده بودند را غیرعملی کرده است. این مدلها به میزان بیسابقهای از قدرت پردازش موازی نیاز دارند که این امر مستلزم استفاده از دهها و گاهی صدها واحد GPU است که بهصورت هماهنگ در یک سیستم یکپارچه شدهاند. OAM یک استاندارد باز مهم است که یک سیستم باز محسوب میشود و شتابدهنده GPU و فرم فاکتور اختصاصی آن را از هم جدا میکند. این استانداردسازی که توسط کنسرسیومهای صنعتی راهاندازی شده است، به فروشندگانی مانند NVIDIA، AMD و دیگران اجازه میدهد تا GPUهایی با عملکرد بالا توسعه دهند که بتوانند در یک شاسی استاندارد و بهینهشده جای گیرند. برای مشتریان ما در حوزههای مالی، تولیدی و انرژی، این بدان معناست که آنها میتوانند خوشههای محاسباتی بزرگ و با عملکرد بالا ایجاد کنند بدون اینکه وابسته به اکوسیستم یک فروشنده منحصربهفرد باشند و بدین ترتیب سرمایهگذاری خود را انعطافپذیر و مقاوم در برابر تغییرات آینده نگه دارند.

غلبه بر گلوگاه اتصال.
استفاده از قدرت پردازش خامی که نتواند با سرعتهای استثنایی بین واحدهای پردازش گرافیکی (GPU) ارتباط برقرار کند، هیچ فایدهای ندارد. حتی یک سرور منفرد با چند GPU نیز نمیتواند برای آموزش مدلی با تریلیون پارامتر استفاده شود. هوشمندی واقعی معماری OAM در ترکیب آن با زیرساختهای ارتباطی فوق العاده سریع و کمتأخیری مانند NVLink و NVSwitch (در اکوسیستم NVIDIA) یا معادلهایش است. سرورهای OAM بهطور خاص بهمنظور پشتیبانی از ارتباط مستقیم بین واحدهای GPU در کل رک ماژولها طراحی شدهاند، بدون آنکه مسیرهای سنتی و کندتر PCIe دخیل شوند. این امر یک مبدل انبوه واحد را ایجاد میکند که در آن ترابایتها داده شبیهسازی میتوانند بهصورت تقریباً بلادرنگ مبادله شوند. همین موضوع است که مجموعهای از رایانههای جداگانه را به یک ابررایانه هوش مصنوعی واقعی و یکپارچه تبدیل میکند. این امر بهصورت مستقیم امکان تحویل مؤثر و بهموقع پروژهها را فراهم میآورد که بدون آن دستیابی به آنها ممکن نخواهد بود.

طراحی حرارتی و توان: مهندسی مقیاس
چگالی توان بالا در یک رک واحد، مشکلات قابل توجهی از نظر حرارتی و تغذیه برقی ایجاد میکند. سرور OAM فقط یک جعبه حاوی GPU نیست: بلکه یک اثر مهندسی سیستمی است که به عملکرد بلندمدت توجه دارد. این سیستمها با سیستمهای خنککننده پیشرفته و هماهنگ طراحی شدهاند، معمولاً خنککنندگی مایع مستقیم به چیپ، که در پراکندن گرما تا سطوح مصرف توان در حد کیلووات بسیار کارآمد است. این امر باعث میشود GPUها بتوانند فرکانس افزایشی خود را برای مدتزمان طولانی حفظ کنند، که در برنامههای آموزشی که هفتهها ادامه دارند، غیرقابل انفصال است. علاوه بر این، طراحی یکپارچه تغذیه برقی، تأمین برق پایدار، تمیز و در مقیاس بزرگ را فراهم میکند. این امر به معنی قابلیت اطمینان بیشتر و کاهش خطر توقف سیستم برای مشتریان ما در صورت انجام عملیات حیاتی آموزش هوش مصنوعی یا عملیات استنتاج در مقیاس بزرگ است.

مقیاسپذیری هوش مصنوعی.
در نهایت، فاکتور فرم OAM واحد زیرساخت مقیاسپذیر هوش مصنوعی است. این فاکتور امکان انباشت دادگاهها را به سمت رویکرد گسترش (scale-out) در شتابدهی فراهم میکند، نه رویکرد تقویت (scale-up). یک پاد با اتصال ماژولهای جداگانهٔ OAM و یک خوشهٔ رایانش سریع با اتصال پادها قابل ساخت است. تجربهٔ ما در یکپارچهسازی سیستم با شرکایمان مانند HPE و هوآوی، به ما امکان میدهد این ماژولاریته را ارائه دهیم تا سازمانها بتوانند قابلیتهای هوش مصنوعی خود را به صورت گامبهگام و موثر و متناسب با نیازشان توسعه دهند. این زیرساخت عملکرد و قابلیت اطمینان مورد نیاز کاربردهای حساس صنعتی و مالی هوش مصنوعی را فراهم میکند که از هوش مصنوعی تولیدی و تشخیص تقلب بلادرنگ تا کاربردهای چندوجهی مانند دوقلوهای دیجیتال و شبیهسازی تعمیر و نگهداری پیشبینیکننده گسترده شده است.
بهطور قطع، سرورهای GPU با معماری OAM تنها یک ارتقاء نیستند. آنها نشاندهندهٔ یک تغییر عهد در طراحی مراکز داده هستند و بهطور خاص با هدف غلبه بر محدودیتهای خاص محاسبات ابری هوش مصنوعی طراحی شدهاند. این سرورها سه عنصر اساسیِ چگالی استانداردشده، ارتباطات پیشرفته و مدیریت حرارتی مؤثر را فراهم میکنند که پایهای سفت و سخت را تشکیل میدهند بر اساس آن آیندهٔ هوش مصنوعی شکل میگیرد. ما در اَتلمیس با بهرهگیری از متحدان و تخصص فنی خود، این زیرساخت بنیادین را تأمین و نگهداری میکنیم تا مشتریان خود در صنایع مالی، تولیدی و انرژی را قادر سازیم تا بهصورت کارآمد و با اطمینان نوآوری کنند.