戻る

Aethlumis AIインフラストラクチャーソリューション

スケーラブルなコンピューティングアーキテクチャーで知能を強化する

近代の企業および研究機関は、データの爆発的増加とますます複雑化するAIワークロードに直面しています。

• 従来のサーバーシステムは限界に達しつつあります — 以下の点で対応に苦慮しています：

• GPU間接続帯域幅が不十分で、学習のボトルネックが生じる

• 持続的なワークロード下での熱効率の悪さ

• 複雑なメンテナンスサイクルにより、長時間のダウンタイムが発生

• 拡張を阻害する柔軟性のない拡張経路

Aethlumisはこれらの障壁を解決し,従来のデータセンターを高性能AIインフラストラクチャに変容するエンドツーエンドのインテリジェントコンピューティングソリューションを導入しました

TG990V3は,Aethlumisの次世代のAIフラッグシップサーバーで,大規模なトレーニング,推論,高密度のデータワークロードのために設計されています.

最先端のハードウェアとモジュール構造とインテリジェントな管理を統合し AIインフラストラクチャの核心となります

技術的ハイライト

計算能力: 4代目/5代目 Intel® Xeon® スケーラブルCPU,TDP最大350W

• GPU 能力: OAI 2.0 標準の下で完全に相互接続された最大 8 OAM GPU をサポートします

• 拡張の柔軟性 最大 14 × PCIe 5.0 スロット + オプション OCP 3.0 インターフェース

ストレージ性能: 高出力I/O用のNVMe/SAS/SATAドライブまで 20 × 2.5′′

• 効率性 双面設計 (6 × 54 V GPU ゾーン + 2 × 12 V CPU ゾーン) 変換損失を排除する

冷却システム: ゾーン制御付きの15つの二回転扇風機で,8つのGPUのフルロード下で安定した動作を保証します

賢明な管理 全面的なリモートモニタリングのためにIPMI 2.0,Redfish,SNMPをサポートするBMC AST2600チップ

この基盤は,高性能ダブルアップリンクとバランスシングルアップリンクの構成の両方をサポートするバランスドトポロジーアーキテクチャを可能にします.

建築層:

• 計算層 8つのOAM GPU を搭載した高密度Node TG990V3

• ネットワーク層 超低レイテンシースケールアウトクラスタを保証する8 × 400Gインターコネクト

• 貯蔵層 高速データアクセスのためのNVMeベースの並列ストレージ

管理層 オーケストレーション,テレメトリ,故障隔離のための統一されたレッドフィッシュ/IPMIプラットフォーム

このモジュール式でデカップリングされた設計により、独立したアップグレード、容易なメンテナンス、およびラックまたはデータセンターにまたがる水平方向のスケーラビリティを実現します。

AIモデルトレーニング

大規模なトランスフォーマー規模のワークロード向けに設計されており、GPU間の待ち時間最小限で大規模パラメーターモデルの学習が可能になります。

GPUDirect RDMAおよびGDSをサポートし、GPUとストレージ間で効率的なデータパスを実現します。

• 推論およびエッジAI

柔軟なGPU構成により、ビジョン、NLP、またはマルチモーダルAIの大規模な推論アクセラレーションが可能です。

AIクラウドサービスおよびオンプレミスのエッジ展開に最適です。

• エンタープライズコンピュートセンター

TG990V3を社内AIプラットフォームの中核として展開してください。

統合管理によりO&Mの複雑さが低減され、ファームウェアのオーケストレーション、ログ収集、スマート診断をサポートします。

• クラウドおよびHPCクラスター

大規模コンピューティングファブリック向けのシームレスな400Gスケールアウト機能 - マルチテナント環境およびハイブリッドAIクラウド向けに最適化されています。

カテゴリー	優位性	影響
パフォーマンス密度	8UサイズでデュアルXeon + 8OAM GPUを搭載	ラック単位あたりの計算性能を最大化
拡張性	14基のPCIe 5.0スロット、OCP 3.0対応	柔軟なリソース割り当て
メンテナンス性	ホットスワップ可能なモジュラー型サブシステム	ダウンタイムゼロでのメンテナンス
取り扱いやすさ	Redfish/IPMI対応のインテリジェントBMC	リモート制御および障害箇所の特定
エネルギー効率	デュアル電源プレーン設計	低い電力損失と発熱
可靠性	冗長化された電源およびファンモジュール	エンタープライズグレードの可用性