Shenzhen, China — 18. November 2025 — Angesichts der weiter steigenden globalen Nachfrage nach KI-Rechenleistung kündigte Aethlumis heute die Einführung seines neuen Flaggschiff-KI-Servers TG990V3 an. Nachdem der TG990V3 bereits in frühen Einsatzphasen bei führenden Internetunternehmen, KI-Forschungseinrichtungen und Cloud-Dienstleistern implementiert wurde, zeigte er deutliche Leistungssprünge beim Training großer Modelle. Bei Tests mit Arbeitslasten im Bereich von einer Billion Parametern erzielte der Server eine bis zu 40 % höhere Gesamteffizienz beim Training, wobei sich die Trainingszyklen im Vergleich zur vorherigen Generation um 30 %–32 % verkürzten.

Die KI-Infrastruktur erreicht einen neuen Wendepunkt
Da sich die Modellgrößen innerhalb der letzten zwei Jahre von Milliarden auf Billionen Parameter ausgeweitet haben, wird die Diskrepanz zwischen dem Fortschritt bei Algorithmen und der verfügbaren Recheninfrastruktur zunehmend offensichtlich. Aethlumis-CEO Wang Qihang betonte während der Veranstaltung:
„Das Tempo der Entwicklung großer Modelle hat die Geschwindigkeit traditioneller Infrastruktur-Upgrade-Prozesse übertroffen. Der TG990V3 wurde entwickelt, um eine höhere Trainings-Effizienz zu liefern, ohne die Hardwarekosten oder den Energieverbrauch zu erhöhen, und ermöglicht es KI-Teams, schneller und nachhaltiger zu iterieren.“
Branchenanalysten weisen darauf hin, dass der Wettbewerb im Bereich AI-Server sich von der reinen Hardware-Aggregation hin zur systemebenen architektonischen Optimierung verschoben hat – eine Ausrichtung, die der TG990V3 verkörpert.


Hoch-effiziente Interconnect-Architektur: Über 95 % Bandbreitennutzung bei Peer-to-Peer-Kommunikation im Training mit einem Billionen-Parameter-Modell
Ausgestattet mit acht OAM-GPU-Modulen basierend auf dem OAI-2.0-Standard verfügt der TG990V3 über eine neuartige mehrstufige Interconnect-Topologie, die für großskaliges verteiltes Training optimiert ist.
In internen Tests eines führenden Internetunternehmens an einem Modell mit einer Billion Parametern:
• Die GPU-zu-GPU-Interconnect-Effizienz blieb stabil bei 95–96 %
• Die Latenz bei der Gradientensynchronisierung sank um 27 %
• Die Gesamt-Cluster-Durchsatzleistung stieg um 21 %
Ein technischer Leiter des bewertenden KI-Labors kommentierte:
„Bei der Schulung von Modellen in diesem Umfang ist jeder Prozentpunkt an Kommunikationseffizienz entscheidend. Der TG990V3 behält auch bei wachsender Clustergröße eine stabile Leistung, was ein großer Vorteil ist.“

I/O-„Goldener Schnitt“-Design: Beseitigung des Datenengpasses beim KI-Training
Eine anhaltende Herausforderung beim KI-Training besteht darin, dass leistungsstarke GPUs aufgrund von I/O-Engpässen – unzureichende Netzwerkbandbreite, begrenzte Speicher-Durchsatzkapazität oder langsame Datenlade-Pipelines – oft unterausgelastet sind.
Um dies zu lösen, führte Aethlumis eine in der Industrie seltene Architektur im Verhältnis 8 : 8 : 16 (GPU : NIC : NVMe) ein:
• 400 Gbps dedizierte Netzwerkbandbreite pro GPU
• Zwei unabhängige NVMe Gen4/Gen5 SSDs pro GPU
• Mehr als 60 % geringere Latenz bei der Datenübertragung
Ein inländisches KI-Startup, das an frühen Tests teilnahm, stellte fest, dass die GPU-Auslastung konstant zwischen 94 % und 97 % lag, deutlich höher als die 70–75 % auf ihren bisherigen Servern.

Zuverlässigkeit auf Clusterebene: MTTR unter 3 Minuten, lineare Skalierung bis zu 92 %
Entwickelt für langdauernde, großskalige Trainingsworkloads verfügt die TG990V3 über eine vollständig modulare Architektur mit hot-swap-fähigen GPU-, Lüfter-, Strom- und Netzwerkmodulen.
Erste Kundentests berichteten:
• Mittlere Reparaturzeit (MTTR) reduziert von 10–12 Minuten auf unter 3 Minuten
• 99,95 % Systemverfügbarkeit während andauernder 24/7-Trainingszyklen
• 92 % lineare Skalierungseffizienz in Tausend-Karten-Clustern
• Dies gewährleistet beispiellose Zuverlässigkeit für Unternehmen, die große verteilte Trainingsumgebungen betreiben.
Leistungsmetriken aus der Praxis (von Early Adoptern)
• 32 % Reduzierung der Trainingszeit für Billionen-Parameter-große LLMs
• Mehr als 60 % verbesserte Datendurchsatzrate beim Laden
• 92 % Skalierungseffizienz in Multi-Node-Clustern
• 99,95 % Verfügbarkeit bei Langzeit-Belastung
Zu den Anwendungsbereichen zählen:
• Training von großen Sprachmodellen (LLM) (LLaMA, GPT-Serie usw.)
• Training multimodaler Modelle (Vision, Audio, Video, 3D)
• Unternehmensweite KI-Plattformen und Inferenz-Cluster
• Rechenumgebungen für universitäre und nationale Forschungsprojekte

Aufbau der nächsten Generation von KI-Infrastruktur
Dr. Li Zhang, Vice President of Product bei Aethlumis, fasste zusammen:
„Der TG990V3 ist keine einfache Hardware-Aktualisierung. Er steht für eine systemebenen Optimierung der gesamten Pipeline für das Training großer Modelle – einschließlich Interconnect-Architektur, I/O-Subsystem und intelligenter Betriebsführung. Wir haben ihn entwickelt, um die nächsten drei Jahre beschleunigten Wachstums der Modellgröße zu unterstützen.“
Der TG990V3 ist jetzt für den unternehmensweiten Einsatz verfügbar und wird bereits auf mehreren Cloud-Plattformen sowie bei KI-Unternehmen eingesetzt.