무료 견적 받기

대표자가 곧 연락을 드릴 것입니다.
이메일
전화/WhatsApp
이름
회사명
메시지
0/1000

뉴스

홈페이지 >  뉴스

Aethlumis, 차세대 AI 서버 TG990V3 공개로 대규모 모델 학습 효율 최대 40% 향상

2025.11.18

중국 선전 — 2025년 11월 18일 — 전 세계적으로 AI 컴퓨팅 파워에 대한 수요가 계속 증가하는 가운데, Aethlumis는 오늘 새로운 플래그십 AI 서버 TG990V3의 출시를 발표했다. 주요 인터넷 기업, AI 연구 기관 및 클라우드 서비스 제공업체에서 초기 단계의 배치를 완료한 TG990V3는 대규모 모델 훈련에서 뚜렷한 성능 향상을 입증했다. 조수조(1조 개) 매개변수 규모의 워크로드를 포함한 테스트에서 이 서버는 이전 세대 대비 전체 훈련 효율이 최대 40% 향상되었으며, 훈련 사이클이 30%~32% 단축되었다.

1-1.jpg

AI 인프라, 새로운 전환점 도달

지난 2년간 모델 크기가 수십억에서 수조 개의 파라미터로 확장되면서 알고리즘 발전과 컴퓨팅 인프라 사이의 격차가 점점 더 뚜렷해지고 있다. Aethlumis의 CEO 왕치항은 출시 행사에서 강조했다:

대규모 모델의 발전 속도가 기존 인프라 업그레이드 속도를 초월했습니다. TG990V3는 하드웨어 비용이나 전력 소비를 늘리지 않으면서도 더 높은 학습 효율을 제공하도록 설계되어, AI 팀이 보다 신속하고 지속 가능한 방식으로 반복 작업을 수행할 수 있도록 합니다.

업계 분석가들은 AI 서버 경쟁이 단순한 하드웨어 성능 경쟁에서 시스템 수준의 아키텍처 최적화로 옮겨갔으며, 이는 바로 TG990V3가 구현하고 있는 방향이라고 지적합니다.

2.jpg

 

01.jpg

고효율 인터커넥트 아키텍처: 1조 파라미터 학습에서 95% 이상의 피어 투 피어 대역폭 활용률

OAI 2.0 표준을 기반으로 한 8개의 OAM GPU 모듈을 장착한 TG990V3는 대규모 분산 학습에 최적화된 차세대 멀티티어 인터커넥트 토폴로지를 채택했습니다.

주요 인터넷 기업이 1조 파라미터 규모의 모델로 수행한 내부 테스트 결과:

• GPU 간 인터커넥트 효율이 95–96% 수준에서 안정적으로 유지됨

• 그래디언트 동기화 지연 시간 27% 감소

• 클러스터 전체 처리량 21% 향상

평가를 진행한 AI 연구소의 기술 이사는 다음과 같이 말했습니다.

"이러한 규모에서 모델을 학습시킬 때, 통신 효율의 매 백분율 포인트가 중요합니다. TG990V3는 클러스터 크기가 확장되더라도 안정적인 성능을 유지하므로 큰 장점입니다."


02.jpg

I/O '황금 비율' 설계: AI 학습에서의 데이터 병목 현상 제거

AI 학습에서 지속적으로 발생하는 문제는 고성능 GPU가 I/O 병목 현상으로 인해 종종 충분히 활용되지 못한다는 것입니다. 네트워크 대역폭 부족, 저장장치 처리량 제한 또는 느린 데이터 로딩 파이프라인이 그 원인입니다.

이를 해결하기 위해 Aethlumis는 업계에서 드물게 8 : 8 : 16 (GPU : NIC : NVMe) 아키텍처를 도입했습니다.

• GPU당 전용 네트워크 대역폭 400Gbps

• GPU당 독립된 NVMe Gen4/Gen5 SSD 두 개

• 데이터 로딩 지연 시간 60% 이상 감소

초기 테스트에 참여한 국내 AI 스타트업은 기존 서버에서 보이는 70~75% 범위보다 훨씬 높은 94~97%의 GPU 사용률이 일관되게 유지되었다고 언급했습니다.


03.jpg

클러스터 등급 신뢰성: MTTR 3분 이하, 최대 92%의 선형 확장성

장시간 대규모 학습 워크로드를 위해 설계된 TG990V3는 GPU, 팬, 전원 및 네트워킹 모듈을 핫스왑이 가능한 완전한 모듈식 아키텍처를 갖추고 있습니다.

초기 고객 테스트 결과:

• 평균 수리 시간(MTTR) 10~12분에서 3분 미만으로 단축

• 지속적인 24/7 학습 사이클 동안 99.95% 시스템 가용성

• 천 개 이상의 카드 클러스터에서 92%의 선형 확장 효율

• 이는 대규모 분산 학습 환경을 운영하는 기업에 있어 전례 없는 신뢰성을 보장합니다.

 

실제 성능 지표(초기 도입 고객 기준)

• 조 단위 파라미터 규모의 LLM 학습 시간 32% 단축

• 데이터 로딩 처리량 60% 이상 향상

• 다중 노드 클러스터에서 92%의 확장 효율성

• 장기간 작업에서 99.95% 가용성

응용 프로그램은 다음과 같습니다.

• 대규모 언어 모델(LLM) 학습 (LLaMA, GPT 시리즈 등)

• 멀티모달 모델 학습 (시각, 음성, 영상, 3D)

• 엔터프라이즈 AI 플랫폼 및 추론 클러스터

• 대학 및 국가 수준 연구 컴퓨팅 환경

3.jpg

차세대 AI 인프라 구축

Aethlumis 제품 부문 부사장인 리장 박사는 다음과 같이 말했습니다.

“TG990V3는 단순한 하드웨어 개선이 아닙니다. 이는 인터커넥트 아키텍처, I/O 서브시스템 및 지능형 운영을 포함한 전체 대규모 모델 학습 파이프라인의 시스템 수준 최적화를 의미합니다. 우리는 모델 규모의 향후 3년간 가속 성장을 지원할 수 있도록 이를 설계했습니다.”

TG990V3는 이제 엔터프라이즈 규모로 배포 가능하며, 여러 클라우드 플랫폼과 AI 기업에서 이미 사용 중입니다.